KR20230171930A - Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures - Google Patents

Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures Download PDF

Info

Publication number
KR20230171930A
KR20230171930A KR1020237034175A KR20237034175A KR20230171930A KR 20230171930 A KR20230171930 A KR 20230171930A KR 1020237034175 A KR1020237034175 A KR 1020237034175A KR 20237034175 A KR20237034175 A KR 20237034175A KR 20230171930 A KR20230171930 A KR 20230171930A
Authority
KR
South Korea
Prior art keywords
amino acid
voxel
channels
distance
voxels
Prior art date
Application number
KR1020237034175A
Other languages
Korean (ko)
Inventor
토비아스 햄프
홍 가오
카이-하우 파
Original Assignee
일루미나, 인코포레이티드
일루미나 케임브리지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/232,056 external-priority patent/US20220336054A1/en
Priority claimed from US17/703,958 external-priority patent/US20220336057A1/en
Application filed by 일루미나, 인코포레이티드, 일루미나 케임브리지 리미티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20230171930A publication Critical patent/KR20230171930A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

개시된 기술은 변이체들의 병원성을 결정하는 것에 관한 것이다. 특히, 개시된 기술은 단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 생성하는 것에 관한 것이다. 아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖는다. 텐서는 아미노산별 거리 채널들 및 변이체에 의해 발현된 단백질의 적어도 대안적인 대립유전자를 포함한다. 심층 콘볼루션 신경망은 텐서를 처리하는 것에 적어도 부분적으로 기초하여 변이체의 병원성을 결정한다. 개시된 기술은 단백질의 기준 대립유전자, 단백질에 관한 진화적 보존 데이터, 단백질에 관한 주석 데이터, 및 단백질에 관한 구조 신뢰도 데이터와 같은 보완적인 정보로 텐서를 추가로 증강시킨다.The disclosed technology relates to determining the pathogenicity of variants. In particular, the disclosed technology relates to creating amino acid-specific distance channels for a plurality of amino acids in a protein. Each of the amino acid-specific distance channels has voxel-specific distance values for voxels within a plurality of voxels. The tensor includes amino acid-specific distance channels and at least alternative alleles of the protein expressed by the variant. Deep convolutional neural networks determine the pathogenicity of variants based at least in part on processing tensors. The disclosed technology further augments the tensor with complementary information, such as reference alleles for the protein, evolutionary conservation data for the protein, annotation data for the protein, and structural confidence data for the protein.

Description

3차원(3D) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures

우선권 출원priority application

본 출원은 2021년 9월 7일자로 출원되고 발명의 명칭이 "Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures"인 미국 정규 특허 출원 제17/468,411호(대리인 문서 번호 ILLM 1037-3/IP-2051A-US)에 대한 우선권을 주장하며, 이는 2021년 4월 15일자로 출원되고 발명의 명칭이 "Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures"인 미국 정규 특허 출원 제17/232,056호(대리인 문서 번호 ILLM 1037-2/IP-2051-US)의 계속 출원이다.This application is filed on September 7, 2021 and is entitled “Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures” and is entitled “Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures” (Attorney Docket No. ILLM) 1037-3/IP-2051A-US), filed on April 15, 2021 and titled "Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures" This is a continuation of U.S. Provisional Patent Application No. 17/232,056 (Attorney Docket No. ILLM 1037-2/IP-2051-US).

본 출원은 2022년 3월 24일자로 출원되고 발명의 명칭이 "Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks"인 미국 정규 특허 출원 제17/703,935호(대리인 문서 번호 ILLM 1047-2/IP-2142-US)에 대한 우선권을 주장하며, 이는 결국, 2021년 4월 15일자로 출원되고 발명의 명칭이 "Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks"인 미국 가특허 출원 제63/175,495호(대리인 문서 번호 ILLM 1047-1/IP-2142-PRV)에 대한 우선권 또는 그의 이익을 주장한다.This application is filed March 24, 2022 and is entitled “Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks,” U.S. Provisional Patent Application Serial No. 17/703,935 (Attorney Docket No. ILLM 1047-2) /IP-2142-US), which is ultimately a U.S. provisional patent filed on April 15, 2021 and titled “Multi-channel Protein Voxelization To Predict Variant Pathogenicity Using Deep Convolutional Neural Networks” Claims priority to or the benefit of Application No. 63/175,495 (Attorney Docket No. ILLM 1047-1/IP-2142-PRV).

본 출원은 2022년 3월 24일자로 출원되고 발명의 명칭이 "Efficient Voxelization For Deep Learning"인 미국 정규 특허 출원 제17/703,958호(대리인 문서 번호 ILLM 1048-2/IP-2143-US)에 대한 우선권을 주장하며, 이는 결국, 2021년 4월 16일자로 출원되고 발명의 명칭이 "Efficient Voxelization For Deep Learning"인 미국 가특허 출원 제63/175,767호(대리인 문서 번호 ILLM 1048-1/IP-2143-PRV)에 대한 우선권 또는 그의 이익을 주장한다.This application relates to U.S. Provisional Patent Application No. 17/703,958 (Attorney Docket No. ILLM 1048-2/IP-2143-US), filed March 24, 2022, and entitled “Efficient Voxelization For Deep Learning.” Priority is claimed, which ultimately includes U.S. Provisional Patent Application No. 63/175,767, filed April 16, 2021 and entitled "Efficient Voxelization For Deep Learning" (Attorney Docket No. ILLM 1048-1/IP-2143) -PRV) asserts priority over or its interests.

우선권 출원들은 모든 목적들을 위해 이로써 참고로 포함된다.The priority applications are hereby incorporated by reference for all purposes.

관련 출원Related applications

본 출원은 동시에 출원되고 발명의 명칭이 "Artificial Intelligence-based Analysis of Protein Three-Dimensional (3D) Structures"인 PCT 특허 출원(대리인 문서 번호 ILLM 1037-4/IP-2051-PCT)과 관련된다. 관련 출원은 모든 목적들을 위해 이로써 참고로 포함된다.This application is related to a concurrently filed PCT patent application entitled “Artificial Intelligence-based Analysis of Protein Three-Dimensional (3D) Structures” (Attorney Docket No. ILLM 1037-4/IP-2051-PCT). The related application is hereby incorporated by reference for all purposes.

기술분야Technology field

개시된 기술은, 지능의 에뮬레이션을 위한; 그리고 불확실성을 갖는 추론을 위한 시스템들(예컨대, 퍼지 로직 시스템들), 적응적 시스템들, 기계 학습 시스템들, 및 인공 신경망들을 포함하는, 인공 지능 유형 컴퓨터들 및 디지털 데이터 처리 시스템들 및 대응하는 데이터 처리 방법들 및 제품들(즉, 지식 기반 시스템들, 추론 시스템들, 및 지식 획득 시스템들)에 관한 것이다. 특히, 개시된 기술은 심층 콘볼루션 신경망들을 사용하여 다중 채널 복셀화된 데이터를 분석하는 것에 관한 것이다.The disclosed techniques include: for emulation of intelligence; and artificial intelligence type computers and digital data processing systems and corresponding data, including systems for inference with uncertainty (e.g., fuzzy logic systems), adaptive systems, machine learning systems, and artificial neural networks. It relates to processing methods and products (i.e., knowledge-based systems, inference systems, and knowledge acquisition systems). In particular, the disclosed technology relates to analyzing multi-channel voxelized data using deep convolutional neural networks.

참조 문헌들References

다음은 본 명세서에 충분히 설명된 것처럼 모든 목적들을 위해 참고로 포함된다:The following is incorporated by reference for all purposes as if fully set forth herein:

문헌[Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)]; 문헌[Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning.Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)]; Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning.

Cell 176, 535-548 (2019)];Cell 176, 535-548 (2019)];

2017년 10월 16일자로 출원되고 발명의 명칭이 "TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA"인 미국 특허 출원 제62/573,144호(대리인 문서 번호 ILLM 1000-1 /IP-1611-PRV);U.S. Patent Application No. 62/573,144, filed October 16, 2017 and entitled "TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA" (Attorney Docket No. ILLM 1000-1 /IP-1611-PRV) );

2017년 10월 16일자로 출원되고 발명의 명칭이 "PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)"인 미국 특허 출원 제62/573,149호(대리인 문서 번호 ILLM 1000-2/IP-1612-PRV);U.S. Patent Application No. 62/573,149, filed October 16, 2017 and entitled “PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)” (Attorney Docket No. ILLM 1000-2/IP-1612-PRV) ;

2017년 10월 16일자로 출원되고 발명의 명칭이 "DEEP SEMI- SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA"인 미국 특허 출원 제62/573, 153호(대리인 문서 번호 ILLM 1000-3/IP-1613-PRV);U.S. Patent Application No. 62/573, No. 153, filed October 16, 2017 and entitled "DEEP SEMI- SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA" (Attorney Docket No. ILLM 1000-3/IP- 1613-PRV);

2017년 11월 7일자로 출원되고 발명의 명칭이 "PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)"인 미국 특허 출원 제62/582,898호(대리인 문서 번호 ILLM 1000-4/IP-1618-PRV);U.S. Patent Application Serial No. 62/582,898, filed November 7, 2017 and entitled "PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)" (Attorney Docket No. ILLM 1000-4/IP-1618- PRV);

2018년 10월 15일자로 출원되고 발명의 명칭이 "DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS"인 미국 특허 출원 제16/160,903호(대리인 문서 번호 ILLM 1000-5/IP- 1611-US);U.S. Patent Application No. 16/160,903, filed October 15, 2018 and entitled “DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS” (Attorney Docket No. ILLM 1000-5/IP-1611-US) ;

2018년 10월 15일자로 출원되고 발명의 명칭이 DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION"인 미국 특허 출원 제16/160,986호(대리인 문서 번호 ILLM 1000-6/IP- 1612-US);U.S. Patent Application Serial No. 16/160,986, filed October 15, 2018 and entitled DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION (Attorney Docket No. ILLM 1000-6/IP-1612-US);

2018년 10월 15일자로 출원되고 발명의 명칭이 "SEMI- SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS"인 미국 특허 출원 제16/160,968호(대리인 문서 번호 ILLM 1000-7/IP-1613-US); 및U.S. Patent Application No. 16/160,968, filed October 15, 2018 and entitled "SEMI- SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS" (Attorney Docket No. ILLM 1000-7/IP-1613- US); and

2019년 5월 8일자로 출원되고 발명의 명칭이 "DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS"인 미국 특허 출원 제16/407,149호(대리인 문서 번호 ILLM 1010-1/IP-1734-US).U.S. Patent Application No. 16/407,149, filed May 8, 2019 and entitled "DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS" (Attorney Docket No. ILLM 1010-1/IP-1734- US).

이 섹션에서 논의되는 주제는 단지 이 섹션 내에서의 그의 언급의 결과로서 종래 기술이라고 추정되어서는 안 된다. 유사하게, 이 섹션에서 언급되거나 배경기술로서 제공되는 주제와 연관된 문제는 종래 기술에서 이전에 인식되었다고 가정되어서는 안 된다. 이 섹션에서의 주제는 단지 상이한 접근법들을 표현할 뿐이며, 그 접근법 자체는 청구되는 기술의 구현예들에 또한 대응할 수 있다.The subject matter discussed in this section should not be assumed to be prior art solely as a result of its mention within this section. Similarly, it should not be assumed that issues related to the subject matter mentioned in this section or provided as background have been previously recognized in the prior art. The subject matter in this section merely represents different approaches, which may themselves also correspond to implementations of the claimed technology.

광범위한 의미에서, 기능 유전체학으로도 지칭되는 유전체학은 게놈 서열분석, 전사체 프로파일링 및 단백질체학과 같은 게놈 스케일 분석들을 사용함으로써 유기체의 모든 게놈 요소의 기능을 특성화하는 것을 목표로 한다. 유전체학은 데이터 중심(data-driven) 과학으로서 발생하였다 - 그것은 선입견이 있는 모델들 및 가설들을 테스트하기보다는 게놈 스케일 데이터의 탐구로부터 신규한 속성들을 발견함으로써 작동한다. 유전체학의 응용들은 유전자형과 표현형 사이의 연관성들을 찾는 것, 환자 계층화에 대한 바이오마커들을 발견하는 것, 유전자들의 기능을 예측하는 것, 및 전사 인핸서(transcriptional enhancer)들과 같은 생물화학적 활성 게놈 영역들을 차트화하는 것을 포함한다.In a broad sense, genomics, also referred to as functional genomics, aims to characterize the function of all genomic elements of an organism by using genome-scale analyzes such as genome sequencing, transcriptome profiling, and proteomics. Genomics emerged as a data-driven science – it works by discovering novel properties from the exploration of genome-scale data rather than testing preconceived models and hypotheses. Applications of genomics include finding associations between genotype and phenotype, discovering biomarkers for patient stratification, predicting the function of genes, and charting biochemically active genomic regions such as transcriptional enhancers. It includes anger.

유전체학 데이터는 쌍별 상관(pairwise correlation)들의 시각적 연구만으로 조사하기에는 너무 크고 너무 복잡하다. 대신에, 예상되지 않은 관계들의 발견을 지원하기 위해, 신규한 가설들 및 모델들을 도출하기 위해, 그리고 예측들을 행하기 위해 분석 툴들이 요구된다. 가정들 및 도메인 전문지식이 하드 코딩되는 일부 알고리즘들과는 달리, 기계 학습 알고리즘들은 데이터에서 패턴들을 자동으로 검출하도록 설계된다. 따라서, 기계 학습 알고리즘들은 데이터 중심 과학, 및 특히 유전체학에 적합하다. 그러나, 기계 학습 알고리즘들의 성능은 데이터가 표현되는 방법, 즉 각각의 변수(특징부로도 불림)가 계산되는 방법에 강하게 의존할 수 있다. 예를 들어, 형광 현미경 이미지로부터 종양을 악성 또는 양성으로 분류하기 위해, 전처리 알고리즘이 세포들을 검출할 수 있고, 세포 유형을 식별할 수 있고, 각각의 세포 유형에 대한 세포 카운트들의 목록을 생성할 수 있다.Genomics data are too large and too complex to be examined through visual studies of pairwise correlations alone. Instead, analysis tools are required to support the discovery of unexpected relationships, to derive new hypotheses and models, and to make predictions. Unlike some algorithms in which assumptions and domain expertise are hard-coded, machine learning algorithms are designed to automatically detect patterns in data. Therefore, machine learning algorithms are suitable for data-driven science, and especially genomics. However, the performance of machine learning algorithms can strongly depend on how the data is represented, i.e., how each variable (also called a feature) is computed. For example, to classify a tumor as malignant or benign from a fluorescence microscopy image, a preprocessing algorithm can detect cells, identify cell types, and generate a list of cell counts for each cell type. there is.

기계 학습 모델은 추정된 세포 카운트들을 취할 수 있는데, 이러한 카운트는 종양을 분류하기 위한 입력 특징부들로서, 수작업으로 작성된 특징부들의 예들이다. 중심 문제는 분류 성능이 이러한 특징부들의 품질 및 관련성에 크게 의존한다는 것이다. 예를 들어, 관련 시각적 특징부들, 예컨대 세포 형태학, 세포들 사이의 거리들, 또는 기관 내의 국지성은 세포 카운트들에서 캡처되지 않고, 데이터의 이러한 불완전한 표현은 분류 정확도를 감소시킬 수 있다.The machine learning model can take the estimated cell counts, which are examples of hand-crafted features, as input features for classifying the tumor. The central problem is that classification performance is highly dependent on the quality and relevance of these features. For example, relevant visual features such as cell morphology, distances between cells, or localization within an organ are not captured in cell counts, and this incomplete representation of the data can reduce classification accuracy.

기계 학습의 하위구분인 심층 학습은 기계 학습 모델 자체에 특징부들의 계산을 임베딩하여 엔드-투-엔드(end-to-end) 모델들을 산출함으로써 이러한 문제를 다룬다. 이러한 결과는 심층 신경망들, 즉 연속적인 기본 동작들을 포함하는 기계 학습 모델들의 개발을 통해 실현되었는데, 이들은 선행 동작들의 결과들을 입력으로서 취함으로써 점점 더 복잡한 특징부들을 계산한다. 심층 신경망들은 위의 예에서 세포들의 세포 형태학 및 공간 구성과 같은 높은 복잡도의 관련 특징부들을 발견함으로써 예측 정확도를 개선할 수 있다. 심층 신경망들의 구성 및 훈련은, 특히 그래픽 처리 유닛(graphical processing unit, GPU)들의 사용을 통해, 데이터의 폭증, 알고리즘 진보들, 및 계산 용량의 실질적인 증가들에 의해 가능하게 되었다.Deep learning, a subdivision of machine learning, addresses this problem by embedding the computation of features in the machine learning model itself to produce end-to-end models. This result has been realized through the development of deep neural networks, i.e. machine learning models containing successive elementary operations, which compute increasingly complex features by taking as input the results of preceding operations. Deep neural networks can improve prediction accuracy by discovering relevant features of high complexity, such as the cell morphology and spatial organization of the cells in the example above. Construction and training of deep neural networks has been made possible by an explosion of data, algorithmic advances, and substantial increases in computational capacity, particularly through the use of graphical processing units (GPUs).

감독형 학습의 목표는, 특징부들을 입력으로서 취하고 소위 표적 변수에 대한 예측을 반환하는 모델을 획득하는 것이다. 감독형 학습 문제의 일례는 표준(canonical) 스플라이스 부위 서열의 존재 여부, 스플라이싱 분기점의 위치 또는 인트론 길이와 같은 RNA 상의 특징부들을 고려하여 인트론이 스플라이스-아웃(splice out)되는지의 여부를 예측하는 것(표적)이다. 기계 학습 모델을 훈련시키는 것은 그의 파라미터들을 학습하는 것을 지칭하는데, 이는 보통, 보이지 않은 데이터에 대한 정확한 예측들을 행하는 목적으로 훈련 데이터에 대한 손실 함수를 최소화하는 것을 수반한다.The goal of supervised learning is to obtain a model that takes features as input and returns a prediction for the so-called target variable. An example of a supervised learning problem is whether an intron is splice out, taking into account features on the RNA, such as the presence of a canonical splice site sequence, the location of the splicing fork, or the intron length. is to predict (target). Training a machine learning model refers to learning its parameters, which usually involves minimizing the loss function on the training data with the goal of making accurate predictions on unseen data.

컴퓨터 생명공학에서의 많은 감독형 학습 문제들의 경우, 입력 데이터는 예측들을 행하는 데 잠재적으로 유용한 수치 또는 카테고리 데이터를 각각 함유하는 다수의 열들 또는 특징부들을 갖는 표로서 표현될 수 있다. 일부 입력 데이터는 표 내의 특징부들(예컨대, 온도 또는 시간)로서 자연적으로 표현되는 반면, (k-량체 카운트들로의 데옥시리보핵산(DNA) 서열과 같이) 다른 입력 데이터는 표로 나타낸 표현에 맞추기 위해 특징부 추출로 불리는 프로세스를 사용하여 먼저 변환될 필요가 있다. 인트론 스플라이싱 예측 문제의 경우, 표준 스플라이스 부위 서열의 존재 유무, 스플라이싱 분기점의 위치 및 인트론 길이는 표로 나타낸 포맷으로 수집된 미리처리된 특징부들일 수 있다. 표로 나타낸 데이터는, 로지스틱 회귀(logistic regression)와 같은 단순한 선형 모델들 내지 신경망들 및 많은 다른 것들과 같은 더 유연한 비선형 모델들의 범위에 있는 광범위한 감독형 기계 학습 모델들에 대한 표준이다.For many supervised learning problems in computational biotechnology, the input data can be represented as a table with a number of columns or features, each containing numerical or categorical data potentially useful for making predictions. Some input data are naturally represented as features in a table (such as temperature or time), while other input data (such as deoxyribonucleic acid (DNA) sequence as k-mer counts) are tailored to a tabular representation. To do this, they first need to be transformed using a process called feature extraction. For intron splicing prediction problems, the presence or absence of canonical splice site sequences, the location of splicing forks, and intron length can be preprocessed features collected in a tabular format. Tabular data is the standard for a wide range of supervised machine learning models, ranging from simple linear models such as logistic regression to more flexible nonlinear models such as neural networks and many others.

로지스틱 회귀는 이진 분류기, 즉 이진 표적 변수를 예측하는 감독형 학습 모델이다. 구체적으로, 로지스틱 회귀는 시그모이드 함수, 일정 유형의 활성화 함수를 사용하여 [0,1] 간격에 맵핑된 입력 특징부들의 가중 합을 계산함으로써 포지티브 클래스의 확률을 예측한다. 로지스틱 회귀의 파라미터들, 또는 상이한 활성화 함수들을 사용하는 다른 선형 분류기들은 가중 합의 가중치들이다. 선형 분류기들은 클래스들, 예를 들어 스플라이스-아웃된 또는 스플라이스-아웃되지 않은 인트론의 것이 입력 특징부들의 가중 합으로 잘 구별될 수 없을 때 실패한다. 예측 성능을 개선하기 위해, 예를 들어, 제곱들 또는 쌍별 곱들을 취함으로써 새로운 방식들로 기존의 특징부들을 변형 또는 조합함으로써 새로운 입력 특징부들이 수동으로 추가할 수 있다.Logistic regression is a binary classifier, that is, a supervised learning model that predicts a binary target variable. Specifically, logistic regression predicts the probability of a positive class by calculating a weighted sum of input features mapped to the [0,1] interval using a sigmoid function, a type of activation function. The parameters of logistic regression, or other linear classifiers using different activation functions, are the weights of the weighted sum. Linear classifiers fail when classes, for example of spliced-out or non-spliced-out introns, cannot be well distinguished by a weighted sum of input features. To improve prediction performance, new input features can be added manually by transforming or combining existing features in new ways, for example by taking squares or pairwise products.

신경망들은 은닉 층들을 사용하여 이러한 비선형 특징부 변환들을 자동으로 학습한다. 각각의 은닉 층은 그들의 출력이 시그모이드 함수 또는 더 대중적인 정류형 선형 유닛(rectified-linear unit, ReLU)과 같은 비선형 활성화 함수에 의해 변환된 다수의 선형 모델들로서 생각될 수 있다. 함께, 이러한 층들은 입력 특징부들을 관련된 복잡한 패턴들로 구성하는데, 이들은 2개의 클래스들을 구별하는 태스크를 용이하게 한다.Neural networks automatically learn these nonlinear feature transformations using hidden layers. Each hidden layer can be thought of as a number of linear models whose outputs are transformed by a non-linear activation function, such as the sigmoid function or the more popular rectified-linear unit (ReLU). Together, these layers organize input features into complex patterns that relate them, which facilitate the task of distinguishing the two classes.

심층 신경망들은 많은 은닉 층들을 사용하고, 층은 각각의 뉴런이 선행 층의 모든 뉴런들로부터 입력들을 수신할 때 완전 접속된 것으로 간주된다. 신경망들은 일반적으로, 확률론적 기울기 하강(stochastic gradient descent), 즉 매우 큰 데이터 세트들에 대한 모델들을 훈련시키는 데 적합한 알고리즘을 사용하여 훈련된다. 최신 심층 학습 프레임워크들을 사용한 신경망들의 구현예는 상이한 아키텍처들 및 데이터 세트들로 신속한 프로토타이핑을 가능하게 한다. 완전 접속 신경망들은 다수의 유전학 응용예들에 사용될 수 있는데, 이러한 응용예들은 서열 보존 또는 스플라이스 인자들의 결합 모티프들의 존재와 같은 서열 특징부들로부터의 주어진 서열에 대해 스플라이스-인(splice in)된 엑손들의 백분율을 예측하는 것; 잠재적인 질환 유발 유전자 변이체들을 우선순위화하는 것; 및 염색질 마크들, 유전자 발현 및 진화적 보존(evolutionary conservation)과 같은 특징부들을 사용하여 주어진 게놈 영역 내의 cis-조절 요소들을 예측하는 것을 포함한다.Deep neural networks use many hidden layers, and a layer is considered fully connected when each neuron receives inputs from all neurons in the preceding layer. Neural networks are typically trained using stochastic gradient descent, an algorithm suitable for training models on very large data sets. Implementations of neural networks using modern deep learning frameworks enable rapid prototyping with different architectures and data sets. Fully connected neural networks can be used in a number of genetics applications, such as determining what is splice in for a given sequence from sequence features, such as sequence conservation or the presence of binding motifs of splice factors. predicting the percentage of exons; prioritizing potential disease-causing genetic variants; and predicting cis -regulatory elements within a given genomic region using features such as chromatin marks, gene expression and evolutionary conservation.

효과적인 예측들을 위해 공간적 및 종방향 데이터에서의 로컬 종속성들이 고려되어야 한다. 예를 들어, DNA 서열 또는 이미지의 픽셀들을 셔플링하는 것은 정보성 패턴들을 심하게 파괴한다. 이러한 로컬 종속성들은 표로 나타낸 데이터와는 분리된 공간적 또는 종방향 데이터를 설정하는데, 이를 위한 특징부들의 순서화는 임의적이다. 특정 전사 인자에 의해 게놈 영역들을 결합 대 비결합으로 분류하는 문제를 고려하는데, 여기서 결합 영역들은 서열분석(ChIP-seq) 데이터가 뒤에 오는 염색질 면역침전(immunoprecipitation)에서 고신뢰 결합 이벤트들로서 정의된다. 서열 모티프들을 인식함으로써 전사 인자들이 DNA에 결합된다. 서열 내의 k-량체 인스턴스(instance)들의 수 또는 위치 가중치 행렬(position weight matrix, PWM) 매칭들과 같은 서열 도출 특징부들에 기초한 완전 접속 층이 이러한 태스크에 사용될 수 있다. 따라서, k-량체 또는 PWM 인스턴스 빈도들은 서열 내에서 모티프들을 시프트하는 것에 강건하기 때문에, 그러한 모델들은 상이한 위치들에 위치된 동일한 모티프들을 갖는 서열들에 대한 웰(well)을 일반화할 수 있다. 그러나, 그들은 전사 인자 결합이 잘 정의된 간격을 갖는 다수의 모티프들의 조합에 의존하는 패턴들을 인식하지 못할 것이다. 또한, 가능한 k-량체들의 수는 k-량체 길이에 따라 기하급수적으로 증가하는데, 이는 저장 및 오버피팅 문제들 둘 모두를 제기한다.For effective predictions, local dependencies in spatial and longitudinal data must be considered. For example, shuffling the pixels of a DNA sequence or image severely destroys informative patterns. These local dependencies establish spatial or longitudinal data separate from the tabular data, for which the ordering of features is arbitrary. We consider the problem of classifying genomic regions as binding versus nonbinding by a specific transcription factor, where binding regions are defined as high-confidence binding events in chromatin immunoprecipitation followed by sequencing (ChIP-seq) data. Transcription factors bind to DNA by recognizing sequence motifs. A fully connected layer based on sequence derived features such as the number of k -mer instances in the sequence or position weight matrix (PWM) matches can be used for this task. Therefore, because k -mer or PWM instance frequencies are robust to shifting motifs within a sequence, such models can generalize well to sequences with identical motifs located at different positions. However, they will not recognize patterns in which transcription factor binding relies on the combination of multiple motifs with well-defined spacing. Additionally, the number of possible k -mers increases exponentially with k -mer length, which poses both storage and overfitting problems.

콘볼루션 층은 완전 접속 층의 특수 형태이며, 여기서 동일한 완전 접속 층은 예를 들어 6 bp 윈도우에서, 모든 서열 위치들에 국부적으로 적용된다. 이러한 접근법은 또한, 예를 들어 전사 인자들 GATA1 및 TAL1에 대해, 다수의 PWM들을 사용하여 서열을 스캐닝하는 것으로 보일 수 있다. 위치들에 걸쳐 동일한 모델 파라미터들을 사용함으로써, 파라미터들의 총 수는 급격히 감소되고, 네트워크는 훈련 동안 보이지 않는 위치들에서 모티프를 검출할 수 있다. 각각의 콘볼루션 층은 필터와 서열 사이의 매칭을 정량화하는 모든 위치에서의 스칼라 값을 생성함으로써 여러 필터들로 서열을 스캔한다. 완전 접속 신경망들에서와 같이, 비선형 활성화 함수(일반적으로, ReLU)가 각각의 층에 적용된다. 다음으로, 풀링(pooling) 동작이 적용되는데, 이는 위치 축에 걸친 인접 빈들에서의 활성화를 응집하여, 일반적으로, 각각의 채널에 대해 최대 또는 평균 활성화를 취한다. 풀링은 유효 서열 길이를 감소시키고, 신호를 조잡해지게 한다. 후속 콘볼루션 층은 이전 층의 출력을 구성하며, GATA1 모티프 및 TAL1 모티프가 일부 거리 범위에 존재하였는지의 여부를 검출할 수 있다. 마지막으로, 콘볼루션 층들의 출력은 최종 예측 태스크를 수행하기 위해 완전 접속 신경망에 대한 입력으로서 사용될 수 있다. 따라서, 상이한 유형들의 신경망 층들(예컨대, 완전 접속 층들 및 콘볼루션 층들)이 단일 신경망 내에서 조합될 수 있다.A convolutional layer is a special form of a fully connected layer, where the same fully connected layer is applied locally to all sequence positions, for example in a 6 bp window. This approach can also be seen as scanning the sequence using multiple PWMs, for example for the transcription factors GATA1 and TAL1. By using the same model parameters across positions, the total number of parameters is drastically reduced, and the network can detect motifs in positions that were unseen during training. Each convolutional layer scans the sequence through several filters by generating a scalar value at every position that quantifies the match between the filters and the sequence. As in fully connected neural networks, a non-linear activation function (usually ReLU) is applied to each layer. Next, a pooling operation is applied, which aggregates the activation in adjacent bins across the position axis, typically taking the maximum or average activation for each channel. Pooling reduces the effective sequence length and coarsens the signal. The subsequent convolutional layer constitutes the output of the previous layer and can detect whether the GATA1 motif and TAL1 motif were present in some distance range. Finally, the output of the convolutional layers can be used as input to a fully connected neural network to perform the final prediction task. Accordingly, different types of neural network layers (eg, fully connected layers and convolutional layers) can be combined within a single neural network.

콘볼루션 신경망(convolutional neural network, CNN)들은 DNA 서열 단독에 기초하여 다양한 분자 표현형들을 예측할 수 있다. 응용예들은 전사 인자 결합 부위들을 분류하는 것, 및 염색질 특징부들, DNA 접촉 맵들, DNA 메틸화, 유전자 발현, 번역 효율, RBP 결합, 및 마이크로RNA(miRNA) 표적들과 같은 분자 표현형들을 예측하는 것을 포함한다. 서열로부터 분자 표현형을 예측하는 것에 더하여, 콘볼루션 신경망들은 수작업으로 작성된 생물정보학 파이프라인들에 의해 전통적으로 다루어진 더 많은 기술적 태스크들에 적용될 수 있다. 예를 들어, 콘볼루션 신경망들은 가이드 RNA의 특이성을 예측할 수 있고, ChIP-seq를 잡음제거할 수 있고, Hi-C 데이터 해상도를 향상시킬 수 있고, DNA 서열들로부터 기원의 실험을 예측할 수 있고, 유전자 변이체들을 호출할 수 있다. 콘볼루션 신경망들은 또한, 게놈에서 장거리 종속성들을 모델링하기 위해 채용되었다. 상호작용하는 조절 요소들이 전개된 선형 DNA 서열 상에서 원거리에 위치될 수 있지만, 이러한 요소들은 종종, 실제 3D 염색질 형태에서 근위에 있다. 따라서, 선형 DNA 서열로부터 분자 표현형을 모델링하는 것은, 염색질의 대강의 근사화에도 불구하고, 장거리 종속성들을 허용하고 모델이 프로모터-인핸서 루핑과 같은 3D 구성의 태양들을 암시적으로 학습할 수 있게 함으로써 개선될 수 있다. 이것은 최대 32 kb의 수용 필드를 갖는 확장된 콘볼루션들을 사용함으로써 달성된다. 확장된 콘볼루션들은 또한, 스플라이스 부위들이 10 kb의 수용 필드를 사용하여 서열로부터 예측될 수 있게 하여, 이에 의해, 전형적인 인간 인트론들만큼 긴 거리들을 가로질러 유전자 서열의 통합을 가능하게 한다(문헌[Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning. Cell 176, 535-548 (2019)] 참조).Convolutional neural networks (CNNs) can predict a variety of molecular phenotypes based on DNA sequence alone. Applications include classifying transcription factor binding sites and predicting molecular phenotypes such as chromatin features, DNA contact maps, DNA methylation, gene expression, translation efficiency, RBP binding, and microRNA (miRNA) targets. do. In addition to predicting molecular phenotypes from sequences, convolutional neural networks can be applied to many more technical tasks traditionally handled by hand-written bioinformatics pipelines. For example, convolutional neural networks can predict the specificity of guide RNA, denoise ChIP-seq, improve Hi-C data resolution, predict experimental origin from DNA sequences, etc. Genetic variants can be called. Convolutional neural networks have also been employed to model long-range dependencies in the genome. Although interacting regulatory elements may be located distal on the unfolded linear DNA sequence, these elements are often proximal in the actual 3D chromatin conformation. Therefore, modeling molecular phenotypes from linear DNA sequences, despite being a rough approximation of chromatin, can be improved by allowing for long-range dependencies and allowing the model to implicitly learn aspects of 3D organization, such as promoter-enhancer looping. You can. This is achieved by using extended convolutions with a receptive field of up to 32 kb. Extended convolutions also allow splice sites to be predicted from the sequence using a 10 kb receptive field, thereby enabling integration of gene sequences across distances as long as typical human introns (see [Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning. Cell 176, 535-548 (2019)]).

상이한 유형들의 신경망은 그들의 파라미터 공유 스킴들에 의해 특징지어질 수 있다. 예를 들어, 완전 접속 층들은 파라미터 공유를 갖지 않는 반면, 콘볼루션 층들은 그들의 입력의 모든 위치에서 동일한 필터들을 적용함으로써 번역 불변성을 부과한다. 순환 신경망(recurrent neural network, RNN)들은 상이한 파라미터 공유 스킴을 구현하는, DNA 서열들 또는 시계열과 같은 순차적 데이터를 처리하기 위한 콘볼루션 신경망들에 대한 대안이다. 순환 신경망들은 각각의 서열 요소에 동일한 동작을 적용한다. 동작은 이전 서열 요소의 메모리 및 새로운 입력을 입력으로서 취한다. 그것은 메모리를 업데이트하고, 후속 층들로 전달되거나 모델 예측들로서 직접 사용되는 출력을 선택적으로 방출한다. 각각의 서열 요소에서 동일한 모델을 적용함으로써, 순환 신경망들은 처리된 서열에서 위치 인덱스에 대해 불변이다. 예를 들어, 순환 신경망은 서열 내의 위치에 관계없이 DNA 서열에서 개방 판독 프레임을 검출할 수 있다. 이러한 태스크는 시작 코돈 뒤에 인-프레임 정지 코돈이 이어지는 것과 같은 소정의 일련의 입력들의 인식을 요구한다.Different types of neural networks can be characterized by their parameter sharing schemes. For example, fully connected layers have no parameter sharing, while convolutional layers impose translation invariance by applying the same filters at every location of their input. Recurrent neural networks (RNNs) are an alternative to convolutional neural networks for processing sequential data, such as DNA sequences or time series, that implement different parameter sharing schemes. Recurrent neural networks apply the same operation to each sequence element. The operation takes as input a memory of previous sequence elements and a new input. It updates the memory and selectively emits output that is passed on to subsequent layers or used directly as model predictions. By applying the same model at each sequence element, recurrent neural networks are invariant to the positional index in the processed sequence. For example, recurrent neural networks can detect open reading frames in a DNA sequence regardless of their location in the sequence. This task requires recognition of a certain series of inputs, such as a start codon followed by an in-frame stop codon.

콘볼루션 신경망들에 비해 순환 신경망들의 주요 이점은, 그들이 이론적으로, 메모리를 통해 무한히 긴 서열들을 거쳐 정보를 전달할 수 있다는 것이다. 또한, 순환 신경망들은 mRNA 서열들과 같은 광범위하게 변화하는 길이의 서열들을 자연적으로 처리할 수 있다. 그러나, 다양한 트릭들(예컨대, 확장된 콘볼루션들)과 조합된 콘볼루션 신경망들은 오디오 합성 및 기계 번역과 같은 서열 모델링 태스크들에 대해 순환 신경망들과 유사하거나 심지어 그보다 더 양호한 성능들에 도달할 수 있다. 순환 신경망들은 단일 세포 DNA 메틸화 상태들, RBP 결합, 전사 인자 결합, 및 DNA 접근성을 예측하기 위한 콘볼루션 신경망들의 출력들을 응집할 수 있다. 또한, 순환 신경망들이 순차적인 동작을 적용하기 때문에, 그들은 쉽게 병렬화될 수 없고, 따라서, 콘볼루션 신경망들보다 계산하기가 훨씬 더 느리다.The main advantage of recurrent neural networks over convolutional neural networks is that they can, in theory, convey information over infinitely long sequences through memory. Additionally, recurrent neural networks can naturally process sequences of widely varying lengths, such as mRNA sequences. However, convolutional neural networks combined with various tricks (e.g., dilated convolutions) can reach similar or even better performances than recurrent neural networks for sequence modeling tasks such as audio synthesis and machine translation. there is. Recurrent neural networks can aggregate the outputs of convolutional neural networks to predict single cell DNA methylation states, RBP binding, transcription factor binding, and DNA accessibility. Additionally, because recurrent neural networks apply sequential operations, they cannot be easily parallelized and are therefore much slower to compute than convolutional neural networks.

각각의 인간은 고유한 유전자 코드를 갖지만, 인간 유전자 코드의 대부분은 모든 인간들에 대해 공통적이다. 일부 경우들에 있어서, 인간 유전자 코드는 유전자 변이체로 불리는 이상치를 포함할 수 있는데, 이는 비교적 작은 그룹의 인간 집단의 개인들 사이에서 공통적일 수 있다. 예를 들어, 특정 인간 단백질은 특정 서열의 아미노산을 포함할 수 있는 반면, 그 단백질의 변이체는 그 외의 동일한 특정 서열 내의 하나의 아미노산만큼 상이할 수 있다.Each human has a unique genetic code, but most of the human genetic code is common to all humans. In some cases, the human genetic code may contain outliers, called genetic variants, which may be common among individuals in a relatively small group of human populations. For example, a particular human protein may contain a particular sequence of amino acids, while variants of that protein may differ by as much as one amino acid within the otherwise identical particular sequence.

유전자 변이체들은 병원성이어서, 질환들로 이어질 수 있다. 그러한 유전자 변이체들의 대부분이 자연적인 선택에 의해 게놈들로부터 고갈되었지만, 어느 유전자 변이체들이 병원성일 가능성이 있는지를 식별하는 능력은 연구자들이 이러한 유전자 변이체들에 초점을 맞추어 대응하는 질환들 및 그들의 진단, 처치, 또는 치유의 이해를 얻는 데 도움이 될 수 있다. 수백만 개의 인간 유전자 변이체들의 임상 해석은 불명확하게 유지된다. 가장 빈번한 병원성 변이체들 중 일부는 단백질의 아미노산을 변화시키는 단일 뉴클레오티드 미스센스(missense) 돌연변이들이다. 그러나, 모든 미스센스 돌연변이들이 병원성인 것은 아니다.Genetic variants can be pathogenic, leading to diseases. Although most of such genetic variants have been depleted from the genomes by natural selection, the ability to identify which genetic variants are likely to be pathogenic allows researchers to focus on these genetic variants to respond to diseases and their diagnosis and treatment. , or it can help you gain healing understanding. The clinical interpretation of millions of human genetic variants remains unclear. Some of the most frequent pathogenic variants are single nucleotide missense mutations that change amino acids in proteins. However, not all missense mutations are pathogenic.

생물학적 서열들로부터 직접적으로 분자 표현형들을 예측할 수 있는 모델들은 유전자 변이와 표현형 변이 사이의 연관성들을 프로브하기 위해 인실리코(in silico) 섭동 툴들로서 사용될 수 있고, 양적 형질 유전자좌(quantitative trait loci) 식별 및 변이체 우선순위화를 위한 새로운 방법으로서 부상하였다. 이러한 접근법들은 복잡한 표현형들의 전장유전체 연관성(genome-wide association) 연구들에 의해 식별된 변이체들의 대부분이 비-코딩이라면, 매우 중요한데, 이는 표현형들에 대한 그들의 효과들 및 기여를 추정하는 것을 어렵게 만든다. 또한, 연결 불균형은 변이체들의 블록들이 동시-유전되는 결과를 초래하는데, 이는 개개의 인과 변이체들을 정확하게 찾아내는 것에 어려움들을 야기한다. 따라서, 그러한 변이체들의 영향을 평가하기 위한 심문 툴들로서 사용될 수 있는 서열 기반 심층 학습 모델들은 복잡한 표현형들의 잠재적인 드라이버들을 찾기 위한 유망한 접근법을 제공한다. 하나의 예는 전사 인자 결합, 염색질 접근성 또는 유전자 발현 예측들의 면에서 2개의 변이체들 사이의 차이로부터 간접적으로 짧은 삽입들 또는 결실들(인델들) 및 비-코딩 단일 뉴클레오티드 변이체들의 효과를 예측하는 것을 포함한다. 다른 예는 스플라이싱에 대한 유전자 변이체들의 서열 또는 정량적 효과들로부터 신규한 스플라이스 부위 생성을 예측하는 것을 포함한다.Models that can predict molecular phenotypes directly from biological sequences can be used as in silico perturbation tools to probe associations between genetic and phenotypic variation, and to identify quantitative trait loci and variants. It has emerged as a new method for prioritization. These approaches are very important if most of the variants identified by genome-wide association studies of complex phenotypes are non-coding, making it difficult to estimate their effects and contribution to the phenotypes. Additionally, linkage disequilibrium results in blocks of variants being co-inherited, which creates difficulties in pinpointing individual causal variants. Therefore, sequence-based deep learning models that can be used as interrogation tools to assess the impact of such variants provide a promising approach to discover potential drivers of complex phenotypes. One example is predicting the effect of short insertions or deletions (indels) and non-coding single nucleotide variants indirectly from differences between two variants in terms of transcription factor binding, chromatin accessibility or gene expression predictions. Includes. Other examples include predicting the creation of novel splice sites from the sequence or quantitative effects of genetic variants on splicing.

변이체 효과 예측들을 위한 엔드-투-엔드 심층 학습 접근법들은 서열 보존 데이터 및 단백질 서열로부터의 미스센스 변이체들의 병원성을 예측하기 위해 적용된다(본 명세서에서 "PrimateAI"로 지칭되는 문헌[Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)] 참조). PrimateAI는 종간(cross-species) 정보를 사용한 데이터 증강에 의해 공지된 병원성의 변이체들에 대해 훈련된 심층 신경망들을 사용한다. 특히, PrimateAI는 차이를 비교하고 훈련된 심층 신경망들을 사용하여 돌연변이들의 병원성을 결정하기 위해 야생형 및 변종 단백질의 서열들을 사용한다. 병원성 예측을 위한 단백질 서열들을 활용하는 그러한 접근법은, 환상성(circularity) 문제 및 이전 지식에 대한 오버피팅을 회피할 수 있기 때문에 유망하다. 그러나, 심층 신경망들을 효과적으로 훈련시키기 위한 적절한 수의 데이터와 비교하면, ClinVar에서 이용가능한 임상 데이터의 수는 비교적 작다. 이러한 데이터 부족을 극복하기 위해, PrimateAI는 공통적인 인간 변이체들 및 영장류로부터의 변이체들을 양성 데이터로서 사용하지만, 트리뉴클레오티드 콘텍스트에 기초한 시뮬레이션된 변이체들이 라벨링되지 않은 데이터로서 사용되었다.End-to-end deep learning approaches for variant effect predictions are applied to predict pathogenicity of missense variants from sequence conservation data and protein sequences (Sundaram, L. et al., referred to herein as “PrimateAI”) al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)]. PrimateAI uses deep neural networks trained on variants of known pathogenicity by data augmentation using cross-species information. In particular, PrimateAI uses the sequences of wild-type and variant proteins to compare differences and determine the pathogenicity of mutations using trained deep neural networks. Such an approach utilizing protein sequences for pathogenicity prediction is promising because it can avoid circularity problems and overfitting to prior knowledge. However, compared to an adequate number of data to effectively train deep neural networks, the number of clinical data available in ClinVar is relatively small. To overcome this data shortage, PrimateAI uses common human variants and variants from primates as benign data, but simulated variants based on trinucleotide context were used as unlabeled data.

PrimateAI는 서열 정렬들에 대해 직접적으로 훈련될 때 이전 방법들을 능가한다. PrimateAI는 약 120,000개의 인간 샘플들로 이루어진 훈련 데이터로부터 직접적으로 중요한 단백질 도메인들, 보존된 아미노산 위치들 및 서열 종속성들을 학습한다. PrimateAI는 후보 발달장애 유전자들에서 양성 및 병원성 신생 돌연변이들을 구별하고 ClinVar에서 이전 지식을 재생하는 데 있어서 다른 변이체 병원성 예측 툴들의 성능을 실질적으로 초과한다. 이러한 결과들은 PrimateAI가 이전 지식에 대한 임상 보고의 의존을 줄일 수 있는 변이체 분류 툴들을 위해 중요한 진전임을 시사한다.PrimateAI outperforms previous methods when trained directly on sequence alignments. PrimateAI learns key protein domains, conserved amino acid positions, and sequence dependencies directly from training data consisting of approximately 120,000 human samples. PrimateAI substantially exceeds the performance of other variant pathogenicity prediction tools in distinguishing benign and pathogenic de novo mutations in candidate developmental disorder genes and reproducing prior knowledge in ClinVar. These results suggest that PrimateAI is an important step forward for variant classification tools that can reduce the reliance of clinical reports on prior knowledge.

단백질 생물학에 대한 중심은 구조 요소들이 관찰된 기능을 발생시키는 방법에 대한 이해이다. 단백질 구조 데이터의 과잉은 구조적-기능적 관계들을 지배하는 규칙들을 체계적으로 도출하기 위한 계산 방법들의 개발을 가능하게 한다. 그러나, 이러한 방법들의 성능은 단백질 구조 표현의 선택에 중대하게 의존한다.Central to protein biology is the understanding of how structural elements give rise to observed functions. The plethora of protein structural data enables the development of computational methods to systematically derive the rules governing structural-functional relationships. However, the performance of these methods is critically dependent on the choice of protein structure representation.

단백질 부위들은 그들의 구조적 또는 기능적 역할에 의해 구별되는 단백질 구조 내의 미세환경들이다. 부위는 3차원(3D) 위치 및 구조 또는 기능이 존재하는 이러한 위치 주위의 국부적 이웃에 의해 정의될 수 있다. 합리적인 단백질 공학에 대한 중심은 아미노산의 구조적 배열이 단백질 부위들 내에서 기능적 특성들을 생성하는 방법에 대한 이해이다. 단백질 내의 개개의 아미노산의 구조적 및 기능적 역할들의 결정은 공학자를 돕고 단백질 기능들을 변경하는 데 도움을 주기 위한 정보를 제공한다. 기능적으로 또는 구조적으로 중요한 아미노산을 식별하는 것은 표적화된 단백질 기능적 속성들을 변경하기 위한 부위 유도 돌연변이유발과 같은 집중된 공학 노고를 허용한다. 대안적으로, 이러한 지식은 원하는 기능을 무효화할 공학 설계들을 회피하는 데 도움이 될 수 있다.Protein regions are microenvironments within a protein structure that are distinguished by their structural or functional roles. A site can be defined by a three-dimensional (3D) location and local neighbors around that location where the structure or function resides. Central to rational protein engineering is the understanding of how the structural arrangement of amino acids creates functional properties within protein regions. Determination of the structural and functional roles of individual amino acids within a protein provides information to aid engineers and modify protein functions. Identifying functionally or structurally important amino acids allows for focused engineering efforts, such as site-directed mutagenesis, to alter targeted protein functional properties. Alternatively, this knowledge can help avoid engineering designs that would defeat desired functionality.

구조가 서열보다 훨씬 더 많이 보존된다는 것이 확립되었기 때문에, 단백질 구조 데이터의 증가는 데이터 중심 접근법들을 사용하여 구조적-기능적 관계들을 지배하는 기본 패턴을 체계적으로 연구할 기회를 제공한다. 임의의 계산 단백질 분석의 기본 태양은 단백질 구조 정보가 표현되는 방법이다. 기계 학습 방법들의 성능은 종종, 채용된 기계 학습 알고리즘보다 데이터 표현의 선택에 더 많이 의존한다. 양호한 표현들은 가장 중대한 정보를 효율적으로 캡처하는 반면, 불량한 표현들은 기본 패턴들이 없는 잡음 분포를 생성한다.Because it has been established that structure is much more conserved than sequence, the growing body of protein structural data provides the opportunity to systematically study the underlying patterns that govern structural-functional relationships using data-driven approaches. A fundamental aspect of any computational protein analysis is how protein structural information is expressed. The performance of machine learning methods often depends more on the choice of data representation than the machine learning algorithm employed. Good representations efficiently capture the most critical information, while poor representations produce a noisy distribution without underlying patterns.

단백질 구조들의 과잉 및 심층 학습 알고리즘들의 최근의 성공은 단백질 구조들의 태스크 특정적 표현들을 자동으로 추출하기 위한 툴들을 개발할 기회를 제공한다. 따라서, 심층 신경망들에 대한 입력으로서 3D 단백질 구조들의 다중 채널 복셀화된 표현들을 사용하여 변이체 병원성을 예측할 기회가 발생한다.The recent success of overloading and deep learning algorithms of protein structures provides an opportunity to develop tools to automatically extract task-specific representations of protein structures. Therefore, an opportunity arises to predict variant pathogenicity using multi-channel voxelized representations of 3D protein structures as input to deep neural networks.

도면에서, 유사한 도면 부호는, 대체로, 상이한 도면들 전체에 걸쳐서 유사한 부분들을 지칭한다. 또한, 도면은 반드시 축척대로인 것은 아니며, 그 대신, 대체적으로, 개시된 기술의 원리들을 예시할 시에 강조된다. 하기의 설명에서, 개시된 기술의 다양한 구현예들이 하기의 도면을 참조하여 기술된다.
도 1은 개시된 기술의 다양한 구현예들에 따른, 변이체들의 병원성을 결정하기 위한 시스템의 프로세스를 도시하는 흐름도이다.
도 2는 개시된 기술의 하나의 구현예에 따른, 단백질의 예시적인 기준 아미노산 서열 및 단백질의 대안적인 아미노산 서열을 개략적으로 도시한다.
도 3은 개시된 기술의 하나의 구현예에 따른, 도 2의 기준 아미노산 서열 내의 아미노산의 원자들의 아미노산별 분류를 도시한다.
도 4는 개시된 기술의 하나의 구현예에 따른, 아미노산 단위로 도 3에서 분류된 알파-탄소 원자들의 3D 원자 좌표들의 아미노산별 속성을 도시한다.
도 5는 개시된 기술의 하나의 구현예에 따른, 복셀별 거리 값들을 결정하는 프로세스를 개략적으로 도시한다.
도 6은 개시된 기술의 하나의 구현예에 따른 21개의 아미노산별 거리 채널들의 일례를 도시한다.
도 7은 개시된 기술의 하나의 구현예에 따른 거리 채널 텐서의 개략도이다.
도 8은 개시된 기술의 하나의 구현예에 따른, 도 2로부터의 기준 아미노산 및 대안적인 아미노산의 원-핫(one-hot) 인코딩들을 도시한다.
도 9는 개시된 기술의 하나의 구현예에 따른, 복셀화된 원-핫 인코딩된 기준 아미노산 및 복셀화된 원-핫 인코딩된 변이체/대안적인 아미노산의 개략도이다.
도 10은 개시된 기술의 하나의 구현예에 따른, 도 7의 거리 채널 텐서 및 기준 대립유전자 텐서를 복셀별로 연결하는 연결 프로세스를 개략적으로 도시한다.
도 11은 개시된 기술의 하나의 구현예에 따른, 도 7의 거리 채널 텐서, 도 10의 기준 대립유전자 텐서, 및 대안적인 대립유전자 텐서를 복셀별로 연결하는 연결 프로세스를 개략적으로 도시한다.
도 12는 개시된 기술의 하나의 구현예에 따른, 가장 가까운 원자들의 범아미노산 보존 빈도들을 결정하여 복셀들에 할당하기 위한(복셀화) 시스템의 프로세스를 도시하는 흐름도이다.
도 13은 개시된 기술의 하나의 구현예에 따른, 복셀-대-가장 가까운 아미노산을 도시한다.
도 14는 개시된 기술의 하나의 구현예에 따른, 99종에 걸친 기준 아미노산 서열의 예시적인 다중 서열 정렬을 도시한다.
도 15는 개시된 기술의 하나의 구현예에 따른, 특정 복셀에 대한 범아미노산 보존 빈도 서열을 결정하는 일례를 도시한다.
도 16은 개시된 기술의 하나의 구현예에 따른, 도 15에 기술된 위치 빈도 로직을 사용하여 각자의 복셀들에 대해 결정된 각자의 범아미노산 보존 빈도들을 도시한다.
도 17은 개시된 기술의 하나의 구현예에 따른 복셀화된 복셀당 진화 프로파일들을 도시한다.
도 18은 개시된 기술의 하나의 구현예에 따른 진화 프로파일 텐서의 일례를 도시한다.
도 19는 개시된 기술의 하나의 구현예에 따른, 가장 가까운 원자들의 아미노산당 보존 빈도들을 결정하여 복셀들에 할당하기 위한(복셀화) 시스템의 프로세스를 도시하는 흐름도이다.
도 20은 개시된 기술의 하나의 구현예에 따른, 거리 채널 텐서와 연결되는 복셀화된 주석 채널들의 다양한 예들을 도시한다.
도 21은 개시된 기술의 하나의 구현예에 따른, 표적 변이체의 병원성 결정을 위한 병원성 분류기에 대한 입력들로서 제공될 수 있는 입력 채널들의 상이한 조합들 및 순열들을 도시한다.
도 22는 개시된 기술의 다양한 구현예들에 따른, 개시된 거리 채널들을 계산하는 상이한 방법들을 도시한다.
도 23은 개시된 기술의 다양한 구현예들에 따른 진화적 채널들의 상이한 예들을 도시한다.
도 24는 개시된 기술의 다양한 구현예들에 따른 주석 채널들의 상이한 예들을 도시한다.
도 25는 개시된 기술의 다양한 구현예들에 따른 구조 신뢰도 채널들의 상이한 예들을 도시한다.
도 26은 개시된 기술의 하나의 구현예에 따른, 병원성 분류기의 예시적인 처리 아키텍처를 도시한다.
도 27은 개시된 기술의 하나의 구현예에 따른, 병원성 분류기의 예시적인 처리 아키텍처를 도시한다.
도 28, 도 29, 도 30, 및 도 31은 PrimateAI에 비해 개시된 PrimateAI 3D의 분류 우월성을 입증하기 위해 PrimateAI를 벤치마크 모델로서 사용한다.
도 32a 및 도 32b는 개시된 기술의 다양한 구현예들에 따른, 개시된 효율적인 복셀화 프로세스를 도시한다.
도 33은 개시된 기술의 하나의 구현예에 따른, 원자들을 함유하는 복셀들과 원자들이 연관되는 방법을 도시한다.
도 34는 개시된 기술의 하나의 구현예에 따른, 원자-복셀 맵핑으로부터 복셀-원자 맵핑을 생성하여 가장 가까운 원자들을 복셀 단위(voxel-by-voxel basis)로 식별하는 것을 도시한다.
도 35a 및 도 35b는 개시된 효율적인 복셀화가 개시된 효율적인 복셀화의 사용 없이 O의 런타임 복잡도(#원자들) 대 O의 런타임 복잡도(#원자들*#복셀들)를 갖는 방법을 도시한다.
도 36은 개시된 기술을 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템을 도시한다.
In the drawings, like reference numbers generally refer to like parts throughout the different views. Additionally, the drawings are not necessarily to scale, with emphasis instead generally being placed upon illustrating the principles of the disclosed technology. In the following description, various implementations of the disclosed technology are described with reference to the drawings.
1 is a flow diagram illustrating the process of a system for determining pathogenicity of variants, according to various implementations of the disclosed technology.
Figure 2 schematically depicts an exemplary reference amino acid sequence of a protein and an alternative amino acid sequence of a protein, according to one embodiment of the disclosed technology.
FIG. 3 shows an amino acid-by-amino acid classification of atoms of amino acids in the reference amino acid sequence of FIG. 2, according to one embodiment of the disclosed technology.
FIG. 4 illustrates amino acid-by-amino acid properties of the 3D atomic coordinates of alpha-carbon atoms classified in FIG. 3 on an amino acid basis, according to one embodiment of the disclosed technology.
5 schematically illustrates a process for determining voxel-wise distance values, according to one implementation of the disclosed technology.
Figure 6 shows an example of 21 amino acid-specific distance channels according to one implementation of the disclosed technology.
7 is a schematic diagram of a distance channel tensor according to one implementation of the disclosed technology.
Figure 8 shows one-hot encodings of a reference amino acid and an alternative amino acid from Figure 2, according to one implementation of the disclosed technology.
Figure 9 is a schematic diagram of voxelized one-hot encoded reference amino acids and voxelized one-hot encoded variant/alternative amino acids, according to one embodiment of the disclosed technology.
FIG. 10 schematically illustrates a concatenation process for concatenating the distance channel tensor and reference allele tensor of FIG. 7 on a voxel-by-voxel basis, according to one implementation of the disclosed technology.
Figure 11 schematically illustrates a concatenation process for concatenating the distance channel tensor of Figure 7, the reference allele tensor of Figure 10, and alternative allele tensors on a voxel-by-voxel basis, according to one implementation of the disclosed technology.
FIG. 12 is a flow diagram illustrating the process of a system for determining pan-amino acid conservation frequencies of nearest atoms and assigning them to voxels (voxelization), according to one implementation of the disclosed technology.
Figure 13 depicts voxel-to-nearest amino acid, according to one implementation of the disclosed technology.
Figure 14 shows an exemplary multiple sequence alignment of reference amino acid sequences across 99 species, according to one embodiment of the disclosed technology.
Figure 15 shows an example of determining a pan-amino acid conservation frequency sequence for a specific voxel, according to one embodiment of the disclosed technology.
Figure 16 shows respective pan-amino acid conservation frequencies determined for respective voxels using the positional frequency logic described in Figure 15, according to one implementation of the disclosed technology.
17 illustrates voxelized per-voxel evolution profiles according to one implementation of the disclosed technology.
18 shows an example of an evolutionary profile tensor according to one implementation of the disclosed technology.
FIG. 19 is a flow diagram illustrating the process of a system for determining conservation frequencies per amino acid of nearest atoms and assigning them to voxels (voxelization), according to one implementation of the disclosed technology.
20 shows various examples of voxelized annotation channels associated with a distance channel tensor, according to one implementation of the disclosed technology.
Figure 21 illustrates different combinations and permutations of input channels that can serve as inputs to a pathogenicity classifier for determining pathogenicity of a target variant, according to one implementation of the disclosed technology.
22 illustrates different methods of calculating the disclosed distance channels, according to various implementations of the disclosed technology.
23 shows different examples of evolutionary channels according to various implementations of the disclosed technology.
24 shows different examples of annotation channels according to various implementations of the disclosed technology.
25 illustrates different examples of structural reliability channels according to various implementations of the disclosed technology.
Figure 26 shows an example processing architecture of a pathogenicity classifier, according to one implementation of the disclosed technology.
Figure 27 shows an example processing architecture of a pathogenicity classifier, according to one implementation of the disclosed technology.
28, 29, 30, and 31 use PrimateAI as a benchmark model to demonstrate the classification superiority of the disclosed PrimateAI 3D over PrimateAI.
32A and 32B illustrate the disclosed efficient voxelization process, in accordance with various implementations of the disclosed technology.
Figure 33 illustrates how atoms are associated with voxels containing atoms, according to one implementation of the disclosed technology.
FIG. 34 illustrates generating a voxel-to-atom mapping from an atom-to-voxel mapping to identify nearest atoms on a voxel-by-voxel basis, according to one implementation of the disclosed technology.
35A and 35B illustrate how the disclosed efficient voxelization has a runtime complexity of O (#atoms) versus a runtime complexity of O (#atoms*#voxels) without use of the disclosed efficient voxelization.
Figure 36 depicts an example computer system that can be used to implement the disclosed techniques.

아래의 논의는 어느 당업자라도 개시된 기술을 제조하고 사용할 수 있게 하도록 제시되며, 특정의 적용 및 그의 요건과 관련하여 제공된다. 개시된 구현예들에 대한 다양한 변형들은 당업자들에게 용이하게 명백할 것이며, 본원에서 정의된 일반적인 원리들은 개시된 기술의 사상 및 범주로부터 벗어남이 없이 다른 구현예들 및 적용예들에 적용될 수 있다. 따라서, 개시된 기술은 도시된 구현예들로 제한되도록 의도된 것이 아니라, 본원에 개시된 원리들 및 특징들과 일치하는 가장 넓은 범주에 부합되어야 한다.The following discussion is presented to enable any person skilled in the art to make and use the disclosed technology, and is presented in relation to specific applications and requirements thereof. Various modifications to the disclosed embodiments will be readily apparent to those skilled in the art, and the general principles defined herein may be applied to other implementations and applications without departing from the spirit and scope of the disclosed technology. Accordingly, the disclosed technology is not intended to be limited to the illustrated implementations but is to be accorded the broadest scope consistent with the principles and features disclosed herein.

다양한 구현예들에 대한 상세한 설명은 첨부된 도면과 함께 읽을 때 더 잘 이해될 것이다. 도면이 다양한 구현예들의 기능 블록도들을 도시하는 범위에서, 기능 블록들은 반드시 하드웨어 회로부 사이의 분할을 나타내는 것은 아니다. 따라서, 예를 들어, 기능 블록들 중 하나 이상(예를 들어, 모듈들, 프로세서들 또는 메모리들)은 단일 조각의 하드웨어(예를 들어, 범용 신호 프로세서 또는 랜덤 액세스 메모리의 블록, 하드 디스크 등) 또는 다수 조각들의 하드웨어에서 구현될 수 있다. 유사하게, 프로그램들은 독립형 프로그램들일 수 있고, 운영 체제에 서브루틴들로서 통합될 수 있고, 설치된 소프트웨어 패키지 내의 기능일 수 있고, 등등이다. 다양한 구현예들이 도면에 도시된 배열들 및 수단으로 제한되지 않는다는 것이 이해될 것이다.The detailed description of various implementations will be better understood when read in conjunction with the accompanying drawings. To the extent that the drawings show functional block diagrams of various implementations, the functional blocks do not necessarily represent divisions between hardware circuitry. Thus, for example, one or more of the functional blocks (e.g., modules, processors, or memories) may be a single piece of hardware (e.g., a general-purpose signal processor or block of random access memory, a hard disk, etc.). Alternatively, it may be implemented in multiple pieces of hardware. Similarly, programs may be stand-alone programs, integrated into the operating system as subroutines, a function within an installed software package, etc. It will be understood that the various implementations are not limited to the arrangements and instrumentalities shown in the drawings.

모듈들로 지정된, 도면들의 처리 엔진들 및 데이터 베이스들은 하드웨어 또는 소프트웨어로 구현될 수 있고, 도면들에 도시된 바와 같이 정확하게 동일한 블록들로 분할될 필요가 없다. 모듈들 중 일부는 또한, 상이한 프로세서들, 컴퓨터들, 또는 서버들 상에서 구현될 수 있거나, 또는 다수의 상이한 프로세서들, 컴퓨터들, 또는 서버들 사이에 분산될 수 있다. 또한, 모듈들 중 일부가, 달성된 기능에 영향을 주지 않고서 도면들에 도시된 것과 조합되어, 병렬로 또는 상이한 순서로 동작될 수 있다는 것이 이해될 것이다. 도면들 내의 모듈들은 또한, 방법에서의 흐름도 단계들로서 생각될 수 있다. 모듈은 또한, 그의 코드 전부가 반드시 메모리에 인접하게 배치될 필요가 없고; 코드의 일부 부분들은 코드의 다른 부분들과는 분리될 수 있으며, 이때 다른 모듈들 또는 다른 기능들로부터의 코드가 사이에 배치된다.The processing engines and databases of the figures, designated as modules, can be implemented in hardware or software and do not need to be divided into exactly identical blocks as shown in the figures. Some of the modules may also be implemented on different processors, computers, or servers, or distributed among multiple different processors, computers, or servers. It will also be understood that some of the modules may be operated in parallel or in a different order, in combination with those shown in the figures, without affecting the functionality achieved. The modules in the figures can also be thought of as flowchart steps in the method. A module also does not necessarily require all of its code to be located contiguously in memory; Some parts of the code can be separated from other parts of the code, with code from other modules or other functions interspersed.

단백질 구조 기반 병원성 결정Protein structure-based pathogenicity determination

도 1은 변이체들의 병원성을 결정하기 위한 시스템의 프로세스(100)를 도시하는 흐름도이다. 단계(102)에서, 시스템의 서열 액세서(104)가 기준 및 대안적인 아미노산 서열들에 액세스한다. 112에서, 시스템의 3D 구조 생성기(114)가 기준 아미노산 서열에 대한 3D 단백질 구조들을 생성한다. 일부 구현예들에서, 3D 단백질 구조들은 인간 단백질의 상동성 모델들이다. 하나의 구현예에서, 소위 SwissModel 상동성 모델링 파이프라인이 예측된 인간 단백질 구조들의 공개 리포지토리를 제공한다. 다른 구현예에서, 소위 HHpred 상동성 모델링이 모델러로 불리는 툴을 사용하여 주형 구조들로부터 표적 단백질의 구조를 예측한다.1 is a flow diagram illustrating the system's process 100 for determining the pathogenicity of variants. At step 102, the system's sequence accessor 104 accesses the reference and alternative amino acid sequences. At 112, the system's 3D structure generator 114 generates 3D protein structures for a reference amino acid sequence. In some embodiments, 3D protein structures are homology models of human proteins. In one embodiment, the so-called SwissModel homology modeling pipeline provides a public repository of predicted human protein structures. In another embodiment, so-called HHpred homology modeling predicts the structure of the target protein from template structures using a tool called a modeler.

단백질은 3D 공간에서 원자들의 집합 및 그들의 좌표들로 표현된다. 아미노산은 탄소 원자들, 산소(O) 원자들, 질소(N) 원자들, 및 수소(H) 원자들과 같은 다양한 원자들을 가질 수 있다. 원자들은 측쇄 원자들 및 백본(backbone) 원자들로서 추가로 분류될 수 있다. 백본 탄소 원자들은 알파-탄소(Cα) 원자들 및 베타-탄소(Cβ) 원자들을 포함할 수 있다.Proteins are expressed as sets of atoms and their coordinates in 3D space. Amino acids can have various atoms such as carbon atoms, oxygen (O) atoms, nitrogen (N) atoms, and hydrogen (H) atoms. Atoms can be further classified as side chain atoms and backbone atoms. The backbone carbon atoms may include alpha-carbon (C α ) atoms and beta-carbon (C β ) atoms.

단계(122)에서, 시스템의 좌표 분류기(124)가 아미노산 단위로 3D 단백질 구조들의 3D 원자 좌표들을 분류한다. 하나의 구현예에서, 아미노산별 분류는 3D 원자 좌표들을 21개의 아미노산 카테고리들(정지 또는 갭 아미노산 카테고리를 포함함)에 귀속시키는 것을 수반한다. 하나의 예에서, 알파-탄소 원자들의 아미노산별 분류는 21개의 아미노산 카테고리들 각각 하에 알파-탄소 원자들을 각각 열거할 수 있다. 다른 예에서, 베타-탄소 원자들의 아미노산별 분류는 21개의 아미노산 카테고리들 각각 하에 베타-탄소 원자들을 각각 열거할 수 있다.At step 122, the system's coordinate sorter 124 sorts the 3D atomic coordinates of the 3D protein structures on an amino acid basis. In one embodiment, classification by amino acid involves assigning 3D atomic coordinates to 21 amino acid categories (including the stop or gap amino acid category). In one example, an amino acid classification of alpha-carbon atoms could list each alpha-carbon atom under each of the 21 amino acid categories. In another example, an amino acid classification of beta-carbon atoms could list each beta-carbon atom under each of the 21 amino acid categories.

또 다른 예에서, 산소 원자들의 아미노산별 분류는 21개의 아미노산 카테고리들 각각 하에 산소 원자들을 각각 열거할 수 있다. 또 다른 예에서, 질소 원자들의 아미노산별 분류는 21개의 아미노산 카테고리들 각각 하에 질소 원자들을 각각 열거할 수 있다. 또 다른 예에서, 수소 원자들의 아미노산별 분류는 21개의 아미노산 카테고리들 각각 하에 수소 원자들을 각각 열거할 수 있다.In another example, an amino acid classification of oxygen atoms could list each oxygen atom under each of the 21 amino acid categories. In another example, an amino acid classification of nitrogen atoms could list each nitrogen atom under each of the 21 amino acid categories. In another example, an amino acid classification of hydrogen atoms could list each hydrogen atom under each of the 21 amino acid categories.

당업자는, 다양한 구현예들에서, 아미노산별 분류가 21개의 아미노산 카테고리들의 서브세트 및 상이한 원자 원소들의 서브세트를 포함할 수 있음을 이해할 것이다.Those skilled in the art will understand that, in various implementations, classification by amino acid may include a subset of the 21 amino acid categories and a subset of different atomic elements.

단계(132)에서, 시스템의 복셀 그리드 생성기(134)가 복셀 그리드를 인스턴스화한다. 복셀 그리드는 임의의 해상도, 예를 들어 3x3x3, 5x5x5, 7x7x7 등을 가질 수 있다. 복셀 그리드 내의 복셀들은 임의의 크기, 예를 들어 각각의 측에서 1 옹스트롬(Å), 각각의 측에서 2 Å, 각각의 측에서 3 Å 등등의 것일 수 있다. 당업자는, 복셀들이 정육면체들이기 때문에 이러한 예시적인 차원들이 입방 차원들을 지칭함을 이해할 것이다. 또한, 당업자는, 이러한 예시적인 차원들이 비제한적이고 복셀들이 임의의 입방 차원들을 가질 수 있음을 이해할 것이다.At step 132, the system's voxel grid generator 134 instantiates a voxel grid. The voxel grid can have any resolution, for example 3x3x3, 5x5x5, 7x7x7, etc. The voxels within the voxel grid may be of any size, for example 1 Angstrom (Å) on each side, 2 Å on each side, 3 Å on each side, etc. Those skilled in the art will understand that these exemplary dimensions refer to cubic dimensions because the voxels are cubes. Additionally, those skilled in the art will understand that these example dimensions are non-limiting and that voxels may have arbitrary cubic dimensions.

단계(142)에서, 시스템의 복셀 그리드 센터러(144)가 아미노산 수준에서 표적 변이체를 경험하는 기준 아미노산에 복셀 그리드를 중심설정한다. 하나의 구현예에서, 복셀 그리드는 표적 변이체를 경험하는 기준 아미노산의 특정 원자의 원자 좌표, 예를 들어, 표적 변이체를 경험하는 기준 아미노산의 알파-탄소 원자의 3D 원자 좌표에 중심설정된다.At step 142, the system's voxel grid centerer 144 centers the voxel grid on reference amino acids that experience target variants at the amino acid level. In one embodiment, the voxel grid is centered on the atomic coordinates of the particular atom of the reference amino acid experiencing the target variant, e.g., the 3D atomic coordinate of the alpha-carbon atom of the reference amino acid experiencing the target variant.

거리 채널들street channels

복셀 그리드 내의 복셀들은 복수의 채널들(또는 특징부들)을 가질 수 있다. 하나의 구현예에서, 복셀 그리드 내의 복셀들은 복수의 거리 채널들(예를 들어, 각각, 21개의 아미노산 카테고리들(정지 또는 갭 아미노산 카테고리를 포함함)에 대한 21개의 거리 채널들)을 갖는다. 단계(152)에서, 시스템의 거리 채널 생성기(154)는 복셀 그리드 내의 복셀들에 대한 아미노산별 거리 채널들을 생성한다. 거리 채널들은 21개의 아미노산 카테고리들 각각에 대해 독립적으로 생성된다.Voxels within a voxel grid may have multiple channels (or features). In one implementation, voxels within a voxel grid have a plurality of distance channels (e.g., 21 distance channels each for 21 amino acid categories (including a stop or gap amino acid category)). At step 152, the system's distance channel generator 154 generates amino acid-specific distance channels for voxels in the voxel grid. Distance channels are created independently for each of the 21 amino acid categories.

예를 들어, 알라닌(A) 아미노산 카테고리를 고려한다. 예를 들어, 복셀 그리드가 크기 3x3x3의 것이고 27개의 복셀들을 갖는다는 것을 추가로 고려한다. 이어서, 하나의 구현예에서, 알라닌 거리 채널이 복셀 그리드 내의 27개의 복셀들에 대한 27개의 거리 값들을 각각 포함한다. 알라닌 거리 채널에서의 27개의 거리 값들은 복셀 그리드 내의 27개의 복셀들의 각자의 중심들로부터 알라닌 아미노산 카테고리 내의 각자의 가장 가까운 원자들까지 측정된다.For example, consider the alanine (A) amino acid category. For example, consider further that the voxel grid is of size 3x3x3 and has 27 voxels. Then, in one implementation, the alanine distance channel contains 27 distance values for each of the 27 voxels in the voxel grid. The 27 distance values in the alanine distance channel are measured from the respective centers of the 27 voxels in the voxel grid to their respective nearest atoms in the alanine amino acid category.

하나의 예에서, 알라닌 아미노산 카테고리는 알파-탄소 원자들만을 포함하고, 따라서, 가장 가까운 원자들은 각각 복셀 그리드 내의 27개의 복셀들에 가장 근접한 그러한 알라닌 알파-탄소 원자들이다. 다른 예에서, 알라닌 아미노산 카테고리는 베타-탄소 원자들만을 포함하고, 따라서, 가장 가까운 원자들은 각각 복셀 그리드 내의 27개의 복셀들에 가장 근접한 그러한 알라닌 베타-탄소 원자들이다.In one example, the alanine amino acid category contains only alpha-carbon atoms, so the nearest atoms are those alanine alpha-carbon atoms that are closest to each of the 27 voxels in the voxel grid. In another example, the alanine amino acid category contains only beta-carbon atoms, so the nearest atoms are those alanine beta-carbon atoms that are closest to each of the 27 voxels in the voxel grid.

또 다른 예에서, 알라닌 아미노산 카테고리는 산소 원자들만을 포함하고, 따라서, 가장 가까운 원자들은 각각 복셀 그리드 내의 27개의 복셀들에 가장 근접한 그러한 알라닌 산소 원자들이다. 또 다른 예에서, 알라닌 아미노산 카테고리는 질소 원자들만을 포함하고, 따라서, 가장 가까운 원자들은 각각 복셀 그리드 내의 27개의 복셀들에 가장 근접한 그러한 알라닌 질소 원자들이다. 또 다른 예에서, 알라닌 아미노산 카테고리는 수소 원자들만을 포함하고, 따라서, 가장 가까운 원자들은 각각 복셀 그리드 내의 27개의 복셀들에 가장 근접한 그러한 알라닌 수소 원자들이다.In another example, the alanine amino acid category contains only oxygen atoms, so the nearest atoms are those alanine oxygen atoms that are closest to each of the 27 voxels in the voxel grid. In another example, the alanine amino acid category contains only nitrogen atoms, so the closest atoms are those alanine nitrogen atoms that are closest to each of the 27 voxels in the voxel grid. In another example, the alanine amino acid category contains only hydrogen atoms, so the nearest atoms are those alanine hydrogen atoms that are closest to each of the 27 voxels in the voxel grid.

알라닌 거리 채널과 마찬가지로, 거리 채널 생성기(154)는 나머지 아미노산 카테고리들 각각에 대한 거리 채널(즉, 복셀별 거리 값들의 세트)을 생성한다. 다른 구현예들에서, 거리 채널 생성기(154)는 21개의 아미노산 카테고리들의 서브세트에 대해서만 거리 채널들을 생성한다.Like the alanine distance channel, distance channel generator 154 generates a distance channel (i.e., a set of voxel-wise distance values) for each of the remaining amino acid categories. In other implementations, distance channel generator 154 generates distance channels only for a subset of the 21 amino acid categories.

다른 구현예들에서, 가장 가까운 원자들의 선택은 특정 원자 유형으로 한정되지 않는다. 즉, 대상 아미노산 카테고리 내에서, 특정 복셀에 대해 가장 가까운 원자가, 가장 가까운 원자의 원자 원소, 및 대상 아미노산 카테고리에 대한 거리 채널에 포함시키기 위해 계산된 특정 복셀에 대한 거리 값과 관계없이 선택된다.In other embodiments, the selection of closest atoms is not limited to a particular atom type. That is, within the target amino acid category, the closest atom to the specific voxel, the atomic element of the closest atom, and the distance value for the specific voxel calculated for inclusion in the distance channel for the target amino acid category are selected.

또 다른 구현예들에서, 거리 채널들은 원자 원소 단위로 생성된다. 아미노산 카테고리들에 대한 거리 채널들을 갖는 대신에 또는 그에 더하여, 원자들이 속하는 아미노산에 관계없이 원자 원소 카테고리들에 대해 거리 값들이 생성될 수 있다. 예를 들어, 기준 아미노산 서열 내의 아미노산의 원자들은 7개의 원자 원소들, 즉 탄소, 산소, 질소, 수소, 칼슘, 요오드, 및 황에 걸쳐 있음을 고려한다. 이어서, 복셀 그리드 내의 복셀들은 7개의 거리 채널들을 갖도록 구성되고, 따라서, 7개의 거리 채널들 각각은 대응하는 원자 원소 카테고리 내의 가장 가까운 원자들까지만의 거리들을 특정하는 27개의 복셀별 거리 값들을 갖는다. 다른 구현예들에서, 7개의 원자 원소들의 서브세트만을 위한 거리 채널들이 생성될 수 있다. 또 다른 구현예들에서, 원자 원소 카테고리들 및 거리 채널 생성은 동일한 원자 원소, 예를 들어, 알파-탄소(Cα) 원자들 및 베타-탄소(Cβ) 원자들의 변이들로 추가로 계층화될 수 있다.In still other implementations, distance channels are created atomically. Instead of or in addition to having distance channels for amino acid categories, distance values can be generated for atomic element categories regardless of the amino acid to which the atoms belong. For example, consider that the atoms of amino acids in a reference amino acid sequence span seven atomic elements: carbon, oxygen, nitrogen, hydrogen, calcium, iodine, and sulfur. The voxels in the voxel grid are then configured to have seven distance channels, and thus each of the seven distance channels has 27 voxel-specific distance values that specify distances only to the nearest atoms in the corresponding atomic element category. In other implementations, distance channels may be created for only a subset of the seven atomic elements. In still other embodiments, atomic element categories and distance channel creation may be further stratified into variations of the same atomic element, e.g., alpha-carbon (C α ) atoms and beta-carbon (C β ) atoms. You can.

또 다른 구현예들에서, 거리 채널들은 원자 유형 단위로 생성되는데, 예를 들어, 측쇄 원자들만에 대한 거리 채널들 및 백본 원자들만에 대한 거리 채널들이 생성될 수 있다.In still other implementations, distance channels may be created on an atom type basis, for example, distance channels for side chain atoms only and distance channels for backbone atoms only.

가장 가까운 원자들은 복셀 중심들로부터 미리정의된 최대 스캔 반경(예컨대, 6 옹스트롬(Å)) 내에서 검색될 수 있다. 또한, 다수의 원자들이 복셀 그리드 내의 동일한 복셀에 가장 가까울 수 있다.The nearest atoms can be searched within a predefined maximum scan radius (eg, 6 angstroms (Å)) from the voxel centers. Additionally, multiple atoms may be closest to the same voxel within the voxel grid.

거리들은 복셀 중심들의 3D 좌표들과 원자들의 3D 원자 좌표들 사이에서 계산된다. 또한, 거리 채널들은 동일한 위치에 중심설정된(예를 들어, 표적 변이체를 경험하는 기준 아미노산의 알파-탄소 원자의 3D 원자 좌표에 중심설정된) 복셀 그리드로 생성된다.Distances are calculated between the 3D coordinates of the voxel centers and the 3D atomic coordinates of the atoms. Additionally, distance channels are generated as a grid of voxels centered at the same location (e.g., centered on the 3D atomic coordinates of the alpha-carbon atom of the reference amino acid experiencing the target variant).

거리들은 유클리드 거리들일 수 있다. 또한, 거리들은 (예를 들어, 해당 원자의 Lennard-Jones 전위 및/또는 Van der Waals 원자 반경을 사용함으로써) 원자 크기(또는 원자 영향)에 의해 파라미터화될 수 있다. 또한, 거리 값들은 최대 스캔 반경에 의해, 또는 대상 아미노산 카테고리 또는 대상 원자 원소 카테고리 또는 대상 원자 유형 카테고리 내의 최대한 가장 가까운 원자의 최대 관찰된 거리 값에 의해 정규화될 수 있다. 일부 구현예들에서, 복셀들과 원자들 사이의 거리들은 복셀들 및 원자들의 극좌표들에 기초하여 계산된다. 극좌표들은 복셀들과 원자들 사이의 각도들에 의해 파라미터화된다. 하나의 구현예에서, 이러한 각도 정보는 복셀들에 대한 각도 채널을 생성하는 데 사용된다(즉, 거리 채널들로부터 독립적임). 일부 구현예들에서, 가장 가까운 원자와 이웃 원자들(예를 들어, 백본 원자들) 사이의 각도들은 복셀들로 인코딩되는 특징부들로서 사용될 수 있다.The distances may be Euclidean distances. Additionally, distances can be parameterized by atomic size (or atomic influence) (e.g., by using the Lennard-Jones potential and/or Van der Waals atomic radius of that atom). Additionally, the distance values can be normalized by the maximum scan radius, or by the maximum observed distance value of the closest possible atom within the target amino acid category or target atom element category or target atom type category. In some implementations, distances between voxels and atoms are calculated based on the polar coordinates of the voxels and atoms. Polar coordinates are parameterized by the angles between voxels and atoms. In one implementation, this angular information is used to create an angular channel for the voxels (ie, independent from the distance channels). In some implementations, angles between the nearest atom and neighboring atoms (e.g., backbone atoms) can be used as features encoded in voxels.

기준 대립유전자 및 대안적인 대립유전자 채널들Reference allele and alternative allele channels

복셀 그리드 내의 복셀들은 또한, 기준 대립유전자 및 대안적인 대립유전자 채널들을 가질 수 있다. 단계(162)에서, 시스템의 원-핫 인코더(164)가 기준 아미노산 서열 내의 기준 아미노산의 기준 원-핫 인코딩 및 대안적인 아미노산 서열 내의 대안적인 아미노산의 대안적인 원-핫 인코딩을 생성한다. 기준 아미노산은 표적 변이체를 경험한다. 대안적인 아미노산은 표적 변이체이다. 기준 아미노산 및 대안적인 아미노산은 기준 아미노산 서열 및 대안적인 아미노산 서열에서 각각 동일한 위치에 위치한다. 기준 아미노산 서열 및 대안적인 아미노산 서열은 하나의 예외를 갖는 동일한 위치별 아미노산 조성을 갖는다. 예외는, 기준 아미노산 서열에서는 기준 아미노산을 갖고 대안적인 아미노산 서열에서는 대안적인 아미노산을 갖는 위치이다.Voxels within a voxel grid may also have reference allele and alternative allele channels. At step 162, the system's one-hot encoder 164 generates a reference one-hot encoding of a reference amino acid in a reference amino acid sequence and an alternative one-hot encoding of an alternative amino acid in an alternative amino acid sequence. The reference amino acid experiences target variants. Alternative amino acids are target variants. The reference amino acid and the alternative amino acid are located at the same position in the reference amino acid sequence and the alternative amino acid sequence, respectively. The reference amino acid sequence and the alternative amino acid sequence have the same position-specific amino acid composition with one exception. Exceptions are positions that have a reference amino acid in a reference amino acid sequence and an alternative amino acid in an alternative amino acid sequence.

단계(172)에서, 시스템의 연결기(174)가 아미노산별 거리 채널들과 기준 및 대안적인 원-핫 인코딩들을 연결한다. 다른 구현예에서, 연결기(174)는 원자 원소별 거리 채널들과 기준 및 대안적인 원-핫 인코딩들을 연결한다. 또 다른 구현예에서, 연결기(174)는 원자 유형별 거리 채널들과 기준 및 대안적인 원-핫 인코딩들을 연결한다.At step 172, the system's connector 174 connects the reference and alternative one-hot encodings with the amino acid-specific distance channels. In another implementation, connector 174 connects the per-atomic distance channels with the reference and alternative one-hot encodings. In another implementation, connector 174 connects distance channels by atom type with reference and alternative one-hot encodings.

단계(182)에서, 시스템의 런타임 로직(184)은 병원성 분류기(병원성 결정 엔진)를 통해, 연결된 아미노산별/원자 원소별/원자 유형별 거리 채널들과 기준 및 대안적인 원-핫 인코딩들을 처리하여 표적 변이체의 병원성을 결정하는데, 이는 결국, 아미노산 수준에서 표적 변이체를 생성하는 기본 뉴클레오티드 변이체의 병원성 결정으로서 추론된다. 병원성 분류기는, 예를 들어 역전파 알고리즘을 사용하여, 양성 및 병원성 변이체들의 라벨링된 데이터 세트들을 사용하여 훈련된다. 양성 및 병원성 변이체들의 라벨링된 데이터 세트들 및 병원성 분류기의 예시적인 아키텍처들 및 훈련에 관한 추가적인 세부사항들은 공동 소유의 미국 특허 출원 제16/160,903호; 제16/160,986호; 제16/160,968호; 및 제16/407,149호에서 찾을 수 있다.At step 182, the system's runtime logic 184 processes the linked per-amino acid/per-atomic element/per-atom type distance channels and the reference and alternative one-hot encodings through a pathogenicity classifier (pathogenicity determination engine) to determine the target. Determining the pathogenicity of a variant, which is in turn inferred at the amino acid level, determines the pathogenicity of the underlying nucleotide variant that produces the target variant. Pathogenicity classifiers are trained using labeled data sets of benign and pathogenic variants, for example using a backpropagation algorithm. Additional details regarding labeled data sets of benign and pathogenic variants and exemplary architectures and training of a pathogenic classifier are provided in commonly owned U.S. patent application Ser. No. 16/160,903; No. 16/160,986; No. 16/160,968; and 16/407,149.

도 2는 단백질(200)의 기준 아미노산 서열(202) 및 단백질(200)의 대안적인 아미노산 서열(212)을 개략적으로 도시한다. 단백질(200)은 N개의 아미노산을 포함한다. 단백질(200) 내의 아미노산의 위치들은 1, 2, 3...N으로 라벨링된다. 예시된 예에서, 위치 16은 기본 뉴클레오티드 변이체에 의해 야기되는 아미노산 변이체(214)(돌연변이)를 경험하는 위치이다. 예를 들어, 기준 아미노산 서열(202)의 경우, 위치 1은 기준 아미노산 페닐알라닌(F)을 갖고, 위치 16은 기준 아미노산 글리신(G)(204)을 갖고, 위치 N(예컨대, 서열(202)의 마지막 아미노산)은 기준 아미노산 류신(L)을 갖는다. 명확성을 위해 예시되지 않았지만, 기준 아미노산 서열(202) 내의 나머지 위치들은 단백질(200)에 특정적인 순서로 다양한 아미노산을 함유한다. 대안적인 아미노산 서열(212)은 위치 16에서의 변이체(214)를 제외하면 기준 아미노산 서열(202)과 동일한데, 이는 기준 아미노산 글리신(G)(204) 대신에 대안적인 아미노산 알라닌(A)(214)을 함유한다.2 schematically depicts a reference amino acid sequence 202 of protein 200 and an alternative amino acid sequence 212 of protein 200. Protein 200 contains N amino acids. The positions of amino acids in protein 200 are labeled 1, 2, 3...N. In the illustrated example, position 16 is the position that experiences amino acid variant 214 (mutation) caused by a base nucleotide variant. For example, for the reference amino acid sequence 202, position 1 has the reference amino acid phenylalanine (F), position 16 has the reference amino acid glycine (G) 204, and position N (e.g., of sequence 202) The last amino acid) has the reference amino acid leucine (L). Although not illustrated for clarity, the remaining positions within reference amino acid sequence 202 contain various amino acids in an order specific to protein 200. The alternative amino acid sequence 212 is identical to the reference amino acid sequence 202 except for the variant at position 16 (214), which substitutes the reference amino acid glycine (G) (204) for the alternative amino acid alanine (A) (214). ) contains.

도 3은 본 명세서에서 "원자 분류(300)"로도 지칭되는, 기준 아미노산 서열(202) 내의 아미노산의 원자들의 아미노산별 분류를 도시한다. 열(302)에 열거된 20개의 천연 아미노산 중에서, 특정 유형들의 아미노산이 단백질에서 반복될 수 있다. 즉, 특정 유형의 아미노산이 단백질에서 1회 초과로 발생할 수 있다. 단백질은 또한, 21-번째 정지 또는 갭 아미노산 카테고리에 의해 카테고리화되는 일부 결정되지 않은 아미노산을 가질 수 있다. 도 3의 우측 열은 상이한 아미노산으로부터의 알파-탄소(Cα) 원자들의 카운트를 함유한다.FIG. 3 shows an amino acid-by-amino acid classification of the atoms of amino acids in a reference amino acid sequence 202, also referred to herein as “atomic classification 300.” Of the 20 natural amino acids listed in column 302, certain types of amino acids may be repeated in proteins. That is, certain types of amino acids may occur more than once in a protein. Proteins may also have some undetermined amino acids that are categorized by the 21-th stop or gap amino acid category. The right column of Figure 3 contains counts of alpha-carbon (C α ) atoms from different amino acids.

구체적으로, 도 3은 기준 아미노산 서열(202) 내의 아미노산의 알파-탄소(Cα) 원자들의 아미노산별 분류를 도시한다. 도 3의 열(308)은 21개의 아미노산 카테고리들 각각에서 기준 아미노산 서열(202)에 대해 관찰된 알파-탄소 원자들의 총 수를 열거한다. 예를 들어, 열(308)은 알라닌(A) 아미노산 카테고리에 대해 관찰된 11개의 알파-탄소 원자들을 열거한다. 각각의 아미노산은 단지 하나의 알파-탄소 원자만을 갖기 때문에, 이것은 알라닌이 기준 아미노산 서열(202)에서 11회 발생함을 의미한다. 다른 예에서, 아르기닌(R)은 기준 아미노산 서열(202)에서 35회 발생한다. 21개의 아미노산 카테고리들에 걸친 알파-탄소 원자들의 총 수는 828이다.Specifically, FIG. 3 shows an amino acid-by-amino acid classification of alpha-carbon (C α ) atoms of amino acids in the reference amino acid sequence 202 . Column 308 in FIG. 3 lists the total number of alpha-carbon atoms observed for the reference amino acid sequence 202 in each of the 21 amino acid categories. For example, column 308 lists the 11 alpha-carbon atoms observed for the alanine (A) amino acid category. Since each amino acid has only one alpha-carbon atom, this means that alanine occurs 11 times in the reference amino acid sequence 202. In another example, arginine (R) occurs 35 times in the reference amino acid sequence 202. The total number of alpha-carbon atoms across 21 amino acid categories is 828.

도 4는 도 3의 원자 분류(300)에 기초한 기준 아미노산 서열(202)의 알파-탄소 원자들의 3D 원자 좌표들의 아미노산별 속성을 도시한다. 이것은 본 명세서에서 "원자 좌표 버킷팅(bucketing)(400)"으로 지칭된다. 도 4에서, 목록들(404 내지 440)은 21개의 아미노산 카테고리들 각각에 버킷팅된 알파-탄소 원자들의 3D 원자 좌표들을 표로 나타낸다.FIG. 4 shows amino acid-by-amino acid properties of the 3D atomic coordinates of the alpha-carbon atoms of the reference amino acid sequence 202 based on the atomic classification 300 of FIG. 3 . This is referred to herein as “atomic coordinate bucketing (400).” In Figure 4, lists 404-440 tabulate the 3D atomic coordinates of alpha-carbon atoms bucketed into each of the 21 amino acid categories.

도시된 구현예에서, 도 4의 버킷팅(400)은 도 3의 분류(300)를 따른다. 예를 들어, 도 3에서, 알라닌 아미노산 카테고리는 11개의 알파-탄소 원자들을 갖고, 따라서, 도 4에서, 알라닌 아미노산 카테고리는 도 3으로부터의 대응하는 11개의 알파-탄소 원자들의 11개의 3D 원자 좌표들을 갖는다. 이러한 분류-버킷팅 로직은 역시 다른 아미노산 카테고리들에 대해서도 도 3으로부터 도 4로 흐른다. 그러나, 이러한 분류-버킷팅 로직은 단지 구상적인 목적들만을 위한 것이며, 다른 구현예들에서, 개시된 기술은 복셀별로 가장 가까운 원자들을 위치시키기 위해 분류(300) 및 버킷팅(400)을 수행할 필요가 없고, 더 적은, 추가적인, 또는 상이한 단계들을 수행할 수 있다. 예를 들어, 일부 구현예들에서, 개시된 기술은 분류 기준들(예컨대, 아미노산별, 원자 원소별, 원자 유형별), 미리정의된 최대 스캔 반경, 및 거리들의 유형(예컨대, Euclidean, Mahalanobis, 정규화, 비정규화)과 같은 질의 파라미터들을 수용하도록 구성된 검색 질의에 응답하여 하나 이상의 데이터 베이스들로부터 복셀별로 가장 가까운 원자들을 복귀시키는 분류 및 검색 알고리즘을 사용함으로써 복셀별로 가장 가까운 원자들을 위치확인할 수 있다. 개시된 기술의 다양한 구현예들에서, 현재 또는 미래의 기술분야로부터의 복수의 분류 및 검색 알고리즘들은 당업자에 의해, 복셀별로 가장 가까운 원자들을 위치확인하기 위해 유사하게 사용될 수 있다.In the depicted implementation, bucketing 400 of Figure 4 follows classification 300 of Figure 3. For example, in Figure 3, the alanine amino acid category has 11 alpha-carbon atoms, and thus in Figure 4, the alanine amino acid category has 11 3D atomic coordinates of the corresponding 11 alpha-carbon atoms from Figure 3. have This sorting-bucketing logic flows from Figure 3 to Figure 4 for other amino acid categories as well. However, this sorting-bucketing logic is for illustrative purposes only, and in other implementations, the disclosed technique requires performing sorting (300) and bucketing (400) to locate the closest atoms on a voxel-by-voxel basis. There may be no, fewer, additional, or different steps. For example, in some implementations, the disclosed technique may be used to determine classification criteria (e.g., by amino acid, by atomic element, by atom type), a predefined maximum scan radius, and types of distances (e.g., Euclidean, Mahalanobis, normalization, The closest atoms by voxel can be located by using a sorting and search algorithm that returns the closest atoms by voxel from one or more databases in response to a search query configured to accept query parameters such as denormalization. In various implementations of the disclosed technology, multiple sorting and search algorithms from current or future art can similarly be used by one skilled in the art to locate the closest atoms on a voxel-by-voxel basis.

도 4에서, 3D 원자 좌표들은 직교 좌표들 x, y, z에 의해 표현되지만, 구형 또는 원통형 좌표들과 같은 임의의 유형의 좌표계가 사용될 수 있고, 청구된 주제는 이러한 점에서 제한되지 않는다. 일부 구현예들에서, 하나 이상의 데이터베이스들이 단백질 내의 알파-탄소 원자들 및 아미노산의 다른 원자들의 3D 원자 좌표들에 관한 정보를 포함할 수 있다. 그러한 데이터베이스들은 특정 단백질에 의해 검색가능할 수 있다.In Figure 4, 3D atomic coordinates are represented by Cartesian coordinates x, y, z, but any type of coordinate system, such as spherical or cylindrical coordinates, may be used, and the claimed subject matter is not limited in this respect. In some implementations, one or more databases may contain information regarding 3D atomic coordinates of alpha-carbon atoms in proteins and other atoms of amino acids. Such databases may be searchable by specific protein.

위에서 논의된 바와 같이, 복셀들 및 복셀 그리드는 3D 엔티티들이다. 그러나, 명확성을 위해, 도면은 복셀들 및 복셀 그리드를 2차원(2D) 포맷으로 도시하고, 설명은 이를 논의한다. 예를 들어, 27개의 복셀들의 3x3x3 복셀 그리드가 본 명세서에서 9개의 2D 픽셀들을 갖는 3x3 2D 픽셀 그리드로서 도시되고 설명된다. 당업자는, 2D 포맷이 단지 구상적인 목적들만을 위해 사용되고 3D 대응물들(즉, 2D 픽셀들이 3D 복셀들을 표현하고, 2D 픽셀 그리드가 3D 복셀 그리드를 표현함)을 커버하도록 의도됨을 이해할 것이다. 또한, 도면은 또한 축척대로 된 것은 아니다. 예를 들어, 크기 2 옹스트롬(Å)의 복셀들이 단일 픽셀을 사용하여 묘사된다.As discussed above, voxels and voxel grids are 3D entities. However, for clarity, the figures show voxels and voxel grids in a two-dimensional (2D) format, and the description discusses this. For example, a 3x3x3 voxel grid of 27 voxels is shown and described herein as a 3x3 2D pixel grid with 9 2D pixels. Those skilled in the art will understand that the 2D format is used for representational purposes only and is intended to cover 3D counterparts (i.e., 2D pixels represent 3D voxels, and a 2D pixel grid represents a 3D voxel grid). Additionally, the drawings are also not to scale. For example, voxels of size 2 Angstroms (Å) are depicted using a single pixel.

복셀별 거리 계산Distance calculation per voxel

도 5는 본 명세서에서 "복셀별 거리 계산(500)"으로도 지칭되는 복셀별 거리 값들을 결정하는 프로세스를 개략적으로 도시한다. 도시된 예에서, 복셀별 거리 값들은 알라닌(A) 거리 채널에 대해서만 계산된다. 그러나, 동일한 거리 계산 로직이 21개의 아미노산 카테고리들 각각에 대해 실행되어 21개의 아미노산별 거리 채널들을 생성하고, 도 1과 관련하여 위에서 논의된 바와 같이, 베타-탄소 원자들 및 산소, 질소 및 수소와 같은 다른 원자 원소들과 같은 다른 원자 유형들로 추가로 확장될 수 있다. 일부 구현예들에서, 원자들은 병원성 분류기의 훈련을 원자 배향에 대해 불변이 되게 하기 위해 거리 계산 전에 랜덤하게 회전된다.5 schematically illustrates the process of determining voxel-wise distance values, also referred to herein as “voxel-wise distance calculation 500”. In the example shown, voxel-wise distance values are calculated only for the alanine (A) distance channel. However, the same distance calculation logic is implemented for each of the 21 amino acid categories to generate 21 amino acid-specific distance channels, with beta-carbon atoms and oxygen, nitrogen, and hydrogen, as discussed above with respect to Figure 1. It can be further extended to other atomic types such as other atomic elements. In some implementations, atoms are randomly rotated before distance calculation to make training of the pathogenicity classifier invariant to atom orientation.

도 5에서, 복셀 그리드(522)가 인덱스들 (1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), 및 (3, 3)로 식별된 9개의 복셀들(514)을 갖는다. 복셀 그리드(522)는, 예를 들어, 기준 아미노산 서열(202) 내의 위치 16에 있는 글리신(G) 아미노산의 알파-탄소 원자의 3D 원자 좌표(532)에 중심설정되는데, 그 이유는 도 2와 관련하여 위에서 논의된 바와 같이, 대안적인 아미노산 서열(212)에서, 위치 16이 글리신(G) 아미노산을 알라닌(A) 아미노산으로 돌연변이시킨 변이체를 경험하기 때문이다. 또한, 복셀 그리드(522)의 중심은 복셀 (2, 2)의 중심과 일치한다.In Figure 5, voxel grid 522 has indices (1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3). , has 9 voxels 514 identified as 1), (3, 2), and (3, 3). The voxel grid 522 is centered, for example, at the 3D atomic coordinates 532 of the alpha-carbon atom of the glycine (G) amino acid at position 16 in the reference amino acid sequence 202 because FIG. As discussed above in connection, in the alternative amino acid sequence 212, position 16 experiences a variant that mutates the glycine (G) amino acid to an alanine (A) amino acid. Additionally, the center of voxel grid 522 coincides with the center of voxel (2, 2).

중심설정된 복셀 그리드(522)는 21개의 아미노산별 거리 채널들 각각에 대한 복셀별 거리 계산에 사용된다. 예를 들어 알라닌(A) 거리 채널로 시작하여, 9개의 복셀들(514) 각각에 대한 가장 가까운 알라닌 알파-탄소 원자를 위치확인하기 위해 9개의 복셀들(514)의 각자의 중심들의 3D 좌표들과 11개의 알라닌 알파-탄소 원자들의 3D 원자 좌표들(402) 사이의 거리들이 측정된다. 이어서, 9개의 복셀들(514)과 각자의 가장 가까운 알라닌 알파-탄소 원자들 사이의 9개의 거리들에 대한 9개의 거리 값들이 알라닌 거리 채널을 구성하는 데 사용된다. 생성된 알라닌 거리 채널은 복셀 그리드(522) 내의 9개의 복셀들(514)과 동일한 순서로 9개의 알라닌 거리 값들을 배열한다.The centered voxel grid 522 is used to calculate the distance per voxel for each of the 21 distance channels for each amino acid. For example, starting with the alanine (A) distance channel, the 3D coordinates of the respective centroids of the nine voxels 514 to locate the nearest alanine alpha-carbon atom for each of the nine voxels 514. and the 3D atomic coordinates 402 of the 11 alanine alpha-carbon atoms are measured. The nine distance values for the nine voxels 514 and the nine distances between their respective nearest alanine alpha-carbon atoms are then used to construct the alanine distance channel. The generated alanine distance channel arranges nine alanine distance values in the same order as the nine voxels 514 in the voxel grid 522.

위의 프로세스는 21개의 아미노산 카테고리들 각각에 대해 실행된다. 예를 들어, 중심설정된 복셀 그리드(522)는 아르기닌(R) 거리 채널을 계산하는 데 유사하게 사용되어, 9개의 복셀들(514)의 각자의 중심들의 3D 좌표들과 35개의 아르기닌 알파-탄소 원자들의 3D 원자 좌표들(404) 사이의 거리들이 측정되어 9개의 복셀들(514) 각각에 대한 가장 가까운 아르기닌 알파-탄소 원자를 위치확인하게 한다. 이어서, 9개의 복셀들(514)과 각자의 가장 가까운 아르기닌 알파-탄소 원자들 사이의 9개의 거리들에 대한 9개의 거리 값들이 아르기닌 거리 채널을 구성하는 데 사용된다. 생성된 아르기닌 거리 채널은 복셀 그리드(522) 내의 9개의 복셀들(514)과 동일한 순서로 9개의 아르기닌 거리 값들을 배열한다. 21개의 아미노산별 거리 채널들은 복셀별로 인코딩되어 거리 채널 텐서를 형성한다.The above process is run for each of the 21 amino acid categories. For example, the centered voxel grid 522 can be similarly used to calculate the arginine (R) distance channel, dividing the 3D coordinates of the respective centroids of the nine voxels 514 and the 35 arginine alpha-carbon atoms. The distances between the 3D atomic coordinates 404 are measured to locate the nearest arginine alpha-carbon atom for each of the nine voxels 514. The nine distance values for the nine distances between the nine voxels 514 and their respective nearest arginine alpha-carbon atoms are then used to construct the arginine distance channel. The created arginine distance channel arranges nine arginine distance values in the same order as the nine voxels 514 in the voxel grid 522. The 21 amino acid-specific distance channels are encoded for each voxel to form a distance channel tensor.

구체적으로, 예시된 예에서, 거리(512)는 복셀 그리드(522)의 복셀 (1, 1)의 중심과 목록(402) 내의 CαA5 원자인 가장 가까운 알파-탄소(Cα) 원자 사이의 것이다. 따라서, 복셀 (1, 1)에 할당된 값은 거리(512)이다. 다른 예에서, CαA4 원자는 복셀 (1, 2)의 중심에 대해 가장 가까운 Cα 원자이다. 따라서, 복셀 (1, 2)에 할당된 값은 복셀 (1, 2)의 중심과 CαA4 원자 사이의 거리이다. 또 다른 예에서, CαA6 원자는 복셀 (2, 1)의 중심에 대해 가장 가까운 Cα 원자이다. 따라서, 복셀 (2, 1)에 할당된 값은 복셀 (2, 1)의 중심과 CαA6 원자 사이의 거리이다. 또 다른 예에서, CαA6 원자는 또한, 복셀들 (3, 2) 및 (3, 3)의 중심에 대해 가장 가까운 Cα 원자이다. 따라서, 복셀 (3, 2)에 할당된 값은 복셀 (3, 2)의 중심과 CαA6 사이의 거리이고, 복셀 (3, 3)에 할당된 값은 복셀 (3, 3)의 중심과 CαA6 원자 사이의 거리이다. 일부 구현예들에서, 복셀들(514)에 할당된 거리 값들은 정규화된 거리들일 수 있다. 예를 들어, 복셀 (1, 1)에 할당된 거리 값은 거리(512)를 최대 거리(502)(미리정의된 최대 스캔 반경)로 나눈 것일 수 있다. 일부 구현예들에서, 가장 가까운 원자 거리들은 유클리드 거리들일 수 있고 가장 가까운 원자 거리들은 유클리드 거리들을 (예컨대, 최대 거리(502)와 같은) 최대 가장 가까운 원자 거리로 나눔으로써 정규화될 수 있다.Specifically, in the illustrated example, distance 512 is between the center of voxel (1, 1) of voxel grid 522 and the nearest alpha-carbon (Cα) atom, which is the Cα A5 atom in list 402. Therefore, the value assigned to voxel (1, 1) is distance (512). In another example, the Cα A4 atom is the closest Cα atom to the center of voxel (1, 2). Therefore, the value assigned to voxel (1, 2) is the distance between the center of voxel (1, 2) and the Cα A4 atom. In another example, the Cα A6 atom is the closest Cα atom to the center of voxel (2, 1). Therefore, the value assigned to voxel (2, 1) is the distance between the center of voxel (2, 1) and the Cα A6 atom. In another example, the Cα A6 atom is also the closest Cα atom to the centers of voxels (3, 2) and (3, 3). Therefore, the value assigned to voxel (3, 2) is the distance between the center of voxel (3, 2) and Cα A6 , and the value assigned to voxel (3, 3) is the distance between the center of voxel (3, 3) and Cα. A6 is the distance between atoms. In some implementations, distance values assigned to voxels 514 may be normalized distances. For example, the distance value assigned to voxel (1, 1) may be distance 512 divided by maximum distance 502 (predefined maximum scan radius). In some implementations, the nearest atom distances may be Euclidean distances and the nearest atom distances may be normalized by dividing the Euclidean distances by the maximum nearest atom distance (e.g., maximum distance 502).

전술된 바와 같이, 알파-탄소 원자들을 갖는 아미노산의 경우, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들일 수 있다. 추가적으로, 베타-탄소 원자들을 갖는 아미노산의 경우, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들일 수 있다. 유사하게, 백본 원자들을 갖는 아미노산의 경우, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들일 수 있다. 유사하게, 측쇄 원자들을 갖는 아미노산의 경우, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들일 수 있다. 일부 구현예들에서, 거리들은 추가적으로/대안적으로, 두 번째, 세 번째, 네 번째 가장 가까운 원자들까지의 거리들 등을 포함할 수 있다.As described above, for amino acids with alpha-carbon atoms, the distances may be the nearest alpha-carbon atom distances from the corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding amino acid. Additionally, for amino acids with beta-carbon atoms, the distances may be the nearest beta-carbon atom distances from the corresponding voxel centers to the nearest beta-carbon atoms of the corresponding amino acid. Similarly, for amino acids with backbone atoms, the distances may be the nearest backbone atom distances from the corresponding voxel centroids to the nearest backbone atoms of the corresponding amino acid. Similarly, for amino acids with side chain atoms, the distances may be the closest side chain atom distances from the corresponding voxel centers to the nearest side chain atoms of the corresponding amino acid. In some implementations, the distances may additionally/alternatively include distances to the second, third, fourth nearest atoms, etc.

아미노산별 거리 채널들Distance channels for each amino acid

도 6은 21개의 아미노산별 거리 채널들(600)의 일례를 도시한다. 도 6의 각각의 열은 21개의 아미노산별 거리 채널들(602 내지 642) 중 각자의 것에 대응한다. 각각의 아미노산별 거리 채널은 복셀 그리드(522)의 복셀들(514) 각각에 대한 거리 값을 포함한다. 예를 들어, 알라닌(A)에 대한 아미노산별 거리 채널(602)은 복셀 그리드(522)의 복셀들(514) 중 각자의 것들에 대한 거리 값들을 포함한다. 위에서 언급된 바와 같이, 복셀 그리드(522)는 체적 3x3x3의 3D 그리드이고, 27개의 복셀들을 포함한다. 마찬가지로, 도 6이 2개의 차원들로 복셀들(514)(예컨대, 3x3 그리드의 9개의 복셀들)을 도시하지만, 각각의 아미노산별 거리 채널은 3x3x3 복셀 그리드에 대한 27개의 복셀별 거리 값들을 포함할 수 있다.Figure 6 shows an example of distance channels 600 for 21 amino acids. Each row in FIG. 6 corresponds to one of the 21 amino acid-specific distance channels 602 to 642. The distance channel for each amino acid includes a distance value for each of the voxels 514 of the voxel grid 522. For example, the per-amino acid distance channel 602 for alanine (A) includes distance values for each of the voxels 514 of the voxel grid 522. As mentioned above, voxel grid 522 is a 3D grid with a volume of 3x3x3 and contains 27 voxels. Likewise, although Figure 6 shows voxels 514 in two dimensions (e.g., 9 voxels in a 3x3 grid), each amino acid-wise distance channel contains 27 voxel-wise distance values for a 3x3x3 voxel grid. can do.

방향성 인코딩Directional encoding

일부 구현예들에서, 개시된 기술은 방향성 파라미터를 사용하여, 기준 아미노산 서열(202) 내의 기준 아미노산의 방향성을 특정한다. 일부 구현예들에서, 개시된 기술은 방향성 파라미터를 사용하여, 대안적인 아미노산 서열(212) 내의 대안적인 아미노산의 방향성을 특정한다. 일부 구현예들에서, 개시된 기술은 방향성 파라미터를 사용하여, 아미노산 수준에서 표적 변이체를 경험하는 단백질(200)의 위치를 특정한다.In some implementations, the disclosed technology uses an orientation parameter to specify the orientation of a reference amino acid within the reference amino acid sequence 202. In some implementations, the disclosed technology uses an orientation parameter to specify the orientation of an alternative amino acid within the alternative amino acid sequence 212. In some embodiments, the disclosed technology uses orientation parameters to specify the location of a protein 200 that experiences a target variant at the amino acid level.

위에서 논의된 바와 같이, 21개의 아미노산별 거리 채널들(602 내지 642)의 모든 거리 값들은 각자의 가장 가까운 원자들로부터 복셀 그리드(522) 내의 복셀들(514)까지 측정된다. 이러한 가장 가까운 원자들은 기준 아미노산 서열(202) 내의 기준 아미노산들 중 하나로부터 유래한다. 가장 가까운 원자들을 함유하는 이러한 유래하는 기준 아미노산은 2개의 카테고리들로 분류될 수 있다: (1) 기준 아미노산 서열(202) 내의 변이체 경험 기준 아미노산(204)에 선행하는 그러한 유래하는 기준 아미노산 및 (2) 기준 아미노산 서열(202) 내의 변이체 경험 기준 아미노산(204)에 후행하는 그러한 유래하는 기준 아미노산. 제1 카테고리 내의 유래하는 기준 아미노산은 선행 기준 아미노산으로 불릴 수 있다. 제2 카테고리 내의 유래하는 기준 아미노산은 후행 기준 아미노산으로 불릴 수 있다.As discussed above, all distance values of the 21 amino acid-specific distance channels 602 to 642 are measured from their respective nearest atoms to voxels 514 in the voxel grid 522. These closest atoms are from one of the reference amino acids in the reference amino acid sequence 202. These derived reference amino acids containing the closest atoms can be classified into two categories: (1) those derived reference amino acids that precede the variant empirical reference amino acid 204 within the reference amino acid sequence 202 and (2) ) A reference amino acid derived from such a variant that follows the reference amino acid (204) within the reference amino acid sequence (202). Reference amino acids derived within the first category may be referred to as preceding reference amino acids. The resulting reference amino acids within the second category may be referred to as trailing reference amino acids.

방향성 파라미터는 선행 기준 아미노산으로부터 유래하는 그러한 가장 가까운 원자들로부터 측정되는 21개의 아미노산별 거리 채널들(602 내지 642)에서 그러한 거리 값들에 적용된다. 하나의 구현예에서, 방향성 파라미터는 그러한 거리 값들과 곱해진다. 방향성 파라미터는 임의의 수, 예컨대 -1일 수 있다.The directionality parameter is applied to those distance values in the 21 amino acid-specific distance channels 602 to 642 measured from those nearest atoms originating from the preceding reference amino acid. In one implementation, the directionality parameter is multiplied by those distance values. The directionality parameter can be any number, such as -1.

방향성 파라미터의 적용의 결과로서, 21개의 아미노산별 거리 채널들(600)은 단백질(200)의 어느 단부가 시작 말단이고 어느 단부가 단부 말단인지를 병원성 분류기에 나타내는 일부 거리 값들을 포함한다. 이것은 또한, 병원성 분류기가 거리 채널들과 기준 및 대립유전자 채널들에 의해 공급되는 3D 단백질 구조 정보로부터 단백질 서열을 재구성할 수 있게 한다.As a result of the application of the directionality parameter, the 21 amino acid-specific distance channels 600 contain some distance values that indicate to the pathogenicity classifier which end of the protein 200 is the start end and which end is the end end. This also allows the pathogenicity classifier to reconstruct the protein sequence from the 3D protein structure information supplied by the distance channels and the reference and allele channels.

거리 채널 텐서distance channel tensor

도 7은 거리 채널 텐서(700)의 개략도이다. 거리 채널 텐서(700)는 도 6으로부터의 아미노산별 거리 채널들(600)의 복셀화된 표현이다. 거리 채널 텐서(700)에서, 21개의 아미노산별 거리 채널들(602 내지 642)은 색상 이미지의 RGB 채널들과 같이 복셀별로 연결된다. 거리 채널 텐서(700)의 복셀화된 차원수는 21x3x3x3이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시하고, 3x3x3은 27개의 복셀들을 갖는 3D 복셀 그리드를 표시함); 도 7은 차원수 21x3x3의 2D 묘사이다.7 is a schematic diagram of the distance channel tensor 700. The distance channel tensor 700 is a voxelized representation of the per-amino acid distance channels 600 from FIG. 6 . In the distance channel tensor 700, 21 amino acid-specific distance channels 602 to 642 are connected for each voxel, like the RGB channels of a color image. The voxelized dimensionality of the distance channel tensor 700 is 21x3x3x3 (where 21 represents the 21 amino acid categories and 3x3x3 represents a 3D voxel grid with 27 voxels); Figure 7 is a 2D depiction of dimensions 21x3x3.

원-핫 인코딩들One-hot encodings

도 8은 기준 아미노산(204) 및 대안적인 아미노산(214)의 원-핫 인코딩들(800)을 도시한다. 도 8에서, 좌측 열은 기준 아미노산 글리신(G)(204)의 원-핫 인코딩(802)이며, 이때 1은 글리신 아미노산 카테고리에 대한 것이고, 0들은 모든 다른 아미노산 카테고리들에 대한 것이다. 도 8에서, 우측 열은 변이체/대안적인 아미노산 알라닌(A)(214)의 원-핫 인코딩(804)이며, 이때 1은 알라닌 아미노산 카테고리에 대한 것이고, 0들은 모든 다른 아미노산 카테고리들에 대한 것이다.Figure 8 shows one-hot encodings 800 of a reference amino acid 204 and an alternative amino acid 214. In Figure 8, the left column is a one-hot encoding 802 of the reference amino acid glycine (G) 204, with 1s for the glycine amino acid category and 0s for all other amino acid categories. In Figure 8, the right column is the one-hot encoding (804) of the variant/alternative amino acid alanine (A) (214), where 1's are for the alanine amino acid category and 0's are for all other amino acid categories.

도 9는 복셀화된 원-핫 인코딩된 기준 아미노산(902) 및 복셀화된 원-핫 인코딩된 변이체/대안적인 아미노산(912)의 개략도이다. 복셀화된 원-핫 인코딩된 기준 아미노산(902)은 도 8로부터의 기준 아미노산 글리신(G)(204)의 원-핫 인코딩(802)의 복셀화된 표현이다. 복셀화된 원-핫 인코딩된 대안적인 아미노산(912)은 도 8로부터의 변이체/대안적인 아미노산 알라닌(A)(214)의 원-핫 인코딩(804)의 복셀화된 표현이다. 복셀화된 원-핫 인코딩된 기준 아미노산(902)의 복셀화된 차원수는 21x1x1x1이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시함); 도 9는 차원수 21x1x1의 2D 묘사이다. 유사하게, 복셀화된 원-핫 인코딩된 대안적인 아미노산(912)의 복셀화된 차원수는 21x1x1x1이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시함); 도 9는 차원수 21x1x1의 2D 묘사이다.Figure 9 is a schematic diagram of a voxelized one-hot encoded reference amino acid (902) and a voxelized one-hot encoded variant/alternative amino acid (912). The voxelized one-hot encoded reference amino acid 902 is a voxelized representation of the one-hot encoding 802 of the reference amino acid glycine (G) 204 from Figure 8. The voxelized one-hot encoded alternative amino acid 912 is a voxelized representation of the one-hot encoded 804 of the variant/alternative amino acid alanine (A) 214 from Figure 8. The voxelized dimensionality of the voxelized one-hot encoded reference amino acid 902 is 21x1x1x1 (where 21 represents the 21 amino acid categories); Figure 9 is a 2D depiction of dimensions 21x1x1. Similarly, the voxelized dimensionality of the voxelized one-hot encoded alternative amino acids 912 is 21x1x1x1 (where 21 represents the 21 amino acid categories); Figure 9 is a 2D depiction of dimensions 21x1x1.

기준 대립유전자 텐서Reference allele tensor

도 10은 도 7의 거리 채널 텐서(700) 및 기준 대립유전자 텐서(1004)를 복셀별로 연결하는 연결 프로세스(1000)를 개략적으로 도시한다. 기준 대립유전자 텐서(1004)는 도 9로부터의 복셀화된 원-핫 인코딩된 기준 아미노산(902)의 복셀별 응집(반복/클로닝/복제)이다. 즉, 복셀화된 원-핫 인코딩된 기준 아미노산(902)의 다수의 카피들은 복셀 그리드(522) 내의 복셀들(514)의 공간적 배열에 따라 서로와 복셀별로 연결되고, 따라서, 기준 대립유전자 텐서(1004)는 복셀 그리드(522) 내의 복셀들(514) 각각에 대한 복셀화된 원-핫 인코딩된 기준 아미노산(910)의 대응하는 카피를 갖는다.FIG. 10 schematically illustrates a concatenation process 1000 that concatenates the distance channel tensor 700 and the reference allele tensor 1004 of FIG. 7 on a voxel-by-voxel basis. The reference allele tensor 1004 is a voxel-wise aggregation (repeat/cloning/replication) of the voxelized one-hot encoded reference amino acids 902 from Figure 9. That is, multiple copies of the voxelized one-hot encoded reference amino acid 902 are connected to each other voxel-by-voxel according to the spatial arrangement of the voxels 514 within the voxel grid 522, and thus the reference allele tensor ( 1004) has a corresponding copy of the voxelized one-hot encoded reference amino acid 910 for each of the voxels 514 in the voxel grid 522.

연결 프로세스(1000)는 연결된 텐서(1010)를 생성한다. 기준 대립유전자 텐서(1004)의 복셀화된 차원수는 21x3x3x3이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시하고, 3x3x3은 27개의 복셀들을 갖는 3D 복셀 그리드를 표시함); 도 10은 차원수 21x3x3을 갖는 기준 대립유전자 텐서(1004)의 2D 묘사이다. 연결된 텐서(1010)의 복셀화된 차원수는 42x3x3x3이지만; 도 10은 차원수 42x3x3을 갖는 연결된 텐서(1010)의 2D 묘사이다.The concatenation process 1000 creates a concatenated tensor 1010. The voxelized dimensionality of the reference allele tensor 1004 is 21x3x3x3 (where 21 represents the 21 amino acid categories and 3x3x3 represents a 3D voxel grid with 27 voxels); Figure 10 is a 2D depiction of the reference allele tensor 1004 with dimensions 21x3x3. The voxelized dimensionality of the connected tensor 1010 is 42x3x3x3; Figure 10 is a 2D depiction of a connected tensor 1010 with dimensions 42x3x3.

대안적인 대립유전자 텐서Alternative allele tensor

도 11은 도 7의 거리 채널 텐서(700), 도 10의 기준 대립유전자 텐서(1004), 및 대안적인 대립유전자 텐서(1104)를 복셀별로 연결하는 연결 프로세스(1100)를 개략적으로 도시한다. 대안적인 대립유전자 텐서(1104)는 도 9로부터의 복셀화된 원-핫 인코딩된 대안적인 아미노산(912)의 복셀별 응집(반복/클로닝/복제)이다. 즉, 복셀화된 원-핫 인코딩된 대안적인 아미노산(912)의 다수의 카피들은 복셀 그리드(522) 내의 복셀들(514)의 공간적 배열에 따라 서로와 복셀별로 연결되고, 따라서, 대안적인 대립유전자 텐서(1104)는 복셀 그리드(522) 내의 복셀들(514) 각각에 대한 복셀화된 원-핫 인코딩된 대안적인 아미노산(910)의 대응하는 카피를 갖는다.FIG. 11 schematically illustrates a concatenation process 1100 that concatenates the distance channel tensor 700 of FIG. 7, the reference allele tensor 1004 of FIG. 10, and the alternative allele tensor 1104 on a voxel-by-voxel basis. The alternative allele tensor 1104 is a voxel-wise aggregation (repeat/cloning/replication) of the voxelized one-hot encoded alternative amino acids 912 from Figure 9. That is, multiple copies of a voxelized one-hot encoded alternative amino acid 912 are linked to each other voxel-by-voxel according to the spatial arrangement of the voxels 514 within the voxel grid 522 and, thus, the alternative allele. Tensor 1104 has a corresponding copy of the voxelized one-hot encoded alternative amino acid 910 for each of the voxels 514 in voxel grid 522.

연결 프로세스(1100)는 연결된 텐서(1110)를 생성한다. 대안적인 대립유전자 텐서(1104)의 복셀화된 차원수는 21x3x3x3이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시하고, 3x3x3은 27개의 복셀들을 갖는 3D 복셀 그리드를 표시함); 도 11은 차원수 21x3x3을 갖는 대안적인 대립유전자 텐서(1104)의 2D 묘사이다. 연결된 텐서(1110)의 복셀화된 차원수는 63x3x3x3이지만; 도 11은 차원수 63x3x3을 갖는 연결된 텐서(1110)의 2D 묘사이다.The concatenation process 1100 creates a concatenated tensor 1110. The voxelized dimensionality of the alternative allele tensor 1104 is 21x3x3x3 (where 21 represents the 21 amino acid categories and 3x3x3 represents a 3D voxel grid with 27 voxels); Figure 11 is a 2D depiction of the alternative allele tensor 1104 with dimensions 21x3x3. The voxelized dimensionality of the connected tensor 1110 is 63x3x3x3; Figure 11 is a 2D depiction of a connected tensor 1110 with dimensions 63x3x3.

일부 구현예들에서, 런타임 로직(184)은 병원성 분류기를 통해 연결된 텐서(1110)를 처리하여 변이체/대안적인 아미노산 알라닌(A)(214)의 병원성을 결정하는데, 이는 결국, 변이체/대안적인 아미노산 알라닌(A)(214)을 생성하는 기본 뉴클레오티드 변이체의 병원성 결정으로서 추론된다.In some implementations, runtime logic 184 processes the concatenated tensor 1110 through a pathogenicity classifier to determine the pathogenicity of the variant/alternative amino acid alanine (A) 214, which in turn determines the pathogenicity of the variant/alternative amino acid alanine (A) 214. It is inferred as a pathogenic determinant of the basic nucleotide variant that produces alanine (A) (214).

진화적 보존 채널들Evolutionary Conservation Channels

변이체들의 기능적 결과들을 예측하는 것은, 적어도 부분적으로, 단백질족에 대한 중요한 아미노산이 네거티브 선택으로 인한 진화를 통해 보존되고(즉, 이러한 부위들에서의 아미노산 변화들은 과거에 유해하였음) 이러한 부위들에서의 돌연변이들이 인간들에게 (질환을 야기하는) 병원성일 가능성을 증가시킨다는 가정에 의존한다. 대체적으로, 표적 단백질의 상동성 서열들이 수집 및 정렬되고, 정렬 내의 표적 위치에서 관찰된 상이한 아미노산의 가중 빈도에 기초하여 보존의 메트릭이 계산된다.Predicting the functional consequences of variants depends, at least in part, on whether important amino acids for the protein family have been conserved through evolution due to negative selection (i.e., amino acid changes at these sites have been deleterious in the past) and whether amino acid changes at these sites have been detrimental in the past. It relies on the assumption that mutations increase the likelihood of being pathogenic (causing disease) in humans. Typically, homologous sequences of a target protein are collected and aligned, and a metric of conservation is calculated based on the weighted frequency of the different amino acids observed at the target position within the alignment.

따라서, 개시된 기술은 거리 채널 텐서(700), 기준 대립유전자 텐서(1004), 및 대안적인 대립유전자 텐서(1104)를 진화적 채널들과 연결한다. 진화적 채널들의 하나의 예가 범아미노산 보존 빈도들이다. 진화적 채널들의 다른 예가 아미노산당 보존 빈도들이다.Accordingly, the disclosed technique connects the distance channel tensor 700, the reference allele tensor 1004, and the alternative allele tensor 1104 with evolutionary channels. One example of evolutionary channels is pan-amino acid conservation frequencies. Another example of evolutionary channels are conservation frequencies per amino acid.

일부 구현예들에서, 진화적 채널들은 위치 가중치 행렬(PWM)들을 사용하여 구성된다. 다른 구현예들에서, 진화적 채널들은 위치 특정 빈도 행렬(position specific frequency matrix, PSFM)들을 사용하여 구성된다. 또 다른 구현예들에서, 진화적 채널들은 SIFT, PolyPhen, 및 PANTHER-PSEC과 같은 계산 툴들을 사용하여 구성된다. 또 다른 구현예들에서, 진화적 채널들은 진화적 보전(preservation)에 기초한 보전 채널들이다. 보전은 보존과 관련되는데, 이는 그것이 또한, 단백질 내의 주어진 부위에서 진화적 변화를 방지하도록 작용했던 네거티브 선택의 효과를 반영하기 때문이다.In some implementations, evolutionary channels are constructed using position weight matrices (PWMs). In other implementations, evolutionary channels are constructed using position specific frequency matrices (PSFM). In still other implementations, evolutionary channels are constructed using computational tools such as SIFT, PolyPhen, and PANTHER-PSEC. In still other implementations, the evolutionary channels are conservation channels based on evolutionary preservation. Conservation is related to conservation because it also reflects the effect of negative selection that has acted to prevent evolutionary change at a given site within a protein.

범아미노산 진화 프로파일들Pan-amino acid evolutionary profiles

도 12는 개시된 기술의 하나의 구현예에 따른, 가장 가까운 원자들의 범아미노산 보존 빈도들을 결정하여 복셀들에 할당하기 위한(복셀화) 시스템의 프로세스(1200)를 도시하는 흐름도이다. 도 12, 도 13, 도 14, 도 15, 도 16, 도 17, 및 도 18은 동시에 논의된다.FIG. 12 is a flow diagram illustrating a process 1200 of a system for determining pan-amino acid conservation frequencies of nearest atoms and assigning them to voxels (voxelization), according to one implementation of the disclosed technology. Figures 12, 13, 14, 15, 16, 17, and 18 are discussed simultaneously.

단계(1202)에서, 시스템의 유사한 서열 파인더(1204)가 기준 아미노산 서열(202)과 유사한(상동성) 아미노산 서열들을 취출한다. 유사한 아미노산 서열들은 영장류, 포유류 및 척추동물과 같은 다수의 종으로부터 선택될 수 있다.In step 1202, the system's similar sequence finder 1204 retrieves amino acid sequences that are similar (homologous) to the reference amino acid sequence 202. Similar amino acid sequences can be selected from multiple species such as primates, mammals, and vertebrates.

단계(1212)에서, 시스템의 정렬기(1214)가 기준 아미노산 서열(202)을 유사한 아미노산 서열들과 위치별로 정렬시키는데, 즉, 정렬기(1214)는 다중 서열 정렬을 수행한다. 도 14는 99종에 걸친 기준 아미노산 서열(202)의 예시적인 다중 서열 정렬(1400)을 도시한다. 일부 구현예들에서, 다중 서열 정렬(1400)은, 예를 들어, 영장류에 대한 제1 위치 빈도 행렬(1402), 포유류에 대한 제2 위치 빈도 행렬(1412), 및 영장류에 대한 제3 위치 빈도 행렬(1422)을 생성하기 위해 분할될 수 있다. 다른 구현예들에서, 단일 위치 빈도 행렬이 99개의 종들에 걸쳐 생성된다.At step 1212, the system's aligner 1214 aligns the reference amino acid sequence 202 by position with similar amino acid sequences, i.e., aligner 1214 performs a multiple sequence alignment. Figure 14 shows an exemplary multiple sequence alignment (1400) of reference amino acid sequences (202) across 99 species. In some implementations, multiple sequence alignment 1400 can be configured to, for example, a first position frequency matrix for primates 1402, a second position frequency matrix for mammals 1412, and a third position frequency matrix for primates. It can be divided to create matrix 1422. In other implementations, a single position frequency matrix is generated across 99 species.

단계(1222)에서, 시스템의 범아미노산 보존 빈도 계산기(1224)가 다중 서열 정렬을 사용하여, 기준 아미노산 서열(202) 내의 기준 아미노산의 범아미노산 보존 빈도들을 결정한다.In step 1222, the system's pan-amino acid conservation frequency calculator 1224 uses multiple sequence alignment to determine the pan-amino acid conservation frequencies of reference amino acids in the reference amino acid sequence 202.

단계(1232)에서, 시스템의 가장 가까운 원자 파인더(1234)가 복셀 그리드(522) 내의 복셀들(514)에 대해 가장 가까운 원자들을 발견한다. 일부 구현예들에서, 복셀별로 가장 가까운 원자들에 대한 검색은 임의의 특정 아미노산 카테고리 또는 원자 유형으로 한정되지 않을 수 있다. 즉, 복셀별로 가장 가까운 원자들은 그들이 각자의 복셀 중심들에 대한 가장 근접한 원자들인 한, 아미노산 카테고리들 및 아미노산 유형들에 걸쳐 선택될 수 있다. 다른 구현예들에서, 복셀별로 가장 가까운 원자들에 대한 검색은 특정 원자 카테고리만으로, 예컨대 산소, 질소, 및 수소와 같은 특정 원자 원소만으로, 또는 알파-탄소 원자들만으로, 또는 베타-탄소 원자들만으로, 또는 측쇄 원자들만으로, 또는 백본 원자들만으로 한정될 수 있다.At step 1232, the system's closest atom finder 1234 finds the closest atoms for voxels 514 in the voxel grid 522. In some implementations, the search for closest atoms on a voxel-by-voxel basis may not be limited to any particular amino acid category or atom type. That is, the closest atoms per voxel can be selected across amino acid categories and amino acid types as long as they are the closest atoms to the respective voxel centroids. In other embodiments, the search for closest atoms on a voxel-by-voxel basis includes only certain atomic categories, such as only certain atomic elements, such as oxygen, nitrogen, and hydrogen, or only alpha-carbon atoms, or only beta-carbon atoms, or It may be limited to side chain atoms only, or backbone atoms only.

단계(1242)에서, 시스템의 아미노산 선택기(1244)가 단계(1232)에서 식별된 가장 가까운 원자들을 함유하는 기준 아미노산 서열(202) 내의 그러한 기준 아미노산을 선택한다. 그러한 기준 아미노산은 가장 가까운 기준 아미노산으로 불릴 수 있다. 도 13은, 복셀 그리드(522) 내의 복셀들(514)에 대해 가장 가까운 원자들(1302)을 위치확인하고 복셀 그리드(522) 내의 복셀들(514)에 대해 가장 가까운 원자들(1302)을 함유하는 가장 가까운 기준 아미노산(1312)을 각각 맵핑하는 일례를 도시한다. 이것은 도 13에서 "복셀-가장 가까운 아미노산 맵핑(1300)"으로서 식별된다.At step 1242, the system's amino acid selector 1244 selects those reference amino acids within the reference amino acid sequence 202 that contain the closest atoms identified at step 1232. Such reference amino acids may be called closest reference amino acids. 13 locates the closest atoms 1302 for voxels 514 in voxel grid 522 and contains the closest atoms 1302 for voxels 514 in voxel grid 522. An example of mapping the closest reference amino acid 1312 to each other is shown. This is identified as “Voxel-nearest amino acid mapping 1300” in Figure 13.

단계(1252)에서, 시스템의 복셀화기(1254)가 가장 가까운 기준 아미노산의 범아미노산 보존 빈도들을 복셀화한다. 도 15는 본 명세서에서 "복셀당 진화 프로파일 결정(1500)"으로도 지칭되는, 복셀 그리드(522) 내의 제1 복셀 (1, 1)에 대한 범아미노산 보존 빈도 서열을 결정하는 일례를 도시한다.In step 1252, the system's voxelizer 1254 voxelizes the pan-amino acid conservation frequencies of the closest reference amino acid. Figure 15 shows an example of determining the pan-amino acid conservation frequency sequence for the first voxel (1, 1) in the voxel grid 522, also referred to herein as “per-voxel evolutionary profile determination 1500.”

도 13을 참조하면, 제1 복셀 (1, 1)에 맵핑되었던 가장 가까운 기준 아미노산은 기준 아미노산 서열(202)에서 위치 15에 있는 아스파르트산(D) 아미노산이다. 이어서, 예를 들어 99종의 99개의 상동성 아미노산 서열들과의 기준 아미노산 서열(202)의 다중 서열 정렬이 위치 15에서 분석된다. 그러한 위치 특정적 및 종간 분석은 100개의 정렬된 아미노산 서열들(즉, 기준 아미노산 서열(202)+99개의 상동성 아미노산 서열들)에 걸친 위치 15에서 21개의 아미노산 카테고리들 각각으로부터 얼마나 많은 인스턴스들의 아미노산이 발견되는지를 나타낸다.Referring to Figure 13, the closest reference amino acid that was mapped to the first voxel (1, 1) is the aspartic acid (D) amino acid at position 15 in the reference amino acid sequence 202. A multiple sequence alignment of the reference amino acid sequence 202 with 99 homologous amino acid sequences from, for example, 99 species is then analyzed at position 15. Such position-specific and interspecies analyzes can determine how many instances of an amino acid from each of the 21 amino acid categories at positions 15 across 100 aligned amino acid sequences (i.e., the reference amino acid sequence (202) plus 99 homologous amino acid sequences). Indicates whether is found.

도 15에 도시된 예에서, 아스파르트산(D) 아미노산은 100개의 정렬된 아미노산 서열들 중에서 96개의 위치 15에서 발견된다. 따라서, 아스파르트산 아미노산 카테고리(1504)는 0.96의 범아미노산 보존 빈도를 할당받는다. 유사하게, 도시된 예에서, 발린(V)산 아미노산은 100개의 정렬된 아미노산 서열들 중에서 4개의 위치 15에서 발견된다. 따라서, 발린산 아미노산 카테고리(1514)는 0.04의 범아미노산 보존 빈도를 할당받는다. 위치 15에서 다른 아미노산 카테고리들로부터의 아미노산의 어떠한 인스턴스들도 검출되지 않기 때문에, 나머지 아미노산 카테고리들은 0의 범아미노산 보존 빈도를 할당받는다. 이러한 방식으로, 21개의 아미노산 카테고리들 각각은 제1 복셀 (1, 1)에 대한 범아미노산 보존 빈도 서열(1502)에서 인코딩될 수 있는 각자의 범아미노산 보존 빈도를 할당받는다.In the example shown in Figure 15, the aspartic acid (D) amino acid is found at position 15 in 96 of the 100 aligned amino acid sequences. Therefore, the aspartic acid amino acid category (1504) is assigned a pan-amino acid conservation frequency of 0.96. Similarly, in the example shown, the valine(V) acid amino acid is found at position 15 in four of the 100 aligned amino acid sequences. Therefore, the valine acid amino acid category (1514) is assigned a pan-amino acid conservation frequency of 0.04. Since no instances of amino acids from other amino acid categories are detected at position 15, the remaining amino acid categories are assigned a pan-amino acid conservation frequency of 0. In this way, each of the 21 amino acid categories is assigned a respective pan-amino acid conservation frequency, which can be encoded in the pan-amino acid conservation frequency sequence 1502 for the first voxel (1, 1).

도 16은 본 명세서에서 "복셀-진화 프로파일 맵핑(1600)"으로도 지칭되는, 도 15에서 기술된 위치 빈도 로직을 사용하여 복셀 그리드(522) 내의 복셀들(514) 중 각자의 것들에 대해 결정된 각자의 범아미노산 보존 빈도들(1612 내지 1692)을 도시한다.FIG. 16 shows the positional frequency logic determined for each of the voxels 514 within the voxel grid 522 using the position frequency logic described in FIG. 15 , also referred to herein as “voxel-evolution profile mapping 1600.” The respective pan-amino acid conservation frequencies (1612 to 1692) are shown.

이어서, 복셀당 진화 프로파일들(1602)이 복셀화기(1254)에 의해 사용되어, 도 17에 도시된 복셀화된 복셀별 진화 프로파일들(1700)을 생성한다. 종종, 복셀 그리드(522) 내의 복셀들(514) 각각은 상이한 범아미노산 보존 빈도 서열 및 이에 따른, 상이한 복셀화된 복셀당 진화 프로파일을 갖는데, 그 이유는 복셀들이 상이한 가장 가까운 원자들에 그리고 이에 따라, 상이한 가장 가까운 기준 아미노산에 규칙적으로 맵핑되기 때문이다. 물론, 2개 이상의 복셀들이 동일한 가장 가까운 원자 및 이에 의한 동일한 가장 가까운 기준 아미노산을 가질 때, 동일한 범아미노산 보존 빈도 서열 및 동일한 복셀화된 복셀당 진화 프로파일이 2개 이상의 복셀들 각각에 할당된다.The per-voxel evolution profiles 1602 are then used by the voxelizer 1254 to generate the voxelized per-voxel evolution profiles 1700 shown in FIG. 17 . Often, each of the voxels 514 within the voxel grid 522 has a different pan-amino acid conservation frequency sequence and, therefore, a different voxelized per-voxel evolutionary profile because the voxels have different nearest atoms and thus , because they are regularly mapped to different closest reference amino acids. Of course, when two or more voxels have the same nearest atom and thereby the same nearest reference amino acid, the same pan-amino acid conservation frequency sequence and the same voxelized per-voxel evolution profile are assigned to each of the two or more voxels.

도 18은 복셀화된 복셀별 진화 프로파일들(1700)이 복셀 그리드(522) 내의 복셀들(514)의 공간적 배열에 따라 서로와 복셀별로 연결되는 진화 프로파일 텐서(1800)의 예를 도시한다. 진화 프로파일 텐서(1800)의 복셀화된 차원수는 21x3x3x3이지만(여기서, 21은 21개의 아미노산 카테고리들을 표시하고, 3x3x3은 27개의 복셀들을 갖는 3D 복셀 그리드를 표시함); 도 18은 차원수 21x3x3을 갖는 진화 프로파일 텐서(1800)의 2D 묘사이다.FIG. 18 shows an example of an evolution profile tensor 1800 in which voxelized voxel-wise evolution profiles 1700 are connected to each other voxel-wise according to the spatial arrangement of the voxels 514 in the voxel grid 522. The voxelized dimensionality of the evolutionary profile tensor 1800 is 21x3x3x3 (where 21 represents the 21 amino acid categories and 3x3x3 represents a 3D voxel grid with 27 voxels); Figure 18 is a 2D depiction of an evolutionary profile tensor 1800 with dimensions 21x3x3.

단계(1262)에서, 연결기(174)는 진화 프로파일들 텐서(1800)를 거리 채널 텐서(700)와 복셀별로 연결한다. 일부 구현예들에서, 진화 프로파일 텐서(1800)는 연결기 텐서(1110)와 복셀별로 연결되어, 차원수 84x3x3x3의 추가 연결된 텐서(도시되지 않음)를 생성한다.At step 1262, concatenator 174 concatenates evolution profiles tensor 1800 with distance channel tensor 700 on a voxel-by-voxel basis. In some implementations, the evolutionary profile tensor 1800 is concatenated voxel-by-voxel with the connector tensor 1110, creating an additional concatenated tensor (not shown) of dimension 84x3x3x3.

단계(1272)에서, 런타임 로직(184)은 병원성 분류기를 통해 차원수 84x3x3x3의 추가 연결된 텐서를 처리하여 표적 변이체의 병원성을 결정하는데, 이는 결국, 아미노산 수준에서 표적 변이체를 생성하는 기본 뉴클레오티드 변이체의 병원성 결정으로서 추론된다.At step 1272, runtime logic 184 processes an additional concatenated tensor of dimension 84x3x3x3 through a pathogenicity classifier to determine the pathogenicity of the target variant, which in turn determines the pathogenicity of the underlying nucleotide variant that produces the target variant at the amino acid level. It is inferred as a decision.

아미노산당 진화 프로파일들Evolutionary profiles per amino acid

도 19는 가장 가까운 원자들의 아미노산당 보존 빈도들을 결정하여 복셀들에 할당하기 위한(복셀화) 시스템의 프로세스(1900)를 도시하는 흐름도이다. 도 19에서, 단계들(1202, 1212)은 도 12와 동일하다.FIG. 19 is a flow diagram illustrating the system's process 1900 for determining and assigning (voxelization) conservation frequencies per amino acid of nearest atoms to voxels. In Figure 19, steps 1202 and 1212 are the same as in Figure 12.

단계(1922)에서, 시스템의 아미노산당 보존 빈도 계산기(1924)가 다중 서열 정렬을 사용하여, 기준 아미노산 서열(202) 내의 기준 아미노산의 아미노산당 보존 빈도들을 결정한다.In step 1922, the system's conservation frequency per amino acid calculator 1924 uses multiple sequence alignment to determine the conservation frequencies per amino acid of a reference amino acid in the reference amino acid sequence 202.

단계(1932)에서, 시스템의 가장 가까운 원자 파인더(1934)가 복셀 그리드(522) 내의 복셀들(514) 각각에 대해, 21개의 아미노산 카테고리들 각각에 걸쳐 21개의 가장 가까운 원자들을 발견한다. 21개의 가장 가까운 원자들 각각은 서로 상이한데, 그 이유는 그들이 상이한 아미노산 카테고리들로부터 선택되기 때문이다. 이것은 특정 복셀에 대한 21개의 고유한 가장 가까운 기준 아미노산의 선택으로 이어지는데, 이는 결국, 특정 복셀에 대한 21개의 고유한 위치 빈도 행렬들의 생성으로 이어지고, 그리고 결국, 특정 복셀에 대한 21개의 고유한 아미노산당 보존 빈도들의 결정으로 이어진다.At step 1932, the system's closest atom finder 1934 finds, for each of the voxels 514 in the voxel grid 522, the 21 closest atoms across each of the 21 amino acid categories. Each of the 21 closest atoms are different from each other because they are selected from different amino acid categories. This leads to the selection of 21 unique closest reference amino acids for a specific voxel, which in turn leads to the generation of 21 unique position frequency matrices for a specific voxel, and ultimately to the creation of 21 unique amino acids per amino acid for a specific voxel. This leads to the determination of preservation frequencies.

단계(1942)에서, 시스템의 아미노산 선택기(1944)가 복셀 그리드(522) 내의 복셀들(514) 각각에 대해, 단계(1932)에서 식별된 21개의 가장 가까운 원자들을 함유하는 기준 아미노산 서열(202) 내의 21개의 기준 아미노산을 선택한다. 그러한 기준 아미노산은 가장 가까운 기준 아미노산으로 불릴 수 있다.At step 1942, the system's amino acid selector 1944 selects, for each of the voxels 514 in the voxel grid 522, a reference amino acid sequence 202 containing the 21 closest atoms identified in step 1932. Select the 21 reference amino acids within. Such reference amino acids may be called closest reference amino acids.

단계(1952)에서, 시스템의 복셀화기(1954)가 단계1942)에서 특정 복셀에 대해 식별된 21개의 가장 가까운 기준 아미노산의 아미노산당 보존 빈도들을 복셀화한다. 21개의 가장 가까운 기준 아미노산은 반드시 기준 아미노산 서열(202) 내의 21개의 상이한 위치들에 위치되는데, 그 이유는 그들이 상이한 기본 가장 가까운 원자들에 대응하기 때문이다. 따라서, 특정 복셀에 대해, 21개의 가장 가까운 기준 아미노산에 대해 21개의 위치 빈도 행렬들이 생성될 수 있다. 21개의 위치 빈도 행렬들은 도 12 내지 도 15와 관련하여 위에서 논의된 바와 같이, 상동성 아미노산 서열들이 기준 아미노산 서열(202)과 위치별로 정렬되는 다수의 종에 걸쳐 생성될 수 있다.At step 1952, the voxelizer 1954 of the system voxelizes the per-amino acid conservation frequencies of the 21 closest reference amino acids identified for a particular voxel at step 1942). The 21 closest reference amino acids are necessarily located at 21 different positions within the reference amino acid sequence 202 because they correspond to different basic nearest atoms. Therefore, for a specific voxel, 21 position frequency matrices can be generated for the 21 closest reference amino acids. Twenty-one position frequency matrices can be generated across multiple species where the homologous amino acid sequences are aligned by position with the reference amino acid sequence 202, as discussed above with respect to FIGS. 12-15.

이어서, 21개의 위치 빈도 행렬들을 사용하여, 특정 복셀에 대해 식별된 21개의 가장 가까운 기준 아미노산에 대해 21개의 위치 특정적 보존 점수들이 계산될 수 있다. 이러한 21개의 위치 특정적 보존 점수들은, 서열(1502)이 많은 제로(0) 엔트리들을 갖는다는 점을 제외하면, 도 12에서 범아미노산 보존 빈도 서열(1502)과 유사하게, 특정 복셀에 대한 범아미노산 보존 빈도들을 형성하는 반면; 아미노산당 보존 빈도 서열 내의 각각의 요소(특징부)는 일정 값(예컨대, 부동 소수점 수)을 갖는데, 그 이유는 21개의 아미노산 카테고리들에 걸친 21개의 가장 가까운 기준 아미노산이 반드시, 상이한 위치 빈도 행렬들 및 이에 의한 상이한 아미노산당 보존 빈도들을 산출하는 상이한 위치들을 갖기 때문이다.Then, using the 21 position frequency matrices, 21 position-specific conservation scores can be calculated for the 21 closest reference amino acids identified for a particular voxel. These 21 position-specific conservation scores represent the pan-amino acid conservation frequency sequence 1502 for a particular voxel, similar to the pan-amino acid conservation frequency sequence 1502 in Figure 12, except that sequence 1502 has many zero entries. While forming conservation frequencies; Conservation Frequency Per Amino Acid Each element (feature) in the sequence has a constant value (e.g., a floating point number) because the 21 closest reference amino acids across the 21 amino acid categories necessarily have different position frequency matrices. and thereby different positions, yielding different conservation frequencies per amino acid.

위의 프로세스는 복셀 그리드(522) 내의 복셀들(514) 각각에 대해 실행되고, 생성된 복셀별 아미노산당 보존 빈도들은 도 12 내지 도 18과 관련하여 논의된 범아미노산 보존 빈도들과 유사하게 병원성 결정에 대해 복셀화, 텐서화, 연결, 및 처리된다.The above process is run for each of the voxels 514 within the voxel grid 522, and the resulting per-voxel amino acid conservation frequencies are used to determine pathogenicity, similar to the pan-amino acid conservation frequencies discussed in relation to Figures 12-18. are voxelized, tensorized, concatenated, and processed.

주석 채널들Annotation Channels

도 20은 거리 채널 텐서(700)와 연결되는 복셀화된 주석 채널들(2000)의 다양한 예들을 도시한다. 일부 구현예들에서, 복셀화된 주석 채널들은 상이한 단백질 주석들에 대한 원-핫 표시자들, 예를 들어 아미노산(잔기)이 트랜스멤브레인 영역, 신호 펩티드, 활성 부위, 또는 임의의 다른 결합 부위의 일부인지의 여부, 또는 잔기가 번역후 변형(posttranslational modification)들, PathRatio(문헌[Pei P, Zhang A: A Topological Measurement for Weighted Protein Interaction Network. CSB 2005, 268-278.)] 참조) 등의 대상인지의 여부이다. 주석 채널들의 추가적인 예들은 아래의 특정 구현예 섹션에서 그리고 청구범위에서 발견될 수 있다.20 shows various examples of voxelized annotation channels 2000 associated with a distance channel tensor 700. In some embodiments, voxelized annotation channels provide one-hot indicators for different protein annotations, e.g., amino acids (residues) of the transmembrane region, signal peptide, active site, or any other binding site. Whether or not the residue is part of posttranslational modifications, such as PathRatio (see Pei P, Zhang A: A Topological Measurement for Weighted Protein Interaction Network. CSB 2005, 268-278.) It is whether or not you are aware of it. Additional examples of annotation channels can be found in the specific implementation section below and in the claims.

복셀화된 주석 채널들은 복셀들이 복셀화된 기준 대립유전자 및 대안적인 대립유전자 서열들과 같은 동일한 주석 서열을 가질 수 있도록 복셀별로 배열되거나(예를 들어, 주석 채널들(2002, 2004, 2006)), 또는 복셀들은 복셀화된 복셀당 진화 프로파일들(1700)과 같은 각자의 주석 서열들을 가질 수 있다(예를 들어, 주석 채널들(2012, 2014, 2016)(상이한 색상들로 나타낸 바와 같음)).The voxelized annotation channels are arranged voxel-wise (e.g., Annotation Channels (2002, 2004, 2006)) such that voxels can have the same annotation sequence as the voxelized reference allele and alternative allele sequences. , or voxels may have their own annotation sequences, such as voxelized per-voxel evolution profiles 1700 (e.g., annotation channels 2012, 2014, 2016 (as shown in different colors)). .

주석 채널들은 도 12 내지 도 18과 관련하여 논의된 범아미노산 보존 빈도들과 유사하게 병원성 결정에 대해 복셀화, 텐서화, 연결, 및 처리된다.Annotation channels are voxelized, tensorized, concatenated, and processed for pathogenicity determination similar to the pan-amino acid conservation frequencies discussed in conjunction with Figures 12-18.

구조 신뢰도 채널들Structural Reliability Channels

개시된 기술은 또한, 다양한 복셀화된 구조 신뢰도 채널들을 거리 채널 텐서(700)와 연결할 수 있다. 구조 신뢰도 채널들의 일부 예들은 하기를 포함한다: GMQE 점수(SwissModel에 의해 제공됨); B-인자; 상동성 모델들의 온도 인자 열(단백질 구조에서 잔기가 (물리적) 제약들을 얼마나 잘 만족시키는지를 나타냄); 복셀의 중심에 가장 가까운 잔기에 대한 주형 단백질을 정렬하는 정규화된 수(HHpred에 의해 제공된 정렬들, 예컨대, 복셀은 6개의 주형 구조들 중에서, 정렬되어 특징부가 값 3/6=0.5를 가짐을 나타내는 3개의 주형 구조에서의 잔기에 가장 가까움); 최소, 최대 및 평균 TM 점수들; 및 복셀에 가장 가까운 잔기에 정렬하는 주형 단백질 구조들의 예측된 TM 점수들(위의 예를 계속하여, 3개의 주형 구조들이 TM 점수들 0.5, 0.5 및 1.5를 갖는다고 가정하면, 최소는 0.5이고, 평균은 2/3이고, 최대는 1.5임). TM 점수들이 HHpred에 의해 단백질 주형마다 제공할 수 있다. 구조 신뢰도 채널들의 추가적인 예들은 하기의 특정 구현예 섹션에서 그리고 청구범위에서 찾을 수 있다.The disclosed technique can also connect various voxelized structural reliability channels with the distance channel tensor 700. Some examples of structural reliability channels include: GMQE score (provided by SwissModel); B-factor; Temperature parameter column of homology models (indicating how well a residue satisfies (physical) constraints in the protein structure); A normalized number of alignments of the template protein to the residue closest to the center of the voxel (alignments provided by HHpred, e.g., a voxel is aligned among the six template structures, indicating that the feature has the value 3/6=0.5 closest to the residue in the three template structures); Minimum, maximum and average TM scores; and the predicted TM scores of the template protein structures that align to the residue closest to the voxel (continuing the example above, assuming the three template structures have TM scores 0.5, 0.5 and 1.5, the minimum is 0.5, The average is 2/3 and the maximum is 1.5). TM scores can be provided for each protein template by HHpred. Additional examples of structural reliability channels can be found in the Specific Implementations section below and in the claims.

복셀화된 구조 신뢰도 채널들은 복셀들이 복셀화된 기준 대립유전자 및 대안적인 대립유전자 서열들과 같은 동일한 구조 신뢰도 서열을 가질 수 있도록 복셀별로 배열되거나, 또는 복셀들은 복셀화된 복셀당 진화 프로파일들(1700)과 같은 각자의 구조 신뢰도 서열들을 가질 수 있다.The voxelized structural confidence channels are arranged on a voxel-by-voxel basis such that voxels can have the same structural confidence sequence as the voxelized reference allele and alternative allele sequences, or voxels can be aligned with voxelized per-voxel evolutionary profiles (1700 ) can have their own structural reliability sequences, such as

구조 신뢰도 채널들은 도 12 내지 도 18과 관련하여 논의된 범아미노산 보존 빈도들과 유사하게 병원성 결정에 대해 복셀화, 텐서화, 연결, 및 처리된다.Structural confidence channels are voxelized, tensorized, concatenated, and processed for pathogenicity determination similar to the pan-amino acid conservation frequencies discussed in conjunction with Figures 12-18.

병원성 분류기pathogenic classifier

도 21은 표적 변이체의 병원성 결정(2106)에 대한 병원성 분류기(2108)에 입력(2102)으로서 제공될 수 있는 입력 채널들의 상이한 조합들 및 순열들을 도시한다. 입력들(2102) 중 하나는 거리 채널 생성기(2272)에 의해 생성된 거리 채널들(2104)일 수 있다. 도 22는 거리 채널들(2104)을 계산하는 상이한 방법들을 도시한다. 하나의 구현예에서, 거리 채널들(2104)은 아미노산에 관계없이 복수의 원자 원소들에 걸쳐 복셀 중심들과 원자들 사이의 거리들(2202)에 기초하여 생성된다. 일부 구현예들에서, 거리들(2202)은 정규화된 거리들(2202a)을 생성하기 위해 최대 스캔 반경에 의해 정규화된다. 다른 구현예에서, 거리 채널들(2104)은 아미노산 단위로 복셀 중심들과 알파-탄소 원자들 사이의 거리들(2212)에 기초하여 생성된다. 일부 구현예들에서, 거리들(2212)은 정규화된 거리들(2212a)을 생성하기 위해 최대 스캔 반경에 의해 정규화된다. 또 다른 구현예에서, 거리 채널들(2104)은 아미노산 단위로 복셀 중심들과 베타-탄소 원자들 사이의 거리들(2222)에 기초하여 생성된다. 일부 구현예들에서, 거리들(2222)은 정규화된 거리들(2222a)을 생성하기 위해 최대 스캔 반경에 의해 정규화된다. 또 다른 구현예에서, 거리 채널들(2104)은 아미노산 단위로 복셀 중심들과 측쇄 원자들 사이의 거리들(2232)에 기초하여 생성된다. 일부 구현예들에서, 거리들(2232)은 정규화된 거리들(2232a)을 생성하기 위해 최대 스캔 반경에 의해 정규화된다. 또 다른 구현예에서, 거리 채널들(2104)은 아미노산 단위로 복셀 중심들과 백본 원자들 사이의 거리들(2242)에 기초하여 생성된다. 일부 구현예들에서, 거리들(2242)은 정규화된 거리들(2242a)을 생성하기 위해 최대 스캔 반경에 의해 정규화된다. 또 다른 구현예에서, 거리 채널들(2104)은 원자 유형 및 아미노산 유형에 관계없이 복셀 중심들과 각자의 가장 가까운 원자들 사이의 거리들(2252)(하나의 특징부)에 기초하여 생성된다. 또 다른 구현예에서, 거리 채널들(2104)은 복셀 중심들과 비-표준 아미노산으로부터의 원자들 사이의 거리들(2262)(하나의 특징부)에 기초하여 생성된다. 일부 구현예들에서, 복셀들과 원자들 사이의 거리들은 복셀들 및 원자들의 극좌표들에 기초하여 계산된다. 극좌표들은 복셀들과 원자들 사이의 각도들에 의해 파라미터화된다. 하나의 구현예에서, 이러한 각도 정보는 복셀들에 대한 각도 채널을 생성하는 데 사용된다(즉, 거리 채널들로부터 독립적임). 일부 구현예들에서, 가장 가까운 원자와 이웃 원자들(예를 들어, 백본 원자들) 사이의 각도들은 복셀들로 인코딩되는 특징부들로서 사용될 수 있다.Figure 21 shows different combinations and permutations of input channels that can be provided as input 2102 to a pathogenicity classifier 2108 for determining the pathogenicity of the target variant 2106. One of the inputs 2102 may be distance channels 2104 generated by distance channel generator 2272. 22 shows different methods of calculating distance channels 2104. In one implementation, distance channels 2104 are generated based on distances 2202 between voxel centers and atoms across a plurality of atomic elements, regardless of amino acid. In some implementations, distances 2202 are normalized by the maximum scan radius to produce normalized distances 2202a. In another implementation, distance channels 2104 are generated based on distances 2212 between voxel centers and alpha-carbon atoms in amino acid units. In some implementations, distances 2212 are normalized by the maximum scan radius to produce normalized distances 2212a. In another implementation, distance channels 2104 are generated based on distances 2222 between voxel centers and beta-carbon atoms in amino acid units. In some implementations, distances 2222 are normalized by the maximum scan radius to produce normalized distances 2222a. In another implementation, distance channels 2104 are generated based on distances 2232 between voxel centers and side chain atoms in amino acid units. In some implementations, distances 2232 are normalized by the maximum scan radius to produce normalized distances 2232a. In another implementation, distance channels 2104 are generated based on distances 2242 between voxel centroids and backbone atoms in amino acid units. In some implementations, distances 2242 are normalized by the maximum scan radius to produce normalized distances 2242a. In another implementation, distance channels 2104 are generated based on the distances 2252 (one feature) between voxel centers and their respective nearest atoms, regardless of atom type and amino acid type. In another implementation, distance channels 2104 are generated based on voxel centers and distances 2262 (one feature) between atoms from a non-standard amino acid. In some implementations, distances between voxels and atoms are calculated based on the polar coordinates of the voxels and atoms. Polar coordinates are parameterized by the angles between voxels and atoms. In one implementation, this angular information is used to create an angular channel for the voxels (ie, independent from the distance channels). In some implementations, angles between the nearest atom and neighboring atoms (e.g., backbone atoms) can be used as features encoded in voxels.

입력들(2102) 중 다른 하나는 특정된 반경 내에서 누락된 원자들을 나타내는 특징부(2114)일 수 있다.Another of the inputs 2102 may be feature 2114 representing missing atoms within a specified radius.

입력들(2102) 중 다른 하나는 기준 아미노산의 원-핫 인코딩(2124)일 수 있다. 입력들(2102) 중 다른 하나는 변이체/대안적인 아미노산의 원-핫 인코딩(2134)일 수 있다.Another of the inputs 2102 may be a one-hot encoding 2124 of a reference amino acid. Another of the inputs 2102 may be a one-hot encoding 2134 of a variant/alternative amino acid.

입력들(2102) 중 다른 하나는 도 23에 도시된, 진화 프로파일 생성기(2372)에 의해 생성된 진화적 채널들(2144)일 수 있다. 하나의 구현예에서, 진화적 채널들(2144)은 범아미노산 보존 빈도들(2302)에 기초하여 생성될 수 있다. 다른 구현예에서, 진화적 채널들(2144)은 범아미노산 보존 빈도들(2312)에 기초하여 생성될 수 있다.Another of the inputs 2102 may be the evolutionary channels 2144 generated by the evolutionary profile generator 2372, shown in FIG. 23. In one implementation, evolutionary channels 2144 can be generated based on pan-amino acid conservation frequencies 2302. In another implementation, evolutionary channels 2144 can be generated based on pan-amino acid conservation frequencies 2312.

입력들(2102) 중 다른 하나는 누락된 잔기 또는 누락된 진화 프로파일을 나타내는 특징부(2154)일 수 있다.Another of the inputs 2102 may be a feature 2154 representing a missing residue or a missing evolutionary profile.

입력들(2102) 중 다른 하나는 도 24에 도시된, 주석 생성기(2472)에 의해 생성된 주석 채널들(2164)일 수 있다. 하나의 구현예에서, 주석 채널들(2164)은 분자 처리 주석들(2402)에 기초하여 생성될 수 있다. 다른 구현예에서, 주석 채널들(2164)은 영역 주석들(2412)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 주석 채널들(2164)은 부위 주석들(2422)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 주석 채널들(2164)은 아미노산 변형 주석들(2432)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 주석 채널들(2164)은 2차 구조 주석들(2442)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 주석 채널들(2164)은 실험실 정보 주석들(2452)에 기초하여 생성될 수 있다.Another of the inputs 2102 may be annotation channels 2164 generated by annotation generator 2472, shown in FIG. 24. In one implementation, annotation channels 2164 may be generated based on molecular processing annotations 2402. In another implementation, annotation channels 2164 may be created based on region annotations 2412. In another implementation, annotation channels 2164 may be created based on site annotations 2422. In another implementation, annotation channels 2164 may be generated based on amino acid modification annotations 2432. In another implementation, annotation channels 2164 may be generated based on secondary structure annotations 2442. In another implementation, annotation channels 2164 may be created based on laboratory information annotations 2452.

입력들(2102) 중 다른 하나는 도 25에 도시된, 구조 신뢰도 생성기(2572)에 의해 생성된 구조 신뢰도 채널들(2174)일 수 있다. 하나의 구현예에서, 구조 신뢰도(2174)는 글로벌 모델 품질 추정(global model quality estimation, GMQE)들(2502)에 기초하여 생성될 수 있다. 다른 구현예에서, 구조 신뢰도(2174)는 정성적 모델 에너지 분석(qualitative model energy analysis, QMEAN) 점수들(2512)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 구조 신뢰도(2174)는 온도 인자들(2522)에 기초하여 생성될 수 있다. 또 다른 구현예에서, 구조 신뢰도(2174)는 주형 모델링 점수들(2542)에 기초하여 생성될 수 있다. 주형 모델링 점수들(2542)의 예들은 최소 주형 모델링 점수들(2542a), 평균 주형 모델링 점수들(2542b), 및 최대 주형 모델링 점수들(2542c)을 포함한다.Another of the inputs 2102 may be structural reliability channels 2174 generated by structural reliability generator 2572, shown in FIG. 25. In one implementation, structural confidence 2174 may be generated based on global model quality estimates (GMQEs) 2502. In another implementation, structural confidence 2174 may be generated based on qualitative model energy analysis (QMEAN) scores 2512. In another implementation, structural reliability 2174 may be generated based on temperature factors 2522. In another implementation, structural confidence 2174 may be generated based on template modeling scores 2542. Examples of mold modeling scores 2542 include minimum mold modeling scores 2542a, average mold modeling scores 2542b, and maximum mold modeling scores 2542c.

당업자는 입력 채널들의 임의의 순열 및 조합이 표적 변이체의 병원성 결정(2106)을 위해 병원성 분류기(2108)를 통해 처리하기 위한 입력으로 연결될 수 있음을 이해할 것이다. 일부 구현예들에서, 입력 채널들의 서브세트만이 연결될 수 있다. 입력 채널들은 임의의 순서로 연결될 수 있다. 하나의 구현예에서, 입력 채널들은 텐서 생성기(입력 인코더)(2110)에 의해 단일 텐서로 연결될 수 있다. 이어서, 이러한 단일 텐서는 표적 변이체의 병원성 결정(2106)을 위해 병원성 분류기(2108)에 대한 입력으로서 제공될 수 있다.Those of skill in the art will understand that any permutation and combination of input channels may lead to input for processing through the pathogenicity classifier 2108 to determine the pathogenicity of the target variant 2106. In some implementations, only a subset of input channels may be connected. Input channels can be connected in any order. In one implementation, input channels may be concatenated into a single tensor by a tensor generator (input encoder) 2110. This single tensor can then be provided as input to a pathogenicity classifier 2108 for determining the pathogenicity of the target variant 2106.

하나의 구현예에서, 병원성 분류기(2108)는 복수의 콘볼루션 층들을 갖는 콘볼루션 신경망(CNN)들을 사용한다. 다른 구현예에서, 병원성 분류기(2108)는 장단기 메모리 네트워크(long short-term memory network, LSTM)들, 양방향 LSTM(bi-directional LSTM, Bi-LSTM)들, 및 게이트형 순환 유닛(gated recurrent unit, GRU)들과 같은 순환 신경망(recurrent neural network, RNN)들을 사용한다. 또 다른 구현예에서, 병원성 분류기(2108)는 CNN들 및 RNN들 둘 모두를 사용한다. 또 다른 구현예에서, 병원성 분류기(2108)는 그래프 구조화된 데이터의 종속성들을 모델링하는 그래프 콘볼루션 신경망들을 사용한다. 또 다른 구현예에서, 병원성 분류기(2108)는 변이형 오토인코더(variational autoencoder, VAE)들을 사용한다. 또 다른 구현예에서, 병원성 분류기(2108)는 생성적 대립 신경망(generative adversarial network, GAN)들을 사용한다. 또 다른 구현예에서, 병원성 분류기(2108)는 또한, 예를 들어 변환기들 및 BERT들에 의해 구현된 것과 같은 자가주의(self-attention)에 기초한 언어 모델일 수 있다.In one implementation, pathogenicity classifier 2108 uses convolutional neural networks (CNNs) with multiple convolutional layers. In another implementation, pathogenicity classifier 2108 includes long short-term memory networks (LSTMs), bi-directional LSTMs (Bi-LSTMs), and a gated recurrent unit. It uses recurrent neural networks (RNNs) such as GRUs. In another implementation, pathogenicity classifier 2108 uses both CNNs and RNNs. In another implementation, pathogenicity classifier 2108 uses graph convolutional neural networks that model the dependencies of graph structured data. In another implementation, pathogenicity classifier 2108 uses variational autoencoders (VAEs). In another implementation, pathogenicity classifier 2108 uses generative adversarial networks (GANs). In another implementation, pathogenicity classifier 2108 may also be a language model based on self-attention, such as implemented by transformers and BERTs, for example.

또 다른 구현예들에서, 병원성 분류기(2108)는 1D 콘볼루션들, 2D 콘볼루션들, 3D 콘볼루션들, 4D 콘볼루션들, 5D 콘볼루션들, 확장형 또는 아트로스(atrous) 콘볼루션들, 전치 콘볼루션들, 깊이별 분리가능 콘볼루션들, 포인트별 콘볼루션들, 1x1 콘볼루션들, 그룹 콘볼루션들, 편평형 콘볼루션들, 공간 및 교차 채널 콘볼루션들, 셔플 그룹형 콘볼루션들, 공간 분리가능 콘볼루션들, 및 디콘볼루션들을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 오류(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 호출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(SGD)을 사용할 수 있다. 그것은 업샘플링 층들, 다운샘플링 층들, 순환 접속부들, 게이트들 및 게이트형 메모리 유닛들(예컨대, LSTM 또는 GRU), 잔차 블록들, 잔차 접속부들, 하이웨이 접속부들, 스킵 접속부들, 핍홀(peephole) 접속부들, 활성화 함수들(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수들), 배치 정규화 층들, 규칙화 층들, 드롭아웃, 풀링 층들(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층들, 감쇠 메커니즘들, 및 가우스 에러 선형 유닛을 포함할 수 있다.In still other implementations, pathogenicity classifier 2108 can be configured to include 1D convolutions, 2D convolutions, 3D convolutions, 4D convolutions, 5D convolutions, dilated or atrous convolutions, transpose Convolutions, depth-separable convolutions, point-wise convolutions, 1x1 convolutions, group convolutions, flat convolutions, spatial and cross-channel convolutions, shuffle grouped convolutions, spatial separation. Enable convolutions and deconvolutions may be used. It uses one or more loss functions, such as logistic regression/log loss, multi-class cross-entropy/softmax loss, binary cross-entropy loss. , mean-squared error loss, L1 loss, L2 loss, smooth L1 loss, and Huber loss can be used. It supports arbitrary parallelism, efficiency, and compression schemes, such as TFRecords, compressed encoding (e.g., PNG), sharding, parallel calls for map transformations, batching, prefetching, model parallelism, data parallelism, and synchronous/asynchronous stochastic gradients. Descent method (SGD) can be used. It includes upsampling layers, downsampling layers, circular connections, gates and gated memory units (e.g. LSTM or GRU), residual blocks, residual connections, highway connections, skip connections, peephole connections. , activation functions (e.g., rectified linear unit (ReLU), leaky ReLU, exponential liner unit (ELU), nonlinear transformation functions such as sigmoid and hyperbolic tangent (tanh)), batch normalization layers , regularization layers, dropout, pooling layers (e.g., maximum or average pooling), global average pooling layers, attenuation mechanisms, and Gaussian error linear units.

병원성 분류기(2108)는 역전파 기반 기울기 업데이트 기법들을 사용하여 훈련된다. 병원성 분류기(2108)를 훈련시키기 위해 사용될 수 있는 예시적인 기울기 하강 기법들은 확률적 기울기 하강법, 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 병원성 분류기(2108)를 훈련시키는 데 사용될 수 있는 기울기 하강 최적화 알고리즘들의 일부 예들은 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예들에서, 병원성 분류기(2108)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전달 학습, 지식 증류 등에 의해 훈련될 수 있다.Pathogenicity classifier 2108 is trained using backpropagation-based gradient update techniques. Exemplary gradient descent techniques that can be used to train pathogenicity classifier 2108 include stochastic gradient descent, batch gradient descent, and mini-batch gradient descent. Some examples of gradient descent optimization algorithms that can be used to train the pathogenicity classifier 2108 are Momentum, Nesterov accelerated gradient, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, and AMSGrad. In other implementations, pathogenicity classifier 2108 can be trained by unsupervised learning, semi-supervised learning, self-learning, reinforcement learning, multi-task learning, multi-modal learning, transfer learning, knowledge distillation, etc.

도 26은 개시된 기술의 하나의 구현예에 따른, 병원성 분류기(2108)의 예시적인 처리 아키텍처(2600)를 도시한다. 처리 아키텍처(2600)는 처리 모듈들(2606, 2610, 2614, 2618, 2622, 2626, 2630, 2634, 2638, 2642)의 캐스케이드를 포함하며, 이들 각각은 1D 콘볼루션들(1x1x1 CONV), 3D 콘볼루션(3x3x3 CONV), ReLU 비선형성, 및 배치 정규화(BN)를 포함할 수 있다. 처리 모듈들의 다른 예들은 완접 접속(FC) 층들, 드롭아웃 층, 평탄화 층, 및 양성 클래스 및 병원성 클래스에 속하는 표적 변이체에 대한 지수적으로 정규화된 점수들을 생성하는 최종 소프트맥스 층을 포함한다. 도 26에서, "64"는 특정 처리 모듈에 의해 적용된 콘볼루션 필터들의 수를 표시한다. 도 26에서, 입력 복셀(2602)의 크기는 15x15x15x8이다. 도 26은 또한, 처리 아키텍처(2600)에 의해 생성된 중간 입력들(2604, 2608, 2612, 2616, 2620, 2624, 2628, 2632, 2636, 2640)의 각자의 체적 차원수들을 도시한다.Figure 26 shows an example processing architecture 2600 of pathogenicity classifier 2108, according to one implementation of the disclosed technology. Processing architecture 2600 includes a cascade of processing modules 2606, 2610, 2614, 2618, 2622, 2626, 2630, 2634, 2638, 2642, each of which can perform 1D convolutions (1x1x1 CONV), 3D convolution May include solution (3x3x3 CONV), ReLU non-linearity, and batch normalization (BN). Other examples of processing modules include close contact (FC) layers, a dropout layer, a smoothing layer, and a final softmax layer that generates exponentially normalized scores for target variants belonging to the benign and pathogenic classes. In Figure 26, "64" indicates the number of convolutional filters applied by a particular processing module. In Figure 26, the size of input voxel 2602 is 15x15x15x8. 26 also shows the respective volumetric dimensions of intermediate inputs 2604, 2608, 2612, 2616, 2620, 2624, 2628, 2632, 2636, 2640 generated by processing architecture 2600.

도 27은 개시된 기술의 하나의 구현예에 따른, 병원성 분류기(2108)의 예시적인 처리 아키텍처(2700)를 도시한다. 처리 아키텍처(2700)는 1D 콘볼루션들(CONV 1D), 3D 콘볼루션(CONV 3D), ReLU 비선형성, 및 배치 정규화(BN)와 같은 처리 모듈들(2708, 2714, 2720, 2726, 2732, 2738, 2744, 2750, 2756, 2762, 2768, 2774, 2780)의 캐스케이드를 포함한다. 처리 모듈들의 다른 예들은 완접 접속 (조밀) 층들, 드롭아웃 층, 평탄화 층, 및 양성 클래스 및 병원성 클래스에 속하는 표적 변이체에 대한 지수적으로 정규화된 점수들을 생성하는 최종 소프트맥스 층을 포함한다. 도 27에서, "64" 및 "32"는 특정 처리 모듈에 의해 적용된 콘볼루션 필터들의 수를 표시한다. 도 27에서, 입력 층(2702)에 의해 공급되는 입력 복셀(2704)의 크기는 7x7x7x108이다. 도 27은 또한, 처리 아키텍처(2700)에 의해 생성되는 중간 입력들(2710, 2716, 2722, 2728, 2734, 2740, 2746, 2752, 2758, 2764, 2770, 2776, 2782) 및 생성된 중간 출력들(2706, 2712, 2718, 2724, 2730, 2736, 2742, 2748, 2754, 2760, 2766, 2772, 2778, 2784)의 각자의 체적 차원수들을 도시한다.Figure 27 shows an example processing architecture 2700 of pathogenicity classifier 2108, according to one implementation of the disclosed technology. Processing architecture 2700 includes processing modules 2708, 2714, 2720, 2726, 2732, 2738, such as 1D convolutions (CONV 1D), 3D convolutions (CONV 3D), ReLU nonlinearity, and batch normalization (BN). , 2744, 2750, 2756, 2762, 2768, 2774, 2780). Other examples of processing modules include tight-connection (dense) layers, a dropout layer, a smoothing layer, and a final softmax layer that generates exponentially normalized scores for target variants belonging to the benign and pathogenic classes. In Figure 27, “64” and “32” indicate the number of convolutional filters applied by a particular processing module. In Figure 27, the size of input voxel 2704 supplied by input layer 2702 is 7x7x7x108. 27 also illustrates the intermediate inputs 2710, 2716, 2722, 2728, 2734, 2740, 2746, 2752, 2758, 2764, 2770, 2776, 2782 and the intermediate outputs generated by the processing architecture 2700. The respective volume dimensions of (2706, 2712, 2718, 2724, 2730, 2736, 2742, 2748, 2754, 2760, 2766, 2772, 2778, 2784) are shown.

당업자는 다른 현재 및 미래의 인공 지능, 기계 학습, 및 심층 학습 모델들, 데이터 세트들, 및 훈련 기법들이 개시된 기술의 사상으로부터 벗어남이 없이 개시된 변이체 병원성 분류기에 통합될 수 있음을 이해할 것이다.Those skilled in the art will understand that other current and future artificial intelligence, machine learning, and deep learning models, data sets, and training techniques may be incorporated into the disclosed variant pathogenicity classifier without departing from the spirit of the disclosed technology.

독창성 및 비자명성의 객관적 표시들로서의 성능 결과들Performance results as objective indicators of originality and non-obviousness

본 명세서에 개시된 변이체 병원성 분류기는 3D 단백질 구조들에 기초한 병원성 예측들을 행하고, "PrimateAI 3D"로 지칭된다. "Primate AI"는 병원성 예측 기반 단백질 서열들을 만드는, 공동 소유되고 이전에 개시된 변이체 병원성 분류기이다. PrimateAI에 관한 추가적인 세부사항들은 공동 소유된 미국 특허 출원 제16/160,903호; 제16/160,986호; 제16/160,968호; 및 제16/407,149호에서, 그리고 문헌[Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)]에서 찾을 수 있다.The variant pathogenicity classifier disclosed herein makes pathogenicity predictions based on 3D protein structures and is referred to as “PrimateAI 3D”. “Primate AI” is a commonly owned and previously disclosed variant pathogenicity classifier that generates pathogenicity prediction-based protein sequences. Additional details regarding PrimateAI can be found in commonly owned U.S. patent application Ser. No. 16/160,903; No. 16/160,986; No. 16/160,968; and 16/407,149, and Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161-1170 (2018)].

도 28, 도 29, 도 30, 및 도 31은 PrimateAI를 넘는 PrimateAI 3D의 분류 우월성을 입증하기 위해 PrimateAI를 벤치마크 모델로서 사용한다. 도 28, 도 29, 도 30 및 도 31의 성능 결과들은 복수의 검증 세트들에 걸쳐 양성 변이체들을 병원성 변이체들과 정확하게 구별하는 분류 태스크에서 생성된다. PrimateAI 3D는 복수의 검증 세트들과는 상이한 훈련 세트들에 대해 훈련된다. PrimateAI 3D는 양성 데이터세트로서 사용되는, 공통 인간 변이체들 및 영장류로부터의 변이체들에 대해 훈련되지만, 라벨링되지 않은 또는 의사 병원성인 데이터 세트로서 사용되는 트리뉴클레오티드 콘텍스트에 기초하여 변이체들을 시뮬레이션하였다.Figures 28, 29, 30, and 31 use PrimateAI as a benchmark model to demonstrate the classification superiority of PrimateAI 3D over PrimateAI. The performance results in FIGS. 28, 29, 30, and 31 are generated in a classification task that accurately distinguishes benign variants from pathogenic variants across multiple validation sets. PrimateAI 3D is trained on training sets that are different from the multiple validation sets. PrimateAI 3D is trained on common human variants and variants from primates, used as a benign dataset, but simulated variants based on trinucleotide context, used as an unlabeled or pseudo-pathogenic dataset.

새로운 발달 지연 장애(new DDD)가 Primate AI에 대한 Primate AI 3D의 분류 정확도를 비교하는 데 사용되는 검증 세트의 하나의 예이다. new DDD 검증 세트는 병원성으로서 DDD를 갖는 개체들로부터의 변이체들을 라벨링하고, 양성으로서 DDD를 갖는 개체들의 건강한 동족들로부터의 동일한 변이체들을 라벨링한다. 유사한 라벨링 스킴이 도 31에 도시된 자폐 스펙트럼 장애(autism spectrum disorder, ASD) 검증 세트와 함께 사용된다.New Developmental Delay Disorder (new DDD) is one example of a validation set used to compare the classification accuracy of Primate AI 3D against Primate AI. The new DDD validation set labels variants from individuals with DDD as pathogenic and labels the same variants from healthy relatives of individuals with DDD as benign. A similar labeling scheme is used with the autism spectrum disorder (ASD) validation set shown in Figure 31.

BRCA1이 Primate AI에 대한 Primate AI 3D의 분류 정확도를 비교하는 데 사용되는 검증 세트의 다른 예이다. BRCA1 검증 세트는 양성 변이체들로서 BRCA1 유전자의 단백질을 시뮬레이션하는 합성으로 생성된 기준 아미노산 서열들을 라벨링하고, 병원성 변이체들로서 BRCA1 유전자의 단백질을 시뮬레이션하는 합성으로 변경된 대립유전자 아미노산 서열들을 라벨링한다. 유사한 라벨링 스킴이 도 31에 도시된 TP53 유전자, TP53S3 유전자 및 이의 변이체들, 및 다른 유전자들 및 이들의 변이체들의 상이한 검증 세트들과 함께 사용된다.BRCA1 is another example of a validation set used to compare the classification accuracy of Primate AI 3D against Primate AI. The BRCA1 validation set labels synthetically generated reference amino acid sequences simulating proteins of the BRCA1 gene as benign variants and synthetically altered allelic amino acid sequences simulating proteins of the BRCA1 gene as pathogenic variants. A similar labeling scheme is used with different validation sets of the TP53 gene, the TP53S3 gene and its variants, and other genes and their variants shown in Figure 31.

도 28은 수평 막대(bar)들로 벤치마크 PrimateAI 모델의 성능을 식별하고("PAI"로 라벨링됨), 수평 막대들로 개시된 PrimateAI 3D 모델의 성능을 식별한다("ens10_7x7x7x2_hhpred_evo+alt"로 라벨링됨). "ens10_7x7x7x2_hhpred_evo+alt_paisum"로 라벨링된 수평 막대들은 개시된 PrimateAI 3D 모델 및 벤치마크 PrimateAI 모델의 각자의 병원성 예측들을 조합함으로써 도출된 병원성 예측들을 묘사한다. 범례에서, "ens10"은, 각각 상이한 시드 훈련 데이터 세트로 훈련되고 상이한 가중치들 및 바이어스들로 랜덤하게 초기화되는 10개의 PrimateAI 3D 모델들의 앙상블을 표시한다. 또한, "7x7x7x2"는 10개의 PrimateAI 3D 모델들의 앙상블의 훈련 동안 입력 채널들을 인코딩하는 데 사용되는 복셀 그리드의 크기를 묘사한다. 주어진 변이체에 대해, 10개의 PrimateAI 3D 모델들의 앙상블은 각각 10개의 병원성 예측들을 생성하는데, 이들은 후속적으로 (예컨대, 평균화함으로써) 조합되어 주어진 변이체에 대한 최종 병원성 예측을 생성한다. 이러한 로직이 상이한 그룹 크기들의 앙상블들에 유사하게 적용된다.Figure 28 identifies the performance of the benchmark PrimateAI model with horizontal bars (labeled "PAI") and the performance of the PrimateAI 3D model disclosed with horizontal bars (labeled "ens10_7x7x7x2_hhpred_evo+alt" ). Horizontal bars labeled "ens10_7x7x7x2_hhpred_evo+alt_paisum" depict pathogenicity predictions derived by combining the respective pathogenicity predictions of the disclosed PrimateAI 3D model and the benchmark PrimateAI model. In the legend, “ens10” denotes an ensemble of 10 PrimateAI 3D models, each trained with a different seed training data set and randomly initialized with different weights and biases. Additionally, "7x7x7x2" describes the size of the voxel grid used to encode input channels during training of an ensemble of 10 PrimateAI 3D models. For a given variant, an ensemble of 10 PrimateAI 3D models each produces 10 pathogenicity predictions, which are subsequently combined (e.g., by averaging) to produce the final pathogenicity prediction for the given variant. This logic applies similarly to ensembles of different group sizes.

또한, 도 28에서, y-축은 상이한 검증 세트들을 갖고, x-축은 p-값들을 갖는다. 더 큰 p-값들, 즉, 더 긴 수평 막대들은 양성 변이체들을 병원성 변이체들과 구별하는 데 있어서 더 큰 정확도를 표시한다. 도 28에서 p-값들에 의해 입증된 바와 같이, PrimateAI 3D는 대부분의 검증 세트들(유일한 예외가 tp53s3_A549 검증 세트임)에 걸쳐 PrimateAI를 능가한다. 즉, PrimateAI 3D에 대한 수평 막대들("ens10_7x7x7x2_hhpred_evo+alt"로 라벨링됨)은 PrimateAI에 대한 수평 막대들("PAI"로 라벨링됨)보다 일관되게 더 길다.Also, in Figure 28, the y-axis has different validation sets and the x-axis has p-values. Larger p-values, i.e. longer horizontal bars, indicate greater accuracy in distinguishing benign variants from pathogenic variants. As evidenced by the p-values in Figure 28, PrimateAI 3D outperforms PrimateAI across most validation sets (the only exception is the tp53s3_A549 validation set). That is, the horizontal bars for PrimateAI 3D (labeled "ens10_7x7x7x2_hhpred_evo+alt") are consistently longer than the horizontal bars for PrimateAI (labeled "PAI").

또한, 도 28에서, y-축을 따른 "평균" 카테고리가 검증 세트들 각각에 대해 결정된 p-값들의 평균을 계산한다. 평균 카테고리에서도, PrimateAI 3D는 PrimateAI를 능가한다.Also, in Figure 28, the “Average” category along the y-axis calculates the average of the p-values determined for each of the validation sets. Even in the average category, PrimateAI 3D outperforms PrimateAI.

도 29에서, PrimateAI는 수평 막대들("PAI"로 라벨링됨)에 의해 표현되고, 크기 3x3x3의 복셀 그리드로 훈련된 20개의 PrimateAI 3D 모델들의 앙상블은 "ns20_3x3x3x2_evo+alt"로서 라벨링된 수평 막대들에 의해 표현되고, 크기 7x7x7의 복셀 그리드로 훈련된 10개의 PrimateAI 3D 모델들의 앙상블은 "ens10_7x7x7x2_evo+alt"로서 라벨링된 수평 막대들에 의해 표현되고, 크기 7x7x7의 복셀 그리드로 훈련된 20개의 PrimateAI 3D 모델들의 앙상블은 "ens20_7x7x7x2_evo+alt"로서 라벨링된 수평 막대들에 의해 표현되고, 크기 17x17x17의 복셀 그리드로 훈련된 20개의 PrimateAI 3D 모델들의 앙상블은 "ens20_17xl 7x1 7x2_evo+alt"로서 라벨링된 수평 막대들에 의해 표현된다.In Figure 29, PrimateAI is represented by horizontal bars (labeled "PAI"), and an ensemble of 20 PrimateAI 3D models trained on a voxel grid of size 3x3x3 is represented by horizontal bars labeled "ns20_3x3x3x2_evo+alt". The ensemble of 10 PrimateAI 3D models trained on a voxel grid of size 7x7x7 is represented by horizontal bars labeled "ens10_7x7x7x2_evo+alt" and is an ensemble of 20 PrimateAI 3D models trained on a voxel grid of size 7x7x7. The ensemble is represented by horizontal bars labeled as "ens20_7x7x7x2_evo+alt", and the ensemble of 20 PrimateAI 3D models trained on a voxel grid of size 17x17x17 is represented by horizontal bars labeled as "ens20_17xl 7x1 7x2_evo+alt" do.

또한, 도 29에서, y-축은 상이한 검증 세트들을 갖고, x-축은 p-값들을 갖는다. 이전과 같이, 더 큰 p-값들, 즉, 더 긴 수평 막대들은 양성 변이체들을 병원성 변이체들과 구별하는 데 있어서 더 큰 정확도를 표시한다. 도 20에서 p-값들에 의해 입증된 바와 같이, PrimateAI 3D의 상이한 구성들은 대부분의 검증 세트들에 걸쳐 PrimateAI를 능가한다. 즉, 다수의 PrimateAI 3D 모델들의 앙상블들을 표현하는 수평 막대들("ns20_3x3x3x2_evo+alt", "ens10_7x7x7x2_evo+alt", "ens20_7x7x7x2_evo+alt" 및 "ens20_17x1 7x1 7x2_evo+alt"로 라벨링됨)은 PrimateAI에 대한 수평 막대들("PAI"로 라벨링됨)보다 일반적으로 더 길다.Also, in Figure 29, the y-axis has different validation sets and the x-axis has p-values. As before, larger p-values, i.e. longer horizontal bars, indicate greater accuracy in distinguishing benign variants from pathogenic variants. As evidenced by the p-values in Figure 20, different configurations of PrimateAI 3D outperform PrimateAI across most validation sets. That is, the horizontal bars representing ensembles of multiple PrimateAI 3D models (labeled "ns20_3x3x3x2_evo+alt", "ens10_7x7x7x2_evo+alt", "ens20_7x7x7x2_evo+alt", and "ens20_17x1 7x1 7x2_evo+alt") are the horizontal bars for PrimateAI. are generally longer than the bars (labeled “PAI”).

또한, 도 29에서, y-축을 따른 "평균" 카테고리가 검증 세트들 각각에 대해 결정된 p-값들의 평균을 계산한다. 평균 카테고리에서도, PrimateAI 3D의 상이한 구성들은 PrimateAI를 능가한다.Also, in Figure 29, the “Average” category along the y-axis calculates the average of the p-values determined for each of the validation sets. Even in the average category, different configurations of PrimateAI 3D outperform PrimateAI.

도 30에서, 짙은 음영들을 갖는 수직 막대들은 PrimateAI를 표현하고("PrimateAI (v1)"), 밝은 음영들을 갖는 수직 막대들은 PrimateAI 3D("PrimateAI 3D")를 표현한다. 도 30에서, y-축은 p-값들을 갖고, x-축은 상이한 검증 세트들을 갖는다. 도 30에서, 예외 없이, PrimateAI 3D는 모든 검증 세트들에 걸쳐 PrimateAI를 일관되게 능가한다. 즉, PrimateAI 3D에 대한 수직 막대들은 PrimateAI에 대한 수직 막대들보다 항상 더 길다.In Figure 30, vertical bars with dark shading represent PrimateAI (“PrimateAI (v1)”), and vertical bars with light shading represent PrimateAI 3D (“PrimateAI 3D”). In Figure 30, the y-axis has p-values and the x-axis has different validation sets. In Figure 30, without exception, PrimateAI 3D consistently outperforms PrimateAI across all validation sets. That is, the vertical bars for PrimateAI 3D are always longer than the vertical bars for PrimateAI.

도 31은 벤치마크 PrimateAI 모델의 성능을 "PAI-v1_plain"으로 라벨링된 수직 막대들로 식별하고, 개시된 PrimateAI 3D 모델의 성능을 "PAI-3D-orig_plain"으로 라벨링된 수직 막대들로 식별한다. "PAI-3D-orig_paisum"로 라벨링된 수직 막대들은 개시된 PrimateAI 3D 모델 및 벤치마크 PrimateAI 모델의 각자의 병원성 예측들을 조합함으로써 도출된 병원성 예측들을 묘사한다. 도 31에서, y-축은 p-값들을 갖고, x-축은 상이한 검증 세트들을 갖는다.31 identifies the performance of the benchmark PrimateAI model with vertical bars labeled “PAI-v1_plain” and the performance of the disclosed PrimateAI 3D model with vertical bars labeled “PAI-3D-orig_plain”. Vertical bars labeled “PAI-3D-orig_paisum” depict pathogenicity predictions derived by combining the respective pathogenicity predictions of the disclosed PrimateAI 3D model and the benchmark PrimateAI model. In Figure 31, the y-axis has p-values and the x-axis has different validation sets.

도 31에서 p-값들에 의해 입증된 바와 같이, PrimateAI 3D는 대부분의 검증 세트들(유일한 예외가 tp53s3_A549_p53NULL_Nutlin-3 검증 세트임)에 걸쳐 PrimateAI를 능가한다. 즉, PrimateAI 3D에 대한 수직 막대들은 PrimateAI에 대한 수직 막대들보다 일관되게 더 길다.As evidenced by the p-values in Figure 31, PrimateAI 3D outperforms PrimateAI across most validation sets (the only exception being the tp53s3_A549_p53NULL_Nutlin-3 validation set). That is, the vertical bars for PrimateAI 3D are consistently longer than the vertical bars for PrimateAI.

또한, 도 31에서, 별개의 "평균" 차트가 검증 세트들 각각에 대해 결정된 p-값들의 평균을 계산한다. 평균 차트에서도, PrimateAI 3D는 PrimateAI를 능가한다.Also, in Figure 31, a separate “Mean” chart calculates the average of the p-values determined for each of the validation sets. Even in the average chart, PrimateAI 3D outperforms PrimateAI.

평균 통계치는 이상치들에 의해 바이어스될 수 있다. 이를 다루기 위해, 별개의 "방법 랭크(method rank)" 차트가 또한 도 31에 도시된다. 더 높은 랭크가 더 불량한 분류 정확도를 표시한다. 방법 랭크 차트에서도, PrimateAI 3D는 모두가 3인 PrimateAI에 대해 하위 랭크 1 및 2의 카운트들이 더 많음으로써 PrimateAI를 능가한다.Average statistics may be biased by outliers. To address this, a separate “method rank” chart is also shown in Figure 31. Higher ranks indicate poorer classification accuracy. In the method rank chart as well, PrimateAI 3D outperforms PrimateAI by having more counts of lower ranks 1 and 2 compared to PrimateAI where all are 3.

도 28 내지 도 31에서, PrimateAI 3D를 PrimateAI와 조합하는 것이 우수한 분류 정확도를 생성한다는 것이 또한 명백하다. 즉, 단백질이 아미노산 서열로서 PrimateAI에 공급되어 제1 출력을 생성할 수 있고, 동일한 단백질이 3D, 복셀화된 단백질 구조로서 PrimateAI 3D에 공급되어 제2 출력을 생성할 수 있고, 제1 및 제2 출력들이 응집하여 조합 또는 분석되어 단백질이 경험한 변이체에 대한 최종 병원성 예측을 생성할 수 있다.28-31, it is also clear that combining PrimateAI 3D with PrimateAI produces excellent classification accuracy. That is, a protein may be fed to PrimateAI as an amino acid sequence to produce a first output, the same protein may be fed to PrimateAI 3D as a 3D, voxelized protein structure to produce a second output, and the first and second The outputs can be aggregated, combined, or analyzed to generate a final pathogenicity prediction for the variants experienced by the protein.

효율적인 복셀화Efficient voxelization

도 32는 복셀 단위로 가장 가까운 원자들을 효율적으로 식별하는 효율적인 복셀화 프로세스(3200)를 도시하는 흐름도이다.FIG. 32 is a flow diagram illustrating an efficient voxelization process 3200 that efficiently identifies nearest atoms on a voxel-by-voxel basis.

이제, 거리 채널들에 대해 재논의한다. 위에서 논의된 바와 같이, 기준 아미노산 서열(202)은 알파-탄소 원자들, 베타-탄소 원자들, 산소 원자들, 질소 원자들, 수소 원자들 등과 같은 상이한 유형들의 원자들을 함유할 수 있다. 따라서, 위에서 논의된 바와 같이, 거리 채널들은 가장 가까운 알파-탄소 원자들, 가장 가까운 베타-탄소 원자들, 가장 가까운 산소 원자들, 가장 가까운 질소 원자들, 가장 가까운 수소 원자들 등에 의해 배열될 수 있다. 예를 들어, 도 6에서, 9개의 복셀들(514) 각각은 가장 가까운 알파-탄소 원자들에 대한 21개의 아미노산별 거리 채널들을 갖는다. 도 6은 9개의 복셀들(514) 각각이 가장 가까운 베타-탄소 원자들에 대한 21개의 아미노산별 거리 채널들을 또한 갖도록, 그리고 9개의 복셀들(514) 각각이 원자의 유형 및 아미노산의 유형에 관계 없이 가장 가까운 원자에 대한 가장 가까운 일반 원자 거리 채널을 또한 갖도록 추가로 확장될 수 있다. 이러한 방식으로, 9개의 복셀들(514) 각각은 43개의 거리 채널들을 가질 수 있다.Now, we revisit street channels. As discussed above, the reference amino acid sequence 202 may contain different types of atoms, such as alpha-carbon atoms, beta-carbon atoms, oxygen atoms, nitrogen atoms, hydrogen atoms, etc. Thus, as discussed above, the distance channels can be arranged by nearest alpha-carbon atoms, nearest beta-carbon atoms, nearest oxygen atoms, nearest nitrogen atoms, nearest hydrogen atoms, etc. . For example, in Figure 6, each of the nine voxels 514 has 21 amino acid-specific distance channels to the nearest alpha-carbon atoms. Figure 6 shows that each of the nine voxels 514 also has 21 amino acid-specific distance channels to the nearest beta-carbon atoms, and that each of the nine voxels 514 is related to the type of atom and the type of amino acid. It can be further extended to also have a nearest general atom distance channel for the nearest atom without. In this way, each of the nine voxels 514 can have 43 distance channels.

이제, 거리 채널들에 포함시키기 위해 복셀 단위로 가장 가까운 원자들을 식별하기 위해 요구되는 거리 계산들의 수가 논의된다. 21개의 아미노산 카테고리들에 걸쳐 분배된 총 828개의 알파-탄소 원자들을 도시하는 도 3의 예를 고려한다. 도 6에서 아미노산별 거리 채널들(602 내지 642)을 계산하기 위해, 즉, 189개의 거리 값들을 결정하기 위해, 9개의 복셀들(514) 각각으로부터 828개의 알파-탄소 원자들 각각까지의 거리들이 측정되어, 9 * 828 = 7, 452개의 거리 계산들을 초래한다. 27개의 복셀들의 3D 경우에, 이것은 27 * 828 = 22,356개의 거리 계산들을 초래한다. 828개의 베타-탄소 원자들이 또한 포함될 때, 이 수는 27 *1656 = 44, 712개의 거리 계산들로 증가한다.Now, the number of distance calculations required to identify the closest atoms on a voxel-by-voxel basis for inclusion in the distance channels is discussed. Consider the example of Figure 3, which shows a total of 828 alpha-carbon atoms distributed across 21 amino acid categories. To calculate the distance channels 602 to 642 for each amino acid in Figure 6, i.e., to determine the 189 distance values, the distances from each of the 9 voxels 514 to each of the 828 alpha-carbon atoms are measured, resulting in 9 * 828 = 7, 452 distance calculations. For a 3D case of 27 voxels, this results in 27 * 828 = 22,356 distance calculations. When 828 beta-carbon atoms are also included, this number increases to 27*1656 = 44, 712 distance calculations.

이것은 도 35a에 도시된 바와 같이, 단일 단백질 복셀화에 대해 복셀 단위로 가장 가까운 원자들을 식별하는 런타임 복잡도가 O(#원자들 * #복셀들)임을 의미한다. 또한, 단일 단백질 복셀화에 대한 런타임 복잡도는 거리 채널들이 다양한 속성들(예컨대, 주석 채널들 및 구조 신뢰도 채널들과 같은 복셀당 상이한 특징부들 또는 채널들)에 걸쳐 계산될 때 O(#원자들 * #복셀들 * #속성들)로 증가한다.This means that the runtime complexity of identifying the closest atoms on a voxel-by-voxel basis for a single protein voxelization is O(#atoms * #voxels), as shown in Figure 35a. Additionally, the runtime complexity for a single protein voxelization is O(#atoms * #voxels * #properties) increases.

결과적으로, 거리 계산들은 복셀화 프로세스의 가장 계산 소모적인 부분이 되어, 모델 훈련 및 모델 추론과 같은 중대한 런타임 태스크들로부터 귀중한 계산 자원들을 소모할 수 있다. 예를 들어, 7,000개의 단백질의 훈련 데이터 세트에 의한 모델 훈련의 경우를 고려한다. 복수의 아미노산, 원자들, 및 속성들에 걸쳐 복수의 복셀들에 대한 거리 채널들을 생성하는 것은 단백질당 100개 초과의 복셀화들을 수반하여, 단일 훈련 반복(에포크)에서 약 800,000개의 복셀화들을 초래할 수 있다. 각각의 에포크에서 원자 좌표들을 회전시키면서 20 내지 40개의 에포크들의 훈련을 실행하면 최대 3,200만 개의 복셀화를 초래할 수 있다.As a result, distance calculations can become the most computationally expensive part of the voxelization process, consuming valuable computational resources from critical runtime tasks such as model training and model inference. For example, consider the case of model training with a training data set of 7,000 proteins. Generating distance channels for multiple voxels across multiple amino acids, atoms, and properties involves more than 100 voxelizations per protein, resulting in approximately 800,000 voxelizations in a single training iteration (epoch). You can. Running training for 20 to 40 epochs, rotating the atomic coordinates in each epoch, can result in up to 32 million voxels.

높은 계산 비용에 더하여, 3200만 개의 복셀화들에 대한 데이터의 크기는 메인 메모리에 피팅하기에는 너무 크다(예컨대, 15x15x15 복셀 그리드의 경우에 >20 TB). 파라미터 최적화 및 앙상블 학습에 대한 반복된 훈련 실행들을 고려하면, 복셀화 프로세스의 메모리 풋프린트는 디스크 상에 저장되기에는 너무 커져서, 복셀화 프로세스가 사전계산 단계가 아닌 모델 훈련의 일부가 되게 한다.In addition to the high computational cost, the size of the data for 32 million voxelizations is too large to fit into main memory (e.g., >20 TB for a 15x15x15 voxel grid). Considering repeated training runs for parameter optimization and ensemble learning, the memory footprint of the voxelization process becomes too large to be stored on disk, making the voxelization process part of the model training rather than a precomputation step.

개시된 기술은 O(#원자들 * #복셀들)의 런타임 복잡도에 비해 최대 약 100x 스피드업을 달성하는 효율적인 복셀화 프로세스를 제공한다. 개시된 효율적인 복셀화 프로세스는 단일 단백질 복셀화에 대한 런타임 복잡도를 O(#원자들)로 감소시킨다. 복셀당 상이한 특징부들 또는 채널들의 경우에, 개시된 효율적인 복셀화 프로세스는 단일 단백질 복셀화에 대한 런타임 복잡도를 O(#원자들 * #속성들)로 감소시킨다. 그 결과, 복셀화 프로세스는 모델 훈련만큼 빨라져서, GPU들, ASIC들, TPU들, FPGA들, CGRA들 등과 같은 프로세서들 상에서 복셀화로부터 다시 신경망 가중치들을 계산하는 것으로 계산 병목현상을 시프트시킨다.The disclosed technology provides an efficient voxelization process that achieves up to approximately 100x speedup compared to a runtime complexity of O(#atoms * #voxels). The disclosed efficient voxelization process reduces the runtime complexity for single protein voxelization to O(#atoms). In the case of different features or channels per voxel, the disclosed efficient voxelization process reduces the runtime complexity for single protein voxelization to O(#atoms * #properties). As a result, the voxelization process becomes as fast as model training, shifting the computational bottleneck from voxelization back to calculating neural network weights on processors such as GPUs, ASICs, TPUs, FPGAs, CGRAs, etc.

큰 복셀 그리드들을 수반하는 개시된 효율적인 복셀화 프로세스의 일부 구현예들에서, 단일 단백질 복셀화에 대한 런타임 복잡도는 복셀당 상이한 특징부들 또는 채널들의 경우에 대해 O(#원자들 + 복셀들) 및 O(#원자들 * #속성들 + 복셀들)이다. "+ 복셀들" 복잡도는, 원자들의 수가 복셀들의 수와 비교하여 극소일 때, 예를 들어 100x100x100 복셀 그리드 내에 하나의 원자가 있을 때(즉, 원자당 1백만 개의 복셀들) 관찰된다. 그러한 시나리오에서, 런타임은, 예를 들어, 100만 개의 복셀들에 대해 메모리를 할당하고, 백만 개의 복셀들을 0으로 초기화하고, 등등을 하기 위한 엄청난 수의 복셀들의 오버헤드에 의해 지배된다.In some implementations of the disclosed efficient voxelization process involving large voxel grids, the runtime complexity for single protein voxelization is O(#atoms + voxels) and O(#atoms + voxels) for the case of different features or channels per voxel. #atoms * #properties + voxels). “+ voxels” complexity is observed when the number of atoms is infinitesimal compared to the number of voxels, for example when there is one atom in a 100x100x100 voxel grid (i.e. 1 million voxels per atom). In such a scenario, the runtime is dominated by the overhead of a huge number of voxels, for example, allocating memory for a million voxels, initializing a million voxels to 0, etc.

이제, 개시된 효율적인 복셀화 프로세스의 세부사항들에 대해 논의된다. 도 32a, 도 32b, 도 33, 도 34, 및 도 35b가 동시에 논의된다.The details of the disclosed efficient voxelization process are now discussed. Figures 32A, 32B, 33, 34, and 35B are discussed simultaneously.

도 32a에서 시작하여, 단계(3202)에서, 각각의 원자(예컨대, 828개의 알파-탄소 원자들 각각 및 828개의 베타-탄소 원자들 각각)는 원자를 함유하는 복셀(예컨대, 9개의 복셀들(514) 중 하나)과 연관된다. 용어 "함유한다"는 원자의 3D 원자 좌표들이 복셀 내에 위치되는 것을 지칭한다. 원자를 함유하는 복셀은 본 명세서에서 "원자 함유 복셀"로도 지칭된다.Starting in Figure 32A, at step 3202, each atom (e.g., each of the 828 alpha-carbon atoms and each of the 828 beta-carbon atoms) is divided into a voxel (e.g., 9 voxels (e.g., 9 voxels) containing the atom. 514) is related to one of the The term “contains” refers to the 3D atomic coordinates of an atom being located within a voxel. Voxels containing atoms are also referred to herein as “atom-containing voxels.”

도 32b 및 도 33은 특정 원자를 함유하는 복셀이 선택되는 방법을 기술한다. 도 33은 3D 원자 좌표들의 대표로서 2D 원자 좌표들을 사용한다. 복셀 그리드(522)는 동일한 단차 크기(예컨대, 1 옹스트롬(Å) 또는 2 Å)를 갖는 복셀들(514) 각각과 규칙적으로 이격됨에 유의한다.Figures 32B and 33 describe how voxels containing specific atoms are selected. Figure 33 uses 2D atomic coordinates as a representative of 3D atomic coordinates. Note that the voxel grid 522 is regularly spaced with each of the voxels 514 having the same step size (eg, 1 angstrom (Å) or 2 Å).

또한, 도 33에서, 복셀 그리드(522)는 제1 차원(예컨대, x-축)을 따라 인덱스들 [0, 1, 2]를 갖고, 제2 차원(예컨대, y-축)을 따라 인덱스들 [0, 1, 2]을 갖는다. 또한, 도 33에서, 복셀 그리드(522) 내의 각자의 복셀들(514)은 복셀 인덱스들 [복셀 0, 복셀 1, ..., 복셀 8]에 의해 그리고 복셀 중심 인덱스들 [(1, 1), (1, 2), ..., (3, 3)]에 의해 식별된다.33 , voxel grid 522 has indices [0, 1, 2] along a first dimension (e.g., x-axis) and indices [0, 1, 2] along a second dimension (e.g., y-axis). It has [0, 1, 2]. Additionally, in FIG. 33 , respective voxels 514 within voxel grid 522 are organized by voxel indices [voxel 0, voxel 1, ..., voxel 8] and by voxel centroid indices [(1, 1) , (1, 2), ..., (3, 3)].

또한, 도 33에서, 제1 차원을 따른 복셀 중심들의 중심 좌표들, 즉, 제1 차원 복셀 좌표들이 식별된다. 또한, 도 33에서, 제2 차원을 따른 복셀 중심들의 중심 좌표들, 즉, 제2 차원 복셀 좌표들이 식별된다.Also, in Figure 33, the center coordinates of the voxel centers along the first dimension, i.e., the first dimension voxel coordinates, are identified. Also, in Figure 33, the center coordinates of the voxel centers along the second dimension, i.e., the second dimension voxel coordinates, are identified.

먼저, 단계(3202a)(도 33의 단계 1)에서, 특정 원자의 3D 원자 좌표들(1.7456, 2.14323)이 양자화되어, 양자화된 3D 원자 좌표들 (1.7, 2.1)을 생성한다. 양자화는 비트들의 라운딩 또는 절단(truncation)에 의해 달성될 수 있다.First, in step 3202a (step 1 in Figure 33), the 3D atomic coordinates (1.7456, 2.14323) of a particular atom are quantized to generate quantized 3D atomic coordinates (1.7, 2.1). Quantization can be achieved by rounding or truncation of bits.

이어서, 단계(3202b)(도 33의 단계 2)에서, 복셀들(514)의 복셀 좌표들(또는 복셀 중심들 또는 복셀 중심 좌표들)이 차원 단위로 양자화된 3D 원자 좌표들에 할당된다. 제1 차원의 경우, 양자화된 원자 좌표 1.7은 복셀 1에 할당되는데, 그 이유는 그것이 1 내지 2의 범위에 있는 제1 차원 복셀 좌표들을 커버하고, 제1 차원에서 1.5에 중심설정되기 때문이다. 복셀 1은 제2 차원을 따라 인덱스 0을 갖는 것과는 대조적으로, 제1 차원을 따라 인덱스 1을 가짐에 유의한다.Next, in step 3202b (step 2 in FIG. 33 ), the voxel coordinates (or voxel centers or voxel center coordinates) of voxels 514 are assigned to dimension-wise quantized 3D atomic coordinates. For the first dimension, the quantized atomic coordinate 1.7 is assigned to voxel 1 because it covers first dimension voxel coordinates in the range 1 to 2 and is centered at 1.5 in the first dimension. Note that voxel 1 has index 1 along the first dimension, as opposed to index 0 along the second dimension.

제2 차원의 경우, 복셀 1로부터 시작하여, 복셀 그리드(522)는 제2 차원을 따라 횡단된다. 이것은, 양자화된 원자 좌표 2.5가 복셀 7에 할당되는 결과를 가져오는데, 그 이유는 그것이 2 내지 3의 범위에 있는 제2 차원 복셀 좌표들을 커버하고, 제2 차원에서 2.5에 중심설정되기 때문이다. 복셀 7은 제1 차원을 따라 인덱스 1을 갖는 것과는 대조적으로, 제2 차원을 따라 인덱스 2를 가짐에 유의한다.For the second dimension, starting from voxel 1, the voxel grid 522 is traversed along the second dimension. This results in the quantized atomic coordinate 2.5 being assigned to voxel 7 because it covers second dimension voxel coordinates in the range 2 to 3 and is centered at 2.5 in the second dimension. Note that voxel 7 has index 2 along the second dimension, as opposed to index 1 along the first dimension.

이어서, 단계(3202c)(도 33의 단계 3)에서, 할당된 복셀 좌표들에 대응하는 차원 인덱스들이 선택된다. 즉, 복셀 1의 경우, 인덱스 1은 제1 차원을 따라 선택되고, 복셀 7의 경우, 인덱스 2는 제2 차원을 따라 선택된다. 당업자는 위의 단계들이 제3 차원의 경우에 제3 차원을 따라 차원 인덱스를 선택하도록 유사하게 실행될 수 있음을 이해할 것이다.Next, in step 3202c (step 3 in Figure 33), dimension indices corresponding to the assigned voxel coordinates are selected. That is, for voxel 1, index 1 is selected along the first dimension, and for voxel 7, index 2 is selected along the second dimension. Those skilled in the art will understand that the above steps can be similarly implemented to select a dimension index along the third dimension in the case of a third dimension.

이어서, 단계(3202d)(도 33의 단계 4)에서, 기수(radix)의 제곱들에 의해 선택된 차원 인덱스들의 위치별 가중화에 기초하여 누적된 합이 생성된다. 위치 넘버링 시스템 배후의 대체적인 아이디어는 수치 값이 기수(또는 밑)의 증가하는 제곱들을 통해 표현된다는 것, 예를 들어, 2진법은 기수 2이고, 3진법은 기수 3이고, 8진법은 기수 8이고, 16진법은 기수 16이라는 것이다. 이것은 종종, 가중 넘버링 시스템으로 지칭되는데, 그 이유는 각각의 위치가 기수의 제곱에 의해 가중되기 때문이다. 위치 넘버링 시스템에 대한 유효 수치들의 세트는 그 시스템의 기수와 크기가 동일하다. 예를 들어, 10진법 체계에서 0 내지 9인 10개의 숫자들이 있고, 3진법 체계에서 0, 1, 및 2인 3개의 숫자들이 있다. 기수 체계에서 가장 큰 유효 수는 기수보다 1 더 작다(따라서, 임의의 기수 체계에서 8은 9보다 더 작은 유효 수치가 아님). 임의의 10진 정수는 임의의 다른 적분 기반 시스템에서 정확하게 표현될 수 있고, 그 반대도 마찬가지이다.Next, in step 3202d (step 4 in FIG. 33), a cumulative sum is generated based on positional weighting of the selected dimension indices by the squares of the radix. The general idea behind the positional numbering system is that numerical values are expressed through increasing powers of base (or base), e.g. base 2 in binary, base 3 in ternary, and base 8 in octal. And hexadecimal is base 16. This is often referred to as a weighted numbering system because each position is weighted by the square of the cardinality. The set of significant figures for a positional numbering system is the same size as the cardinality of the system. For example, in the decimal system there are 10 numbers 0 through 9, and in the ternary system there are 3 numbers 0, 1, and 2. In any radix system, the largest significant number is 1 less than the radix (thus, in any radix system, 8 is not a significant number less than 9). Any decimal integer can be represented exactly in any other integration-based system, and vice versa.

도 33의 예로 돌아가서, 선택된 차원 인덱스들 1 및 2는, 그들을 기수 3의 각자의 제곱들과 위치별로 곱하고 위치별 곱셈들의 결과들을 합산함으로써 단일 정수로 변환된다. 여기서, 3D 원자 좌표들이 3개의 차원들을 갖기 때문에 기수 3이 선택된다(그러나, 도 33은 단순화를 위해 2개의 차원들을 따른 2D 원자 좌표들만을 도시함).Returning to the example of Figure 33, the selected dimension indices 1 and 2 are converted to a single integer by multiplying them position-wise by their respective powers in base 3 and summing the results of the position-wise multiplications. Here, base 3 is chosen because 3D atomic coordinates have three dimensions (however, Figure 33 only shows 2D atomic coordinates along two dimensions for simplicity).

인덱스 2가 최우측 비트(즉, 최하위 비트)에 위치되기 때문에, 그것은 3의 0 제곱과 곱해져서 2를 산출한다. 인덱스 1이 두 번째 최우측 비트(즉, 두 번째 최하위 비트)에 위치되기 때문에, 그것은 3의 1 제곱과 곱해져서 3을 산출한다. 이것은 누적된 합이 5인 결과를 가져온다.Since the index 2 is located in the rightmost bit (i.e., the least significant bit), it is multiplied by 3 to the power of 0, yielding 2. Since the index 1 is located in the second rightmost bit (i.e., the second least significant bit), it is multiplied by 3 to the power of 1, yielding 3. This results in a cumulative sum of 5.

이어서, 단계(3202e)(도 33의 단계 5)에서, 누적된 합에 기초하여, 특정 원자를 함유하는 복셀의 복셀 인덱스가 선택된다. 즉, 누적된 합은 특정 원자를 함유하는 복셀의 복셀 인덱스로서 해석된다.Next, in step 3202e (step 5 in Figure 33), based on the accumulated sum, the voxel index of the voxel containing the particular atom is selected. That is, the accumulated sum is interpreted as the voxel index of the voxel containing a specific atom.

단계(3212)에서, 각각의 원자가 원자 함유 복셀과 연관된 후에, 각각의 원자는 본 명세서에서 "이웃 복셀들"로도 지칭되는, 원자 함유 복셀의 이웃에 있는 하나 이상의 복셀들과 추가로 연관된다. 이웃 복셀들은 원자 함유 복셀의 미리정의된 반경(예컨대, 5 옹스트롬(Å)) 내에 있는 것에 기초하여 선택될 수 있다. 다른 구현예들에서, 이웃 복셀들은 원자 함유 복셀에 근접하여 인접한 것에 기초하여 선택될 수 있다(예컨대, 상단, 하단, 우측, 좌측 인접 복셀들). 각각의 원자를 원자 함유 복셀 및 이웃 복셀과 연관시키는 생성된 연관성은 본 명세서에서 요소-셀 맵핑으로도 지칭되는, 원자-복셀 맵핑(3402)에 인코딩된다. 하나의 예에서, 제1 알파-탄소 원자는 원자 함유 복셀 및 제1 알파-탄소 원자에 대한 이웃 복셀들을 포함하는 복셀들(3404)의 제1 서브세트와 연관된다. 다른 예에서, 제2 알파-탄소 원자는 원자 함유 복셀 및 제2 알파-탄소 원자에 대한 이웃 복셀들을 포함하는 복셀들(3406)의 제2 서브세트와 연관된다.At step 3212, after each atom is associated with an atom-containing voxel, each atom is further associated with one or more voxels in the neighborhood of the atom-containing voxel, also referred to herein as “neighboring voxels.” Neighboring voxels may be selected based on being within a predefined radius (eg, 5 angstroms (Å)) of the atom-containing voxel. In other implementations, neighboring voxels may be selected based on their proximity to the atom-containing voxel (e.g., top, bottom, right, left neighboring voxels). The resulting associations associating each atom with its atom-containing voxel and neighboring voxels are encoded in an atom-to-voxel mapping 3402, also referred to herein as an element-to-cell mapping. In one example, the first alpha-carbon atom is associated with a first subset of voxels 3404 that include the atom-containing voxel and neighboring voxels for the first alpha-carbon atom. In another example, the second alpha-carbon atom is associated with a second subset of voxels 3406 that include the atom-containing voxel and neighboring voxels for the second alpha-carbon atom.

원자 함유 복셀 및 이웃 복셀들을 결정하기 위해 어떠한 거리 계산들도 이루어지지 않음에 유의한다. 원자 함유 복셀은 (어떠한 거리 계산들도 사용하지 않고서) 복셀 그리드 내의 대응하는 규칙적으로 이격된 복셀 중심들에 대한 양자화된 3D 원자 좌표들의 할당을 허용하는 복셀들의 공간적 배열에 의해 선택된다. 또한, 이웃 복셀들은 (다시 어떠한 거리 계산들도 사용하지 않고서) 복셀 그리드 내의 원자 함유 복셀에 공간적으로 인접한 것으로 인해 선택된다.Note that no distance calculations are made to determine the atom containing voxel and neighboring voxels. Atom-containing voxels are selected by a spatial arrangement of voxels that allows assignment of quantized 3D atomic coordinates to corresponding regularly spaced voxel centers within the voxel grid (without using any distance calculations). Additionally, neighboring voxels are selected due to being spatially adjacent to the atom-containing voxel in the voxel grid (again without using any distance calculations).

단계(3222)에서, 각각의 복셀은 단계들(3202, 3212)에서 그것이 연관되었던 원자들에 맵핑된다. 하나의 구현예에서, 이러한 맵핑은 복셀-원자 맵핑(3412)에 인코딩되는데, 이는 (예컨대, 원자-복셀 맵핑(3402) 상에 복셀 기반 분류 키를 적용함으로써) 원자-복셀 맵핑(3402)에 기초하여 생성된다. 복셀-원자 맵핑(3412)은 또한, 본 명세서에서 "셀-요소 맵핑"으로도 지칭된다 하나의 예에서, 제1 복셀은 단계들(3202, 3212)에서 제1 복셀과 연관된 알파-탄소 원자들을 포함하는 알파-탄소 원자들(3414)의 제1 서브세트에 맵핑된다. 다른 예에서, 제2 복셀은 단계들(3202, 3212)에서 제2 복셀과 연관된 알파-탄소 원자들을 포함하는 알파-탄소 원자들(3416)의 제2 서브세트에 맵핑된다.In step 3222, each voxel is mapped to the atoms it was associated with in steps 3202 and 3212. In one implementation, this mapping is encoded in a voxel-to-atom mapping 3412, which is based on the atom-to-voxel mapping 3402 (e.g., by applying a voxel-based classification key on the atom-to-voxel mapping 3402). It is created by Voxel-to-atom mapping 3412 is also referred to herein as “cell-element mapping.” In one example, a first voxel has alpha-carbon atoms associated with the first voxel in steps 3202 and 3212. is mapped to a first subset of alpha-carbon atoms comprising 3414. In another example, the second voxel is mapped in steps 3202 and 3212 to a second subset of alpha-carbon atoms 3416 that include alpha-carbon atoms associated with the second voxel.

단계(3232)에서, 각각의 복셀에 대해, 단계(3222)에서 복셀에 맵핑된 원자들과 복셀 사이의 거리들이 계산된다. 단계(3232)는 O(#원자들)의 런타임 복잡도를 갖는데, 그 이유는 특정 원자까지의 거리가 그 특정 원자가 복셀-원자 맵핑(3412)에서 고유하게 맵핑되는 각자의 복셀로부터 1회만 측정되기 때문이다. 이것은 어떠한 이웃하는 복셀들도 고려되지 않을 때 그러하다. 이웃들이 없다면, big-O 표기법에서 암시되는 상수 인자는 1이다. 이웃들에 있다면, big-O 표기법은 이웃들의 수가 각각의 복셀에 대해 일정하기 때문에 이웃들의 수 + 1과 동일하고, 따라서, O(#원자들)의 런타임 복잡도는 그대로 유지된다. 대조적으로, 도 35a에서, 특정 원자까지의 거리들은 복셀들의 수만큼 많은 횟수로 중복적으로 측정된다(예컨대, 27개의 복셀들로 인한 특정 원자에 대한 27개의 거리들).At step 3232, for each voxel, the distances between the voxel and the atoms mapped to the voxel at step 3222 are calculated. Step 3232 has a runtime complexity of O(#atoms) because the distance to a particular atom is measured only once from each voxel to which that particular atom is uniquely mapped in voxel-to-atom mapping 3412. am. This is the case when no neighboring voxels are considered. If there are no neighbors, the constant argument implied by big-O notation is 1. If there are neighbors, the big-O notation is equal to the number of neighbors + 1 since the number of neighbors is constant for each voxel, and thus the runtime complexity of O(#atoms) remains the same. In contrast, in Figure 35A, distances to a specific atom are measured redundantly as many times as there are voxels (e.g., 27 distances to a specific atom resulting in 27 voxels).

도 35b에서, 복셀-원자 맵핑(3412)에 기초하여, 각자의 복셀들에 대한 각자의 타원들에 의해 예시된 바와 같이, 각각의 복셀은 828개의 원자들의 각자의 서브세트에 맵핑된다(이웃 복셀들에 대한 거리 계산들을 포함하지 않음). 각자의 서브세트들은 일부 예외들을 제외하면, 대체로 중첩되지 않는다. 프라임 심볼 "'" 및 타원들 사이의 황색 중첩부에 의해 도 35b에 나타낸 바와 같이, 다수의 원자들이 동일한 복셀에 맵핑될 때 일부 경우들로 인해 사소한 중첩이 존재한다. 이러한 최소 중첩은 O(#원자들)의 런타임 복잡도에 대한 가산 효과를 갖고, 곱셈 효과는 갖지 않는다. 이러한 중첩은 원자를 함유하는 복셀을 결정한 후의 이웃하는 복셀들을 고려한 결과이다. 이웃하는 복셀들이 없다면, 원자가 단지 하나의 복셀과 연관되기 때문에 중첩이 없을 수 있다. 그러나, 이웃들을 고려하면, (더 가까운 동일한 아미노산의 다른 원자가 없는 한) 각각의 이웃은 잠재적으로, 동일한 원자와 연관될 수 있다.In Figure 35B, based on voxel-to-atom mapping 3412, each voxel is mapped to a respective subset of 828 atoms (neighboring voxels), as illustrated by respective ellipses for each voxel (does not include distance calculations for fields). The individual subsets generally do not overlap, with some exceptions. There is minor overlap due to some cases when multiple atoms are mapped to the same voxel, as shown in Figure 35B by the yellow overlap between the prime symbol "'" and the ovals. This minimal overlap has an additive effect on runtime complexity of O(#atoms), and has no multiplicative effect. This overlap is the result of determining the voxel containing the atom and then considering neighboring voxels. If there are no neighboring voxels, there may be no overlap because the atom is associated with only one voxel. However, considering the neighbors, each neighbor can potentially be associated with the same atom (unless there is another atom of the same amino acid that is closer).

단계(3242)에서, 각각의 복셀에 대해, 단계(3232)에서 계산된 거리들에 기초하여, 복셀에 가장 가까운 원자가 식별된다. 하나의 구현예에서, 이러한 식별은 본 명세서에서 "셀-가장 가까운 요소 맵핑"으로도 지칭되는 복셀-가장 가까운 원자 맵핑(3422)에 인코딩된다 하나의 예에서, 제1 복셀은 그의 가장 가까운 알파-탄소 원자(3424)로서 제2 알파-탄소 원자에 맵핑된다. 다른 예에서, 제2 복셀은 그의 가장 가까운 알파-탄소 원자(3426)로서 31-번째 알파-탄소 원자에 맵핑된다.At step 3242, for each voxel, the atom closest to the voxel is identified, based on the distances calculated at step 3232. In one implementation, this identification is encoded in a voxel-nearest atom mapping 3422, also referred to herein as a “cell-nearest element mapping.” In one example, a first voxel has its nearest alpha-nearest atom mapping. Mapped to the second alpha-carbon atom as carbon atom 3424. In another example, the second voxel is mapped to the 31-th alpha-carbon atom as its closest alpha-carbon atom 3426.

또한, 복셀별 거리들이 위에서 논의된 기법을 사용하여 계산됨에 따라, 원자들의 원자 유형 및 아미노산 유형 카테고리화, 및 대응하는 거리 값들이 카테고리화된 거리 채널들을 생성하기 위해 저장된다.Additionally, as voxel-wise distances are calculated using the techniques discussed above, the atomic type and amino acid type categorization of the atoms, and the corresponding distance values, are stored to create categorized distance channels.

일단 가장 가까운 원자들까지의 거리들이 위에서 논의된 기법을 사용하여 식별되면, 이러한 거리들은 병원성 분류기(2108)에 의한 복셀화 및 후속 처리를 위해 거리 채널들에 인코딩될 수 있다.Once the distances to the nearest atoms are identified using the techniques discussed above, these distances can be encoded into distance channels for voxelization and subsequent processing by the pathogenicity classifier 2108.

컴퓨터 시스템computer system

도 36은 개시된 기술을 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템(3600)을 도시한다. 컴퓨터 시스템(3600)은 버스 서브시스템(3655)을 통해 다수의 주변 디바이스들과 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(3672)을 포함한다. 이러한 주변 디바이스들은, 예를 들어 메모리 디바이스들 및 파일 저장 서브시스템(3636)을 포함하는 저장 서브시스템(3610), 사용자 인터페이스 입력 디바이스들(3638), 사용자 인터페이스 출력 디바이스들(3676), 및 네트워크 인터페이스 서브시스템(3674)을 포함할 수 있다. 입력 및 출력 디바이스들은 컴퓨터 시스템(3600)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(3674)은 다른 컴퓨터 시스템들에서의 대응하는 인터페이스 디바이스들에 대한 인터페이스를 포함하는 인터페이스를 외부 네트워크들에 제공한다.Figure 36 depicts an example computer system 3600 that can be used to implement the disclosed techniques. Computer system 3600 includes at least one central processing unit (CPU) 3672 that communicates with a number of peripheral devices via a bus subsystem 3655. These peripheral devices include, for example, storage subsystem 3610, including memory devices and file storage subsystem 3636, user interface input devices 3638, user interface output devices 3676, and network interface. May include subsystem 3674. Input and output devices allow user interaction with computer system 3600. Network interface subsystem 3674 provides an interface to external networks, including an interface to corresponding interface devices in other computer systems.

하나의 구현예에서, 병원성 분류기(2108)는 저장 서브시스템(3610) 및 사용자 인터페이스 입력 디바이스들(3638)에 통신가능하게 링크된다.In one implementation, pathogenicity classifier 2108 is communicatively linked to storage subsystem 3610 and user interface input devices 3638.

사용자 인터페이스 입력 디바이스들(3638)은 키보드; 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿과 같은 포인팅 디바이스들; 스캐너; 디스플레이 내에 통합된 터치 스크린; 음성 인식 시스템들 및 마이크로폰들과 같은 오디오 입력 디바이스들; 및 다른 유형들의 입력 디바이스들을 포함할 수 있다. 대체적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨터 시스템(3600)에 입력하기 위한 모든 가능한 유형들의 디바이스들 및 방식들을 포함하도록 의도된다.User interface input devices 3638 include a keyboard; Pointing devices such as a mouse, trackball, touchpad, or graphics tablet; scanner; Touch screen integrated within the display; audio input devices such as voice recognition systems and microphones; and other types of input devices. Broadly, use of the term “input device” is intended to include all possible types of devices and methods for inputting information into computer system 3600.

사용자 인터페이스 출력 디바이스들(3676)은 디스플레이 서브시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스들과 같은 비시각적 디스플레이들을 포함할 수 있다. 디스플레이 서브시스템은 LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 디바이스, 프로젝션 디바이스, 또는 가시적인 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한, 오디오 출력 디바이스들과 같은 비시각적 디스플레이를 제공할 수 있다. 대체적으로, "출력 디바이스"라는 용어의 사용은 정보를 컴퓨터 시스템(3600)으로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 출력하기 위한 모든 가능한 유형들의 디바이스들 및 방식들을 포함하도록 의도된다.User interface output devices 3676 may include non-visual displays, such as a display subsystem, printer, fax machine, or audio output devices. The display subsystem may include a planar device such as an LED display, a cathode ray tube (CRT), a liquid crystal display (LCD), a projection device, or some other mechanism for producing a visible image. The display subsystem may also provide non-visual displays, such as audio output devices. Broadly, the use of the term “output device” is intended to include all possible types of devices and manners for outputting information from computer system 3600 to a user or to another machine or computer system.

저장 서브시스템(3610)은 본 명세서에 기술된 모듈들 및 방법들 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성들을 저장한다. 이러한 소프트웨어 모듈들은 대체적으로, 프로세서들(3678)에 의해 실행된다.Storage subsystem 3610 stores programming and data configurations that provide functionality of some or all of the modules and methods described herein. These software modules are generally executed by processors 3678.

프로세서들(3678)은 그래픽 처리 유닛(GPU)들, 필드 프로그래밍가능 게이트 어레이(FPGA)들, 주문형 반도체(ASIC)들, 및/또는 코어스-그레인드 재구성가능 아키텍처(CGRA)들일 수 있다. 프로세서들(3678)은 Google Cloud Platform™, Xilinx™, 및 Cirrascale™과 같은 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 프로세서들(3678)의 예들은 Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션들, 예컨대 GX4 Rackmount Series™, GX36 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™, Testa V100s™을 갖는 Lambda GPU 서버 등을 포함한다.Processors 3678 may be graphics processing units (GPUs), field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), and/or coarse-grained reconfigurable architectures (CGRAs). Processors 3678 may be hosted by a deep learning cloud platform such as Google Cloud Platform™, Xilinx™, and Cirrascale™. Examples of processors 3678 include Google's Tensor Processing Unit (TPU)™, rackmount solutions such as GX4 Rackmount Series™, GX36 Rackmount Series™, NVIDIA DGX-1™, Microsoft's Stratix V FPGA™, Graphcore's Intelligent Processor Unit (IPU)™, Qualcomm's Zeroth Platform™ with Snapdragon processors™, NVIDIA's Volta™, NVIDIA's DRIVE PX™, NVIDIA's JETSON TX1/TX2 MODULE™, Intel's Nirvana™, Movidius VPU™, Fujitsu DPI™ , ARM's DynamicIQ™, IBM TrueNorth™, and Lambda GPU servers with Testa V100s™.

저장 서브시스템(3610)에 사용되는 메모리 서브시스템(3622)은 프로그램 실행 동안 명령어들 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(3632) 및 고정된 명령어들이 저장되는 판독 전용 메모리(ROM)(3634)를 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(3636)은 프로그램 및 데이터 파일들을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 연관된 착탈식 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 착탈식 매체 카트리지를 포함할 수 있다. 소정 구현예들의 기능을 구현하는 모듈들은 저장 서브시스템(3610) 내의 파일 저장 서브시스템(3636)에 의해, 또는 프로세서에 의해 액세스가능한 다른 기계들에 저장될 수 있다.The memory subsystem 3622 used in the storage subsystem 3610 includes a main random access memory (RAM) 3632 for storage of instructions and data during program execution and a read-only memory (ROM) where fixed instructions are stored. It may include multiple memories including (3634). File storage subsystem 3636 may provide persistent storage for program and data files and may include a hard disk drive, a floppy disk drive with associated removable media, a CD-ROM drive, an optical drive, or a removable media cartridge. You can. Modules implementing the functionality of certain implementations may be stored by file storage subsystem 3636 in storage subsystem 3610, or on other machines accessible by the processor.

버스 서브시스템(3655)은 컴퓨터 시스템(3600)의 다양한 컴포넌트들 및 서브시스템들이 의도된 대로 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(3655)이 개략적으로 단일 버스로서 도시되어 있지만, 버스 서브시스템의 대안적인 구현예들은 다수의 버스들을 사용할 수 있다.Bus subsystem 3655 provides a mechanism for allowing the various components and subsystems of computer system 3600 to communicate with each other as intended. Although bus subsystem 3655 is schematically depicted as a single bus, alternative implementations of the bus subsystem may use multiple buses.

컴퓨터 시스템(3600) 자체는 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 단말기, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 광범위하게 분산된 느슨하게 네트워킹된 컴퓨터 세트, 또는 임의의 다른 데이터 처리 시스템이나 사용자 디바이스를 포함하는 다양한 유형들의 것일 수 있다. 컴퓨터들 및 네트워크들의 지속적으로 변화하는(ever-changing) 특성으로 인해, 도 36에 묘사된 컴퓨터 시스템(3600)의 설명은 본 발명의 바람직한 구현예들을 예시하기 위한 특정 예로서만 의도된다. 도 36에 묘사된 컴퓨터 시스템보다 더 많은 또는 더 적은 컴포넌트들을 갖는 컴퓨터 시스템(3600)의 많은 다른 구성들이 가능하다.Computer system 3600 itself may be a personal computer, portable computer, workstation, computer terminal, network computer, television, mainframe, server farm, widely distributed, loosely networked set of computers, or any other data processing system or user device. It may be of various types including. Due to the ever-changing nature of computers and networks, the description of computer system 3600 depicted in FIG. 36 is intended only as a specific example to illustrate preferred implementations of the invention. Many other configurations of computer system 3600 are possible with more or fewer components than the computer system depicted in FIG. 36.

특정 구현예들 1Specific Implementations 1

하기의 구현예들은 시스템, 방법 또는 제조 물품으로서 실시될 수 있다. 구현예의 하나 이상의 특징부들은 기본 구현예와 조합될 수 있다. 상호 배타적이지 않은 구현예들은 조합가능한 것으로 교시되어 있다. 구현예의 하나 이상의 특징부들은 다른 구현예들과 조합될 수 있다. 본 발명은 이러한 옵션들을 사용자에게 주기적으로 리마인드한다. 이러한 옵션들을 반복하는 인용들의 일부 구현예들로부터의 생략은 전술한 섹션들에 교시된 조합들을 제한하는 것으로서 간주되어서는 안된다 - 이들 인용들은 이로써 다음의 구현예들 각각에 참조로 통합된다.The following embodiments can be practiced as a system, method, or article of manufacture. One or more features of an implementation can be combined with the base implementation. Implementations that are not mutually exclusive are taught as being combinable. One or more features of an implementation may be combined with other implementations. The present invention periodically reminds users of these options. The omission from some implementations of citations repeating these options should not be considered as limiting the combinations taught in the preceding sections - these citations are hereby incorporated by reference into each of the following implementations.

개시된 기술이 3D 데이터를 입력으로서 사용하지만, 다른 구현예들에서, 그것은 1D 데이터, 2D 데이터(예컨대, 픽셀들 및 2D 원자 좌표들), 4D 데이터, 5D 데이터 등을 유사하게 사용할 수 있다.Although the disclosed technique uses 3D data as input, in other implementations, it may similarly use 1D data, 2D data (e.g., pixels and 2D atomic coordinates), 4D data, 5D data, etc.

일부 구현예들에서, 시스템은 단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 저장하는 메모리를 포함한다. 아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖는다. 복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 아미노산 내의 대응하는 아미노산의 원자들까지의 거리를 특정한다. 시스템은 아미노산별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하도록 구성된 병원성 결정 엔진을 추가로 포함한다. 병원성 결정 엔진은 또한, 텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하도록 구성될 수 있다.In some implementations, the system includes a memory that stores per-amino acid distance channels for a plurality of amino acids in the protein. Each of the amino acid-specific distance channels has voxel-specific distance values for voxels within a plurality of voxels. Voxel-specific distance values specify the distance from corresponding voxels within a plurality of voxels to atoms of the corresponding amino acid within a plurality of amino acids. The system further includes a pathogenicity determination engine configured to process amino acid-specific distance channels and a tensor containing alternative alleles of the protein expressed by the variant. The pathogenicity determination engine may also be configured to determine the pathogenicity of a variant based at least in part on the tensor.

일부 구현예들에서, 시스템은 아미노산의 각자의 잔기의 알파-탄소 원자 상에 복셀들의 복셀 그리드를 중심설정하는 거리 채널 생성기를 추가로 포함한다. 거리 채널 생성기는 단백질 내의 변이체 아미노산에 위치된 특정 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정할 수 있다.In some implementations, the system further includes a distance channel generator that centers the voxel grid of voxels on the alpha-carbon atom of each residue of the amino acid. The distance channel generator can center the voxel grid on the alpha-carbon atom of the residue of a particular amino acid located at the variant amino acid in the protein.

시스템은, 텐서에, 특정 아미노산에 선행하는 그러한 아미노산에 대한 복셀별 거리 값들을 방향성 파라미터와 곱함으로써 아미노산의 방향성 및 특정 아미노산의 위치를 인코딩하도록 구성될 수 있다. 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들일 수 있다. 일부 구현예들에서, 가장 가까운 원자 거리들은 유클리드 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화될 수 있다. 아미노산은 알파-탄소 원자들을 가질 수 있고, 일부 구현예들에서, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들일 수 있다. 아미노산은 베타-탄소 원자들을 가질 수 있고, 일부 구현예들에서, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들일 수 있다. 아미노산은 백본 원자들을 가질 수 있고, 일부 구현예들에서, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들일 수 있다. 아미노산은 측쇄 원자들을 가지며, 일부 구현예들에서, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들일 수 있다.The system can be configured to encode the orientation of an amino acid and the position of a particular amino acid by multiplying a tensor with a directionality parameter by the voxel-wise distance values for that amino acid preceding that amino acid. The distances may be the nearest atom distances from corresponding voxel centers in the voxel grid to the nearest atoms of the corresponding amino acid. In some implementations, the nearest atomic distances may be Euclidean distances. The nearest atom distances can be normalized by dividing the Euclidean distances by the maximum nearest atom distance. An amino acid can have alpha-carbon atoms, and in some embodiments, the distances can be the nearest alpha-carbon atom distances from corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding amino acid. An amino acid can have beta-carbon atoms, and in some embodiments, the distances can be the nearest beta-carbon atom distances from corresponding voxel centers to the nearest beta-carbon atoms of the corresponding amino acid. An amino acid can have backbone atoms, and in some embodiments, the distances can be the nearest backbone atom distances from corresponding voxel centers to the nearest backbone atoms of the corresponding amino acid. Amino acids have side chain atoms, and in some embodiments, the distances can be the closest side chain atom distances from corresponding voxel centers to the closest side chain atoms of the corresponding amino acid.

시스템은, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하도록 추가로 구성될 수 있다. 가장 가까운 원자는 아미노산 및 아미노산의 원자 원자 원소들과 관계없이 선택될 수 있다. 일부 구현예들에서, 거리는 유클리드 거리이다. 거리는 유클리드 거리를 최대 거리로 나눔으로써 정규화될 수 있다. 아미노산은 비표준 아미노산을 포함할 수 있다. 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않은 원자들을 특정하는 부재자(absentee) 원자 채널을 포함할 수 있고, 부재자 원자 채널은 원-핫 인코딩될 수 있다. 일부 구현예들에서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 대안적인 대립유전자의 원-핫 인코딩을 추가로 포함할 수 있다. 텐서는 단백질의 기준 대립유전자를 추가로 포함할 수 있다. 일부 구현예들에서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 기준 대립유전자의 원-핫 인코딩을 추가로 포함할 수 있다. 텐서는 복수의 종에 걸쳐 아미노산의 보존 수준을 특정하는 진화 프로파일들을 추가로 포함할 수 있다.The system can be further configured to encode, in the tensor, a nearest atom channel that specifies the distance from each voxel to the nearest atom. The closest atom may be selected regardless of the amino acid and the atomic atomic elements of the amino acid. In some implementations, the distance is a Euclidean distance. Distances can be normalized by dividing the Euclidean distance by the maximum distance. Amino acids may include non-standard amino acids. The tensor may include absentee atom channels that specify atoms not found within a predefined radius of the voxel center, and the absentee atom channels may be one-hot encoded. In some implementations, the tensor may further include one-hot encoding of alternative alleles encoded voxel-by-voxel in each of the amino acid-wise distance channels. The tensor may additionally include reference alleles of the protein. In some implementations, the tensor may further include a one-hot encoding of the reference allele encoded voxel-by-voxel in each of the amino acid-wise distance channels. The tensor may further include evolutionary profiles that specify the level of conservation of amino acids across multiple species.

시스템은 진화 프로파일 생성기를 추가로 포함할 수 있는데, 이는 복셀들 각각에 대해, 아미노산 및 원자 카테고리들에 걸쳐 가장 가까운 원자를 선택하고, 가장 가까운 원자를 포함하는 아미노산의 잔기에 대한 범아미노산 보존 빈도 서열을 선택하고, 범아미노산 보존 빈도 서열을 진화 프로파일들 중 하나로서 이용가능하게 한다. 범아미노산 보존 빈도 서열은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성될 수 있다. 범아미노산 보존 빈도 서열은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정할 수 있다. 일부 구현예들에서, 진화 프로파일 생성기는 복셀들 각각에 대해, 아미노산 중 각자의 것들 내의 각자의 가장 가까운 원자들을 선택할 수 있고, 가장 가까운 원자들을 포함하는 아미노산의 각자의 잔기들에 대한 각자의 아미노산당 보존 빈도들을 선택할 수 있고, 아미노산당 보존 빈도들을 진화 프로파일들 중 하나로서 이용가능하게 할 수 있다. 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성될 수 있다. 아미노산당 보존 빈도들은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정할 수 있다.The system may further include an evolutionary profile generator, which selects, for each of the voxels, the closest atom across amino acid and atom categories and a pan-amino acid conservation frequency sequence for the residues of the amino acid containing the closest atom. Select , and make the pan-amino acid conservation frequency sequence available as one of the evolutionary profiles. Pan-amino acid conservation frequency sequences can be constructed for specific positions of residues as observed in multiple species. A pan-amino acid conservation frequency sequence can specify whether there is a missing conservation frequency for a particular amino acid. In some embodiments, the evolutionary profile generator may select, for each of the voxels, the respective closest atoms within the respective ones of the amino acids, and select the respective closest atoms within the respective ones of the amino acids, and Conservation frequencies can be selected and conservation frequencies per amino acid can be made available as one of the evolutionary profiles. Conservation frequencies per amino acid can be plotted for specific positions of residues as observed in multiple species. Conservation frequencies per amino acid can specify whether there is a missing conservation frequency for a particular amino acid.

시스템의 일부 구현예들에서, 텐서는 아미노산에 대한 주석 채널들을 추가로 포함할 수 있다. 주석 채널들은 텐서에서 원-핫 인코딩될 수 있다. 주석 채널들은 개시제 메티오닌(initiator methionine), 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들일 수 있다. 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게(zinc finger), 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일(coiled coil), 모티프, 및 조성 바이어스를 포함하는 영역 주석들일 수 있다. 주석 채널들은 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들일 수 있다. 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들일 수 있다. 주석 채널들은 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들일 수 있다. 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들일 수 있다.In some implementations of the system, the tensor may further include annotation channels for amino acids. Annotation channels can be one-hot encoded in tensors. Annotation channels can be molecular process annotations including initiator methionine, signal, variable peptide, propeptide, chain, and peptide. Annotated channels include topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, coiled coil, motif, and These may be region annotations containing compositional bias. Annotation channels can be site annotations including active site, metal binding, binding site, and site. Annotation channels can be amino acid modification annotations including non-standard residues, modified residues, lipidation, glycosylation, disulfide bonds, and cross-linking. Annotation channels can be secondary structure annotations including helices, turns, and beta strands. Annotation channels can be experimental information annotations including mutagenesis, sequence uncertainty, sequence conflict, non-adjacent residues, and non-terminal residues.

시스템의 일부 구현예들에서, 텐서는 아미노산의 각자의 구조들의 품질을 특정하는, 아미노산에 대한 구조 신뢰도 채널들을 추가로 포함한다. 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들일 수 있다. 구조 신뢰도 채널들은 정성적 모델 에너지 분석(QMEAN) 점수들을 포함할 수 있다.In some implementations of the system, the tensor further includes structural confidence channels for amino acids, specifying the quality of the respective structures of the amino acids. Structural reliability channels may be global model quality estimates (GMQEs). Structural reliability channels may include Qualitative Model Energy Analysis (QMEAN) scores.

구조 신뢰도 채널들은 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들일 수 있다. 구조 신뢰도 채널들은 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들일 수 있다. 구조 신뢰도 채널들은 정렬된 주형 구조들의 주형 모델링 점수들일 수 있다. 구조 신뢰도 채널들은 주형 모델링 점수들 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수일 수 있다.Structural confidence channels can be temperature parameters that specify the degree to which residues satisfy the physical constraints of their respective protein structures. Structural confidence channels can be template structure alignments that specify the extent to which residues of the atoms closest to voxels have aligned template structures. Structural confidence channels may be template modeling scores of aligned template structures. The structural reliability channels may be the template modeling scores, the minimum template modeling scores, the average template modeling scores, and the maximum template modeling scores.

일부 구현예들에서, 시스템은 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결하는 텐서 생성기를 추가로 포함할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 베타-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들 및 대안적인 대립유전자의 원-핫 인코딩을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도들, 및 주석 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 기준 대립유전자의 원-핫 인코딩을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도들, 및 주석 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결할 수 있다. 텐서 생성기는 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결할 수 있다.In some implementations, the system may further include a tensor generator that concatenates per-amino acid distance channels for alpha-carbon atoms with one-hot encoding of alternative alleles on a voxel-by-voxel basis to generate a tensor. The tensor generator can concatenate amino acid-specific distance channels for beta-carbon atoms voxel-by-voxel with one-hot encoding of alternative alleles to generate a tensor. The tensor generator can concatenate per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, and one-hot encoding of alternative alleles voxel-by-voxel to generate a tensor. The tensor generator uses per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and pan-amino acid conservation frequencies to generate the tensor. It can be connected voxel by voxel. The tensor generator generates a tensor using per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, pan-amino acid conservation frequencies, and annotation channels can be connected for each voxel. The tensor generator generates a tensor using per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, pan-amino acid conservation frequencies, Annotation channels and structural reliability channels can be connected voxel-by-voxel. The tensor generator uses per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and amino acid per-amino acid distance channels for each amino acid to generate a tensor. Sugar conservation frequencies can be linked for each voxel. The tensor generator generates a tensor using per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and per-amino acid distance channels for each amino acid. Retention frequencies, and annotation channels can be linked voxel-by-voxel. The tensor generator generates a tensor using per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and per-amino acid distance channels for each amino acid. Retention frequencies, annotation channels, and structural confidence channels can be linked voxel-by-voxel. The tensor generator uses per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and a circle of reference alleles to generate the tensor. -Hot encoding can be connected voxel by voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, and pan-amino acid conservation frequencies can be linked voxel-by-voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, pan-amino acid conservation frequencies, and annotation channels can be linked voxel-by-voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, pan-amino acid conservation frequencies, annotation channels, and structural confidence channels can be linked voxel-by-voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, and conservation frequencies per amino acid for each amino acid can be linked voxel-by-voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, conservation frequencies per amino acid for each amino acid, and annotation channels can be linked voxel-by-voxel. The tensor generator uses amino acid-specific distance channels for alpha-carbon atoms, amino acid-specific distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and one-hot encoding of the reference allele to generate the tensor. Hot encoding, conservation frequencies per amino acid, annotation channels, and structural confidence channels for each amino acid can be connected voxel-by-voxel.

일부 구현예들에서, 시스템은 아미노산별 거리 채널들이 생성되기 전에 아미노산의 원자들을 회전시키는 원자 회전 엔진을 추가로 포함할 수 있다. 병원성 결정 엔진은 신경망일 수 있다. 특정 구현예들에서, 병원성 결정 엔진은 콘볼루션 신경망일 수 있다. 콘볼루션 신경망은 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용할 수 있다. 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들일 수 있다.In some implementations, the system may further include an atom rotation engine that rotates the atoms of amino acids before amino acid-specific distance channels are created. The pathogenicity decision engine may be a neural network. In certain implementations, the pathogenicity decision engine may be a convolutional neural network. A convolutional neural network may use 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, a fully connected layer, a dropout regularization layer, and a softmax classification layer. 1x1x1 convolutions and 3x3x3 convolutions may be three-dimensional convolutions.

일부 구현예들에서, 1x1x1 콘볼루션들의 층은 텐서를 처리할 수 있고 텐서의 콘볼루션된 표현인 중간 출력을 생성할 수 있다. 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리할 수 있고 평탄화된 출력을 생성할 수 있다. 완전 접속 층은 평탄화된 출력을 처리할 수 있고 비정규화된 출력들을 생성할 수 있다. 소프트맥스 분류 층은 비정규화된 출력들을 처리할 수 있고 변이체가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성할 수 있다. 시그모이드 층은 비정규화된 출력들을 처리할 수 있고 변이체가 병원성일 가능성을 식별하는 정규화된 출력을 생성할 수 있다. 복셀들, 원자들, 및 거리들은 3차원 좌표들을 가질 수 있다. 텐서는 적어도 3개의 차원들을 가질 수 있고, 중간 출력은 적어도 3개의 차원들을 가질 수 있고, 평탄화된 출력은 하나의 차원을 가질 수 있다.In some implementations, a layer of 1x1x1 convolutions can process a tensor and produce an intermediate output that is a convolved representation of the tensor. A sequence of layers of 3x3x3 convolutions can handle the intermediate output and produce a smoothed output. The fully connected layer can process smoothed output and produce denormalized outputs. The softmax classification layer can process denormalized outputs and produce exponentially normalized outputs that identify the likelihood that a variant is pathogenic and benign. The sigmoid layer can process denormalized outputs and produce a normalized output that identifies the likelihood that a variant is pathogenic. Voxels, atoms, and distances can have three-dimensional coordinates. The tensor can have at least three dimensions, the intermediate output can have at least three dimensions, and the flattened output can have one dimension.

일부 구현예들에서, 병원성 결정 엔진은 순환 신경망이다. 다른 구현예들에서, 병원성 결정 엔진은 주의 기반 신경망이다. 또 다른 구현예들에서, 병원성 결정 엔진은 기울기 부스트형 트리(gradient-boosted tree)이다. 또 다른 구현예들에서, 병원성 결정 엔진은 상태 벡터 기계이다.In some implementations, the pathogenicity decision engine is a recurrent neural network. In other implementations, the pathogenicity decision engine is an attention-based neural network. In still other implementations, the pathogenicity decision engine is a gradient-boosted tree. In still other implementations, the pathogenicity decision engine is a state vector machine.

다른 구현예들에서, 시스템은 단백질 내의 아미노산에 대한 원자 카테고리별 거리 채널들을 저장하는 메모리를 포함할 수 있다. 아미노산은 복수의 원자 카테고리들에 대한 원자들을 가질 수 있고, 복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정할 수 있다. 원자 카테고리별 거리 채널들은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 가질 수 있다. 복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들 내의 원자들까지의 거리들을 특정할 수 있다. 시스템은 원자 카테고리별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하도록, 그리고 텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하도록 구성된 병원성 결정 엔진을 추가로 포함할 수 있다.In other implementations, the system may include a memory that stores distance channels by atomic category for amino acids in the protein. An amino acid may have atoms for a plurality of atomic categories, and atomic categories within the plurality of atomic categories may specify atomic elements of the amino acid. Distance channels for each atomic category may have voxel-specific distance values for voxels within a plurality of voxels. Voxel-specific distance values may specify distances from corresponding voxels within a plurality of voxels to atoms within corresponding atomic categories within a plurality of atomic categories. The system further includes a pathogenicity determination engine configured to process a tensor containing distance channels by atomic category and alternative alleles of the protein expressed by the variant, and to determine pathogenicity of the variant based at least in part on the tensor. can do.

시스템은 복수의 원자 카테고리들 내의 각자의 원자 카테고리들의 각자의 원자들 상에 복셀들의 복셀 그리드를 중심설정하는 거리 채널 생성기를 추가로 포함할 수 있다. 거리 채널 생성기는 단백질 내의 적어도 하나의 변이체 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정할 수 있다. 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 원자 카테고리들 내의 가장 가까운 원자들까지의 가장 가까운 원자 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화될 수 있다. 거리들은 아미노산 및 아미노산의 원자 카테고리들과 관계없이 복셀 그리드 내의 대응하는 복셀 중심들로부터 가장 가까운 원자들까지의 가장 가까운 원자 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화될 수 있다.The system may further include a distance channel generator that centers a voxel grid of voxels on respective atoms of respective atomic categories within the plurality of atomic categories. The distance channel generator can center the voxel grid on the alpha-carbon atom of the residue of at least one variant amino acid in the protein. The distances may be the closest atomic distances from corresponding voxel centers in the voxel grid to the nearest atoms in the corresponding atomic categories. The closest atomic distances may be Euclidean distances. Nearest atomic distances can be normalized by dividing the Euclidean distances by the maximum nearest atomic distances. The distances may be the nearest atom distances from the corresponding voxel centers in the voxel grid to the nearest atom, regardless of the amino acid and the atomic categories of the amino acid. The closest atomic distances may be Euclidean distances. Nearest atomic distances can be normalized by dividing the Euclidean distances by the maximum nearest atomic distances.

이 섹션에 기술된 방법의 다른 구현예들은 전술된 방법들 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 방법의 또 다른 구현예는 메모리 및 하나 이상의 프로세서들- 당해 메모리에 저장된 명령어들을 실행하여 전술된 방법들 중 임의의 것을 수행하도록 동작가능함 -을 포함하는 시스템을 포함할 수 있다.Other implementations of the methods described in this section may include a non-transitory computer-readable storage medium storing instructions executable by a processor to perform any of the methods described above. Another implementation of the methods described in this section may include a system that includes a memory and one or more processors, operable to perform any of the methods described above by executing instructions stored in the memory.

항목 1Item 1

1. 컴퓨터 구현 방법으로서,One. 1. A computer implemented method, comprising:

단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 저장하는 단계로서,A step of storing distance channels for each amino acid for a plurality of amino acids in the protein,

아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,Each of the amino acid-specific distance channels has voxel-specific distance values for voxels within a plurality of voxels,

복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 아미노산 내의 대응하는 아미노산의 원자들까지의 거리들을 특정하는, 저장하는 단계;Storing the voxel-wise distance values specifying distances from corresponding voxels in the plurality of voxels to atoms of the corresponding amino acid in the plurality of amino acids;

아미노산별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하는 단계; 및Processing a tensor containing distance channels for each amino acid and alternative alleles of the protein expressed by the variant; and

텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising determining the pathogenicity of a variant based at least in part on the tensor.

2. 제1항에 있어서, 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 복셀들의 복셀 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.2. 2. The computer-implemented method of claim 1, further comprising centering the voxel grid of voxels on the alpha-carbon atom of the respective residues of the amino acids.

3. 제2항에 있어서, 단백질 내의 적어도 하나의 변이체 아미노산에 대응하는 특정 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.3. 3. The computer-implemented method of claim 2, further comprising centering the voxel grid on the alpha-carbon atom of a residue of a particular amino acid that corresponds to at least one variant amino acid in the protein.

4. 제3항에 있어서, 텐서에, 특정 아미노산에 선행하는 그러한 아미노산에 대한 복셀별 거리 값들을 방향성 파라미터와 곱함으로써 아미노산의 방향성 및 특정 아미노산의 위치를 인코딩하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.4. 4. The computer-implemented method of claim 3, further comprising encoding, in a tensor, the directionality of an amino acid and the position of a particular amino acid by multiplying voxel-wise distance values for that amino acid preceding that amino acid with a directionality parameter.

5. 제3항에 있어서, 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 구현 방법.5. 4. The computer-implemented method of claim 3, wherein the distances are nearest atom distances from corresponding voxel centers in the voxel grid to the nearest atoms of the corresponding amino acid.

6. 제5항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 구현 방법.6. 6. The computer implemented method of claim 5, wherein the nearest atomic distances are Euclidean distances.

7. 제6항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화되는, 컴퓨터 구현 방법.7. 7. The computer-implemented method of claim 6, wherein nearest atomic distances are normalized by dividing Euclidean distances by the maximum nearest atomic distance.

8. 제5항에 있어서, 아미노산은 알파-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들인, 컴퓨터 구현 방법.8. The computer-implemented method of claim 5, wherein the amino acid has alpha-carbon atoms and the distances are the nearest alpha-carbon atom distances from corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding amino acid.

9. 제5항에 있어서, 아미노산은 베타-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들인, 컴퓨터 구현 방법.9. The computer-implemented method of claim 5, wherein the amino acid has beta-carbon atoms and the distances are the nearest beta-carbon atom distances from corresponding voxel centers to the nearest beta-carbon atoms of the corresponding amino acid.

10. 제5항에 있어서, 아미노산은 백본 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들인, 컴퓨터 구현 방법.10. The computer-implemented method of claim 5, wherein the amino acid has backbone atoms and the distances are the nearest backbone atom distances from corresponding voxel centers to the nearest backbone atoms of the corresponding amino acid.

11. 제5항에 있어서, 아미노산은 측쇄 원자를 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들인, 컴퓨터 구현 방법.11. The computer-implemented method of claim 5, wherein the amino acid has a side chain atom and the distances are the nearest side chain atom distances from corresponding voxel centers to the nearest side chain atoms of the corresponding amino acid.

12. 제3항에 있어서, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하는 단계를 추가로 포함하고, 가장 가까운 원자는 아미노산 및 아미노산의 원자 원소들에 관계없이 선택되는, 컴퓨터 구현 방법.12. 4. The method of claim 3, further comprising encoding in the tensor a nearest atom channel specifying the distance from each voxel to the nearest atom, wherein the nearest atom is an amino acid and regardless of the atomic elements of the amino acid. Selected, computer-implemented method.

13. 제12항에 있어서, 거리는 유클리드 거리인, 컴퓨터 구현 방법.13. 13. The computer-implemented method of claim 12, wherein the distance is a Euclidean distance.

14. 제13항에 있어서, 거리는 유클리드 거리를 최대 거리로 나눔으로써 정규화되는, 컴퓨터 구현 방법.14. 14. The computer-implemented method of claim 13, wherein the distance is normalized by dividing the Euclidean distance by the maximum distance.

15. 제12항에 있어서, 아미노산은 비표준 아미노산을 포함하는, 컴퓨터 구현 방법.15. 13. The computer implemented method of claim 12, wherein the amino acids include non-standard amino acids.

16. 제1항에 있어서, 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않는 원자들을 특정하는 부재자 원자 채널을 추가로 포함하고, 부재자 원자 채널은 원-핫 인코딩되는, 컴퓨터 구현 방법.16. The computer-implemented method of claim 1, wherein the tensor further includes absentee atom channels that specify atoms not found within a predefined radius of the voxel center, and wherein the absentee atom channels are one-hot encoded.

17. 제1항에 있어서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 대안적인 대립유전자의 원-핫 인코딩을 추가로 포함하는, 컴퓨터 구현 방법.17. The computer-implemented method of claim 1, wherein the tensor further comprises a one-hot encoding of alternative alleles encoded voxel-by-voxel in each of the amino acid-wise distance channels.

18. 제1항에 있어서, 텐서는 단백질의 기준 대립유전자를 추가로 포함하는, 컴퓨터 구현 방법.18. The computer-implemented method of claim 1 , wherein the tensor further comprises a reference allele of the protein.

19. 제18항에 있어서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 기준 대립유전자의 원-핫 인코딩을 추가로 포함하는, 컴퓨터 구현 방법.19. 19. The computer-implemented method of claim 18, wherein the tensor further comprises a one-hot encoding of the reference allele encoded voxel-by-voxel in each of the amino acid-wise distance channels.

20. 제1항에 있어서, 텐서는 복수의 종에 걸쳐 아미노산의 보존 수준들을 특정하는 진화 프로파일들을 추가로 포함하는, 컴퓨터 구현 방법.20. The computer-implemented method of claim 1 , wherein the tensor further comprises evolutionary profiles specifying levels of conservation of amino acids across a plurality of species.

21. 제20항에 있어서, 복셀들 각각에 대해,21. The method of claim 20, wherein for each voxel,

아미노산 및 원자 카테고리들에 걸쳐 가장 가까운 원자를 선택하는 단계,selecting the closest atom across amino acid and atom categories;

가장 가까운 원자를 포함하는 아미노산의 잔기에 대한 범아미노산 보존 빈도 서열을 선택하는 단계, 및selecting a pan-amino acid conservation frequency sequence for the residue of the amino acid containing the closest atom, and

범아미노산 보존 빈도 서열을 진화 프로파일들 중 하나로서 이용가능하게 하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.A computer-implemented method, further comprising making the pan-amino acid conservation frequency sequence available as one of the evolutionary profiles.

22. 제21항에 있어서, 범아미노산 보존 빈도 서열은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성되는, 컴퓨터 구현 방법.22. 22. The computer-implemented method of claim 21, wherein pan-amino acid conservation frequency sequences are constructed for specific positions of residues as observed in a plurality of species.

23. 제21항에 있어서, 범아미노산 보존 빈도 서열은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 구현 방법.23. 22. The computer-implemented method of claim 21, wherein the pan-amino acid conservation frequency sequence specifies whether there is a missing conservation frequency for a particular amino acid.

24. 제21항에 있어서, 복셀들 각각에 대해,24. The method of claim 21, wherein for each voxel,

아미노산 중 각자의 것들 내의 각자의 가장 가까운 원자들을 선택하는 단계,Selecting the closest atoms within each of the amino acids,

가장 가까운 원자들을 포함하는 아미노산의 각자의 잔기에 대해 각자의 아미노산당 보존 빈도들을 선택하는 단계, 및selecting conservation frequencies per respective amino acid for each residue of the amino acid containing the closest atoms, and

아미노산당 보존 빈도들을 진화 프로파일들 중 하나로서 이용가능하게 하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.A computer-implemented method, further comprising making available conservation frequencies per amino acid as one of the evolutionary profiles.

25. 제24항에 있어서, 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성되는, 컴퓨터 구현 방법.25. 25. The computer-implemented method of claim 24, wherein conservation frequencies per amino acid are plotted for specific positions of residues as observed in a plurality of species.

26. 제24항에 있어서, 아미노산당 보존 빈도들은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 구현 방법.26. 25. The computer-implemented method of claim 24, wherein the conservation frequencies per amino acid specify whether there is a missing conservation frequency for a particular amino acid.

27. 제1항에 있어서, 텐서는 아미노산에 대한 주석 채널들을 추가로 포함하고, 주석 채널들은 텐서에 원-핫 인코딩되는, 컴퓨터 구현 방법.27. The computer-implemented method of claim 1, wherein the tensor further comprises annotation channels for amino acids, and the annotation channels are one-hot encoded into the tensor.

28. 제27항에 있어서, 주석 채널들은 개시제 메티오닌, 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들인, 컴퓨터 구현 방법.28. 28. The computer-implemented method of claim 27, wherein the annotation channels are molecular processing annotations including initiator methionine, signal, variable peptide, propeptide, chain, and peptide.

29. 제27항에 있어서, 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게, 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일, 모티프, 및 조성 바이어스를 포함하는 영역 주석들인, 컴퓨터 구현 방법.29. 28. The annotation channel of claim 27, wherein the annotated channels are: topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, double coil, motif, and compositional bias. A computer-implemented method, where region annotations include .

30. 제27항에 있어서, 주석 채널들은 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들인, 컴퓨터 구현 방법.30. 28. The computer-implemented method of claim 27, wherein the annotation channels are site annotations including active site, metal binding, binding site, and site.

31. 제27항에 있어서, 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들인, 컴퓨터 구현 방법.31. 28. The computer-implemented method of claim 27, wherein the annotation channels are amino acid modification annotations including non-standard residues, modification residues, lipidation, glycosylation, disulfide bonds, and cross-linking.

32. 제27항에 있어서, 주석 채널들은 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들인, 컴퓨터 구현 방법.32. 28. The computer-implemented method of claim 27, wherein the annotation channels are secondary structure annotations including helices, turns, and beta strands.

33. 제27항에 있어서, 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들인, 컴퓨터 구현 방법.33. 28. The computer-implemented method of claim 27, wherein the annotation channels are experimental information annotations including mutagenesis, sequence uncertainty, sequence conflict, non-adjacent residues, and non-terminal residues.

34. 제1항에 있어서, 텐서는 아미노산의 각자의 구조들의 품질을 특정하는, 아미노산에 대한 구조 신뢰도 채널들을 추가로 포함하는, 컴퓨터 구현 방법.34. The computer-implemented method of claim 1, wherein the tensor further comprises structural confidence channels for amino acids that specify the quality of respective structures of the amino acids.

35. 제34항에 있어서, 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들인, 컴퓨터 구현 방법.35. 35. The computer-implemented method of claim 34, wherein the structural reliability channels are global model quality estimates (GMQEs).

36. 제34항에 있어서, 구조 신뢰도 채널들은 정성적 모델 에너지 분석(QMEAN) 점수들을 포함하는, 컴퓨터 구현 방법.36. 35. The computer-implemented method of claim 34, wherein structural reliability channels include Qualitative Model Energy Analysis (QMEAN) scores.

37. 제34항에 있어서, 구조 신뢰도 채널들은 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들인, 컴퓨터 구현 방법.37. 35. The computer-implemented method of claim 34, wherein structural confidence channels are temperature factors that specify the extent to which residues satisfy the physical constraints of their respective protein structures.

38. 제34항에 있어서, 구조 신뢰도 채널들은 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들인, 컴퓨터 구현 방법.38. 35. The computer-implemented method of claim 34, wherein the structure confidence channels are template structure alignments that specify the extent to which residues of atoms closest to voxels have aligned template structures.

39. 제38항에 있어서, 구조 신뢰도 채널들은 정렬된 주형 구조들의 주형 모델링 점수들인, 컴퓨터 구현 방법.39. 39. The computer-implemented method of claim 38, wherein the structural confidence channels are template modeling scores of aligned template structures.

40. 제39항에 있어서, 구조 신뢰도 채널들은 주형 모델링 점수들 중 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수인, 컴퓨터 구현 방법.40. 40. The computer-implemented method of claim 39, wherein the structural reliability channels are the minimum template modeling scores, the average of the template modeling scores, and the maximum template modeling scores.

41. 제1항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.41. The computer-implemented method of claim 1 , further comprising concatenating per-amino acid distance channels for alpha-carbon atoms voxel-by-voxel with one-hot encoding of alternative alleles to generate a tensor.

42. 제41항에 있어서, 텐서를 생성하기 위해 베타-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.42. 42. The computer-implemented method of claim 41, further comprising concatenating per-amino acid distance channels for beta-carbon atoms voxel-by-voxel with one-hot encoding of alternative alleles to generate a tensor.

43. 제42항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들 및 대안적인 대립유전자의 원-핫 인코딩을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.43. 43. The method of claim 42, wherein the per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms and one-hot encoding of alternative alleles are concatenated voxel-by-voxel to generate the tensor. A computer-implemented method, further comprising the step of:

44. 제43항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도 서열들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.44. 44. The method of claim 43, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and pan-amino acids to generate the tensor. A computer-implemented method, further comprising concatenating the conservation frequency sequences voxel-by-voxel.

45. 제44항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 및 주석 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.45. 45. The method of claim 44, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, pan-amino acid conservation, to generate the tensor. A computer-implemented method, further comprising concatenating the frequency sequences and annotation channels on a voxel-by-voxel basis.

46. 제45항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.46. 46. The method of claim 45, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, pan-amino acid conservation, to generate the tensor. A computer-implemented method, further comprising concatenating the frequency sequences, annotation channels, and structural confidence channels on a voxel-by-voxel basis.

47. 제46항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.47. 47. The method of claim 46, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and amino acids, respectively, to generate the tensor. A computer-implemented method, further comprising the step of concatenating the conservation frequencies per amino acid for voxel-by-voxel.

48. 제47항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.48. 48. The method of claim 47, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, for each amino acid to generate a tensor. A computer-implemented method, further comprising linking conservation frequencies per amino acid for each amino acid, and annotation channels on a voxel-by-voxel basis.

49. 제48항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.49. 49. The method of claim 48, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, for each amino acid to generate a tensor. A computer-implemented method, further comprising concatenating per-amino acid conservation frequencies, annotation channels, and structural confidence channels on a voxel-by-voxel basis.

50. 제49항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 기준 대립유전자의 원-핫 인코딩을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.50. 50. The method of claim 49, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, and reference alleles to generate the tensor. A computer-implemented method, further comprising concatenating one-hot encodings of genes voxel-by-voxel.

51. 제50항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도 서열들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.51. 51. The method of claim 50, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising the step of concatenating the pan-amino acid conservation frequency sequences voxel-wise.

52. 제51항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 및 주석 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.52. 52. The method of claim 51, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising concatenating the one-hot encoding, pan-amino acid conservation frequency sequences, and annotation channels on a voxel-by-voxel basis.

53. 제52항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.53. 53. The method of claim 52, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising concatenating the one-hot encoding, pan-amino acid conservation frequency sequences, annotation channels, and structural confidence channels on a voxel-by-voxel basis.

54. 제53항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.54. 54. The method of claim 53, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising the step of concatenating per-amino acid conservation frequencies for each amino acid on a voxel-by-voxel basis.

55. 제54항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.55. 55. The method of claim 54, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising the step of concatenating the one-hot encoding, per-amino acid conservation frequencies for each amino acid, and annotation channels voxel-by-voxel.

56. 제55항에 있어서, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.56. 56. The method of claim 55, wherein per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, reference allele, to generate a tensor A computer-implemented method, further comprising concatenating per-amino acid conservation frequencies, annotation channels, and structural confidence channels for each amino acid, on a voxel-by-voxel basis.

57. 제1항에 있어서, 아미노산별 거리 채널들이 생성되기 전에 아미노산의 원자들을 회전시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.57. 2. The computer-implemented method of claim 1, further comprising rotating the atoms of the amino acids before the amino acid-specific distance channels are created.

58. 제1항에 있어서, 콘볼루션 신경망에서 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.58. 2. The method of claim 1, using 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, fully connected layer, dropout regularization layer, and softmax classification layer in a convolutional neural network. A computer-implemented method further comprising:

59. 제58항에 있어서, 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들인, 컴퓨터 구현 방법.59. 59. The computer-implemented method of claim 58, wherein 1x1x1 convolutions and 3x3x3 convolutions are three-dimensional convolutions.

60. 제58항에 있어서, 1x1x1 콘볼루션들의 층은 텐서를 처리하고 텐서의 콘볼루션된 표현인 중간 출력을 생성하며, 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리하고 평탄화된 출력을 생성하며, 완전 접속 층은 평탄화된 출력을 처리하고 비정규화된 출력들을 생성하며, 소프트맥스 분류 층은 비정규화된 출력들을 처리하고 변이체가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성하는, 컴퓨터 구현 방법.60. 59. The method of claim 58, wherein a layer of 1x1x1 convolutions processes a tensor and produces an intermediate output that is a convolved representation of the tensor, and a sequence of layers of 3x3x3 convolutions processes an intermediate output and produces a flattened output, and is complete. A computer implementation where the connection layer processes the smoothed output and generates denormalized outputs, and the softmax classification layer processes the denormalized outputs and generates exponentially normalized outputs that identify the likelihood that a variant is pathogenic and benign. method.

61. 제60항에 있어서, 시그모이드 층은 비정규화된 출력들을 처리하고 변이체가 병원성일 가능성을 식별하는 정규화된 출력을 생성하는, 컴퓨터 구현 방법.61. 61. The computer-implemented method of claim 60, wherein the sigmoid layer processes the denormalized outputs and generates a normalized output that identifies the likelihood that the variant is pathogenic.

62. 제60항에 있어서, 복셀들, 원자들, 및 거리들은 3차원 좌표들을 갖고, 텐서는 적어도 3개의 차원들을 갖고, 중간 출력은 적어도 3개의 차원들을 갖고, 평탄화된 출력은 하나의 차원을 갖는, 컴퓨터 구현 방법.62. 61. The method of claim 60, wherein voxels, atoms, and distances have three-dimensional coordinates, the tensor has at least three dimensions, the intermediate output has at least three dimensions, and the smoothed output has one dimension. Computer implementation method.

63. 컴퓨터 구현 방법으로서,63. 1. A computer implemented method, comprising:

단백질 내의 아미노산에 대한 원자 카테고리별 거리 채널들을 저장하는 단계로서,A step of storing distance channels for each atomic category for amino acids in a protein,

아미노산은 복수의 원자 카테고리들에 대한 원자를 갖고,Amino acids have atoms for multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,Each of the distance channels for each atomic category has voxel-specific distance values for voxels within a plurality of voxels,

복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들 내의 원자들까지의 거리들을 특정하는, 저장하는 단계;storing voxel-wise distance values specifying distances from corresponding voxels in the plurality of voxels to atoms in corresponding atomic categories in the plurality of atomic categories;

원자 카테고리별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하는 단계; 및Processing a tensor containing distance channels for each atomic category and alternative alleles of the protein expressed by the variant; and

텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising determining the pathogenicity of a variant based at least in part on the tensor.

64. 제63항에 있어서, 복수의 원자 카테고리들 내의 각자의 원자 카테고리들의 각자의 원자들 상에 복셀들의 복셀 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.64. 64. The computer-implemented method of claim 63, further comprising centering a voxel grid of voxels on respective atoms of respective atomic categories within the plurality of atomic categories.

65. 제64항에 있어서, 단백질 내의 적어도 하나의 변이체 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.65. 65. The computer-implemented method of claim 64, further comprising centering the voxel grid on the alpha-carbon atom of a residue of at least one variant amino acid in the protein.

66. 제65항에 있어서, 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 원자 카테고리들 내의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 구현 방법.66. 66. The computer-implemented method of claim 65, wherein the distances are nearest atomic distances from corresponding voxel centers in a voxel grid to nearest atoms in corresponding atomic categories.

67. 제66항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 구현 방법.67. 67. The computer-implemented method of claim 66, wherein the nearest atomic distances are Euclidean distances.

68. 제67항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화되는, 컴퓨터 구현 방법.68. 68. The computer-implemented method of claim 67, wherein nearest atomic distances are normalized by dividing Euclidean distances by maximum nearest atomic distances.

69. 제68항에 있어서, 거리들은 아미노산 및 아미노산의 원자 카테고리들과 관계없이 복셀 그리드 내의 대응하는 복셀 중심들로부터 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 구현 방법.69. 69. The computer-implemented method of claim 68, wherein the distances are nearest atom distances to the nearest atoms from corresponding voxel centers in the voxel grid, regardless of the amino acid and the atomic categories of the amino acid.

70. 제69항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 구현 방법.70. 70. The computer implemented method of claim 69, wherein the nearest atomic distances are Euclidean distances.

71. 제70항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화되는, 컴퓨터 구현 방법.71. 71. The computer-implemented method of claim 70, wherein nearest atomic distances are normalized by dividing Euclidean distances by maximum nearest atomic distances.

1. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,One. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 저장하는 동작으로서,An operation of storing distance channels for each amino acid for a plurality of amino acids in a protein,

아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,Each of the amino acid-specific distance channels has voxel-specific distance values for voxels within a plurality of voxels,

복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 아미노산 내의 대응하는 아미노산의 원자들까지의 거리들을 특정하는, 저장하는 동작; 아미노산별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하는 동작; 및An operation of storing the voxel-wise distance values, specifying distances from corresponding voxels in the plurality of voxels to atoms of the corresponding amino acid in the plurality of amino acids; Processing a tensor containing distance channels for each amino acid and alternative alleles of the protein expressed by the variant; and

텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 컴퓨터 판독가능 매체들.Computer-readable media configured to configure a computer to perform operations including determining the pathogenicity of a variant based at least in part on the tensor.

2. 제1항에 있어서, 동작들은, 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 복셀들의 복셀 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.2. The computer-readable media of claim 1, wherein the operations further comprise centering the voxel grid of voxels on the alpha-carbon atom of respective residues of an amino acid.

3. 제2항에 있어서, 동작들은, 단백질 내의 적어도 하나의 변이체 아미노산에 대응하는 특정 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.3. 3. The computer-readable media of claim 2, wherein the operations further comprise centering the voxel grid on the alpha-carbon atom of a residue of a particular amino acid that corresponds to at least one variant amino acid in the protein.

4. 제3항에 있어서, 동작들은, 텐서에, 특정 아미노산에 선행하는 그러한 아미노산에 대한 복셀별 거리 값들을 방향성 파라미터와 곱함으로써 아미노산의 방향성 및 특정 아미노산의 위치를 인코딩하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.4. 4. The computer of claim 3, wherein the operations further comprise encoding the directionality of the amino acid and the position of the particular amino acid by multiplying the directionality parameter in the tensor by the voxel-wise distance values for that amino acid preceding that amino acid. Readable media.

5. 제3항에 있어서, 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 판독가능 매체들.5. 4. The computer-readable medium of claim 3, wherein the distances are nearest atomic distances from corresponding voxel centers in a voxel grid to nearest atoms of the corresponding amino acid.

6. 제5항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 판독가능 매체들.6. 6. The computer-readable medium of claim 5, wherein the nearest atomic distances are Euclidean distances.

7. 제6항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.7. 7. The computer-readable medium of claim 6, wherein nearest atomic distances are normalized by dividing Euclidean distances by the maximum nearest atomic distance.

8. 제5항에 있어서, 아미노산은 알파-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들인, 컴퓨터 판독가능 매체들.8. 6. The computer readable medium of claim 5, wherein the amino acid has alpha-carbon atoms and the distances are nearest alpha-carbon atom distances from corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding amino acid. .

9. 제5항에 있어서, 아미노산은 베타-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들인, 컴퓨터 판독가능 매체들.9. The computer readable medium of claim 5, wherein the amino acid has beta-carbon atoms and the distances are nearest beta-carbon atom distances from corresponding voxel centers to the nearest beta-carbon atoms of the corresponding amino acid. .

10. 제5항에 있어서, 아미노산은 백본 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들인, 컴퓨터 판독가능 매체들.10. The computer-readable medium of claim 5, wherein the amino acid has backbone atoms and the distances are nearest backbone atom distances from corresponding voxel centers to the nearest backbone atoms of the corresponding amino acid.

11. 제5항에 있어서, 아미노산은 측쇄 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들인, 컴퓨터 판독가능 매체들.11. The computer-readable medium of claim 5, wherein the amino acid has side chain atoms, and the distances are nearest side chain atom distances from corresponding voxel centers to the nearest side chain atoms of the corresponding amino acid.

12. 제3항에 있어서, 동작들은, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하는 동작을 추가로 포함하고, 가장 가까운 원자는 아미노산 및 아미노산의 원자 원소들에 관계없이 선택되는, 컴퓨터 판독가능 매체들.12. 4. The method of claim 3, wherein the operations further comprise encoding, in the tensor, a nearest atom channel specifying the distance from each voxel to the nearest atom, wherein the nearest atom is an amino acid and atomic elements of the amino acid. Regardless of computer readable media selected.

13. 제12항에 있어서, 거리는 유클리드 거리인, 컴퓨터 판독가능 매체들.13. 13. The computer-readable media of claim 12, wherein the distance is a Euclidean distance.

14. 제13항에 있어서, 거리는 유클리드 거리를 최대 거리로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.14. 14. The computer-readable medium of claim 13, wherein the distance is normalized by dividing the Euclidean distance by the maximum distance.

15. 제12항에 있어서, 아미노산은 비표준 아미노산을 포함하는, 컴퓨터 판독가능 매체들.15. 13. The computer readable media of claim 12, wherein the amino acids comprise non-standard amino acids.

16. 제1항에 있어서, 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않는 원자들을 특정하는 부재자 원자 채널을 추가로 포함하고, 부재자 원자 채널은 원-핫 인코딩되는, 컴퓨터 판독가능 매체들.16. The computer readable media of claim 1, wherein the tensor further comprises an absent atom channel that specifies atoms not found within a predefined radius of the voxel center, and the absent atom channel is one-hot encoded.

17. 제1항에 있어서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 대안적인 대립유전자의 원-핫 인코딩을 추가로 포함하는, 컴퓨터 판독가능 매체들.17. The computer-readable media of claim 1 , wherein the tensor further comprises a one-hot encoding of alternative alleles encoded voxel-by-voxel in each of the amino acid-wise distance channels.

18. 제1항에 있어서, 텐서는 단백질의 기준 대립유전자를 추가로 포함하는, 컴퓨터 판독가능 매체들.18. The computer-readable media of claim 1 , wherein the tensor further comprises a reference allele of the protein.

19. 제18항에 있어서, 텐서는 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 기준 대립유전자의 원-핫 인코딩을 추가로 포함하는, 컴퓨터 판독가능 매체들.19. 19. The computer-readable medium of claim 18, wherein the tensor further comprises a one-hot encoding of the reference allele encoded voxel-by-voxel in each of the amino acid-wise distance channels.

20. 제1항에 있어서, 텐서는 복수의 종에 걸쳐 아미노산의 보존 수준들을 특정하는 진화 프로파일들을 추가로 포함하는, 컴퓨터 판독가능 매체들.20. The computer-readable media of claim 1 , wherein the tensor further comprises evolutionary profiles specifying levels of conservation of amino acids across a plurality of species.

21. 제20항에 있어서, 동작들은, 복셀들 각각에 대해,21. 21. The method of claim 20, wherein the operations are: for each voxel,

아미노산 및 원자 카테고리들에 걸쳐 가장 가까운 원자를 선택하는 동작,Selecting the closest atom across amino acid and atomic categories;

가장 가까운 원자를 포함하는 아미노산의 잔기에 대한 범아미노산 보존 빈도 서열을 선택하는 동작, 및selecting a pan-amino acid conservation frequency sequence for the residue of the amino acid containing the closest atom, and

범아미노산 보존 빈도 서열을 진화 프로파일들 중 하나로서 이용가능하게 하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.Computer-readable media further comprising making available a pan-amino acid conservation frequency sequence as one of the evolutionary profiles.

22. 제21항에 있어서, 범아미노산 보존 빈도 서열은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성되는, 컴퓨터 판독가능 매체들.22. 22. The computer readable medium of claim 21, wherein pan-amino acid conservation frequency sequences are constructed for specific positions of residues as observed in a plurality of species.

23. 제21항에 있어서, 범아미노산 보존 빈도 서열은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 판독가능 매체들.23. 22. The computer-readable medium of claim 21, wherein the pan-amino acid conservation frequency sequence specifies whether there is a missing conservation frequency for a particular amino acid.

24. 제21항에 있어서, 동작들은, 복셀들 각각에 대해,24. 22. The method of claim 21, wherein the operations are: for each voxel,

아미노산 중 각자의 것들 내의 각자의 가장 가까운 원자들을 선택하는 동작,The act of selecting the closest atoms within each of the amino acids,

가장 가까운 원자들을 포함하는 아미노산의 각자의 잔기에 대해 각자의 아미노산당 보존 빈도들을 선택하는 동작, 및selecting conservation frequencies per amino acid for each residue of the amino acid containing the closest atoms, and

아미노산당 보존 빈도들을 진화 프로파일들 중 하나로서 이용가능하게 하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.Computer-readable media further comprising making available conservation frequencies per amino acid as one of the evolutionary profiles.

25. 제24항에 있어서, 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성되는, 컴퓨터 판독가능 매체들.25. 25. The computer-readable medium of claim 24, wherein conservation frequencies per amino acid are plotted for specific positions of residues as observed in a plurality of species.

26. 제24항에 있어서, 아미노산당 보존 빈도들은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 판독가능 매체들.26. 25. The computer-readable medium of claim 24, wherein the conservation frequencies per amino acid specify whether there is a missing conservation frequency for a particular amino acid.

27. 제1항에 있어서, 텐서는 아미노산에 대한 주석 채널들을 추가로 포함하고, 주석 채널들은 텐서에 원-핫 인코딩되는, 컴퓨터 판독가능 매체들.27. 2. The computer-readable medium of claim 1, wherein the tensor further comprises annotation channels for amino acids, and the annotation channels are one-hot encoded into the tensor.

28. 제27항에 있어서, 주석 채널들은 개시제 메티오닌, 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들인, 컴퓨터 판독가능 매체들.28. 28. The computer readable medium of claim 27, wherein the annotation channels are molecular processing annotations including initiator methionine, signal, variable peptide, propeptide, chain, and peptide.

29. 제27항에 있어서, 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게, 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일, 모티프, 및 조성 바이어스를 포함하는 영역 주석들인, 컴퓨터 판독가능 매체들.29. 28. The annotation channel of claim 27, wherein the annotated channels are: topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, double coil, motif, and compositional bias. Computer-readable media, region annotations containing.

30. 제27항에 있어서, 주석 채널들은 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들인, 컴퓨터 판독가능 매체들.30. 28. The computer-readable medium of claim 27, wherein the annotation channels are site annotations including active site, metal binding, binding site, and site.

31. 제27항에 있어서, 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들인, 컴퓨터 판독가능 매체들.31. 28. The computer-readable medium of claim 27, wherein the annotation channels are amino acid modification annotations including non-standard residues, modification residues, lipidation, glycosylation, disulfide bonds, and cross-linking.

32. 제27항에 있어서, 주석 채널들은 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들인, 컴퓨터 판독가능 매체들.32. 28. The computer-readable medium of claim 27, wherein the annotation channels are secondary structure annotations including helices, turns, and beta strands.

33. 제27항에 있어서, 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들인, 컴퓨터 판독가능 매체들.33. 28. The computer readable medium of claim 27, wherein the annotation channels are experimental information annotations including mutagenesis, sequence uncertainty, sequence conflict, non-adjacent residues, and non-terminal residues.

34. 제1항에 있어서, 텐서는 아미노산의 각자의 구조들의 품질을 특정하는, 아미노산에 대한 구조 신뢰도 채널들을 추가로 포함하는, 컴퓨터 판독가능 매체들.34. The computer readable media of claim 1, wherein the tensor further comprises structural confidence channels for amino acids that specify the quality of respective structures of the amino acids.

35. 제34항에 있어서, 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들인, 컴퓨터 판독가능 매체들.35. 35. The computer-readable medium of claim 34, wherein the structural reliability channels are global model quality estimates (GMQEs).

36. 제34항에 있어서, 구조 신뢰도 채널들은 정성적 모델 에너지 분석(QMEAN) 점수들을 포함하는, 컴퓨터 판독가능 매체들.36. 35. The computer-readable medium of claim 34, wherein the structural reliability channels include Qualitative Model Energy Analysis (QMEAN) scores.

37. 제34항에 있어서, 구조 신뢰도 채널들은 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들인, 컴퓨터 판독가능 매체들.37. 35. The computer-readable medium of claim 34, wherein the structural confidence channels are temperature parameters that specify the extent to which residues satisfy the physical constraints of respective protein structures.

38. 제34항에 있어서, 구조 신뢰도 채널들은 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들인, 컴퓨터 판독가능 매체들.38. 35. The computer-readable medium of claim 34, wherein the structure confidence channels are template structure alignments that specify the extent to which residues of atoms closest to voxels have aligned template structures.

39. 제38항에 있어서, 구조 신뢰도 채널들은 정렬된 주형 구조들의 주형 모델링 점수들인, 컴퓨터 판독가능 매체들.39. 39. The computer-readable medium of claim 38, wherein the structural confidence channels are template modeling scores of aligned template structures.

40. 제39항에 있어서, 구조 신뢰도 채널들은 주형 모델링 점수들 중 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수인, 컴퓨터 판독가능 매체들.40. 40. The computer readable medium of claim 39, wherein the structural confidence channels are the minimum template modeling scores, the average of the template modeling scores, and the maximum template modeling scores.

41. 제1항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.41. 2. The computer-readable method of claim 1, wherein the operations further comprise concatenating per-amino acid distance channels for alpha-carbon atoms voxel-by-voxel with one-hot encoding of alternative alleles to generate a tensor. media.

42. 제41항에 있어서, 동작들은, 텐서를 생성하기 위해 베타-탄소 원자들에 대한 아미노산별 거리 채널들을 대안적인 대립유전자의 원-핫 인코딩과 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.42. 42. The computer-readable method of claim 41, wherein the operations further comprise concatenating per-amino acid distance channels for beta-carbon atoms voxel-by-voxel with one-hot encoding of alternative alleles to generate a tensor. media.

43. 제42항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들 및 대안적인 대립유전자의 원-핫 인코딩을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.43. 43. The method of claim 42, wherein the operations comprise one-hot encoding of per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, and alternative alleles to generate a tensor. Computer-readable media further comprising a voxel-by-voxel concatenation operation.

44. 제43항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도 서열들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.44. 44. The method of claim 43, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; and concatenating pan-amino acid conservation frequency sequences voxel-by-voxel.

45. 제44항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 및 주석 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.45. 45. The method of claim 44, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; Computer-readable media, further comprising linking pan-amino acid conservation frequency sequences, and annotation channels on a voxel-by-voxel basis.

46. 제45항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.46. 46. The method of claim 45, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising concatenating pan-amino acid conservation frequency sequences, annotation channels, and structural confidence channels on a voxel-by-voxel basis.

47. 제46항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.47. 47. The method of claim 46, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; and concatenating conservation frequencies per amino acid for each amino acid on a voxel-by-voxel basis.

48. 제47항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.48. 48. The method of claim 47, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; Computer-readable media further comprising linking per-amino acid conservation frequencies for each amino acid, and annotation channels on a voxel-by-voxel basis.

49. 제48항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.49. 49. The method of claim 48, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising concatenating per-amino acid conservation frequencies, annotation channels, and structural confidence channels for each amino acid on a voxel-by-voxel basis.

50. 제49항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 및 기준 대립유전자의 원-핫 인코딩을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.50. 50. The method of claim 49, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; and concatenating the one-hot encoding of the reference allele on a voxel-by-voxel basis.

51. 제50항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 범아미노산 보존 빈도 서열들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.51. 51. The method of claim 50, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; Computer-readable media further comprising one-hot encoding of a reference allele, and concatenating pan-amino acid conservation frequency sequences voxel-by-voxel.

52. 제51항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 및 주석 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.52. 52. The method of claim 51, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising concatenating one-hot encoding of a reference allele, pan-amino acid conservation frequency sequences, and annotation channels on a voxel-by-voxel basis.

53. 제52항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 범아미노산 보존 빈도 서열들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.53. 53. The method of claim 52, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising concatenating one-hot encoding of a reference allele, pan-amino acid conservation frequency sequences, annotation channels, and structural confidence channels on a voxel-by-voxel basis.

54. 제53항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 및 아미노산 각각에 대한 아미노산당 보존 빈도들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.54. 54. The method of claim 53, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; Computer-readable media further comprising one-hot encoding of a reference allele, and concatenating per-amino acid conservation frequencies for each amino acid voxel-by-voxel.

55. 제54항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 및 주석 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.55. 55. The method of claim 54, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising one-hot encoding of a reference allele, per-amino acid conservation frequencies for each amino acid, and concatenating annotation channels on a voxel-by-voxel basis.

56. 제55항에 있어서, 동작들은, 텐서를 생성하기 위해 알파-탄소 원자들에 대한 아미노산별 거리 채널들, 베타-탄소 원자들에 대한 아미노산별 거리 채널들, 대안적인 대립유전자의 원-핫 인코딩, 기준 대립유전자의 원-핫 인코딩, 아미노산 각각에 대한 아미노산당 보존 빈도들, 주석 채널들, 및 구조 신뢰도 채널들을 복셀별로 연결하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.56. 56. The method of claim 55, wherein the operations include: per-amino acid distance channels for alpha-carbon atoms, per-amino acid distance channels for beta-carbon atoms, one-hot encoding of alternative alleles, to generate a tensor; The computer-readable media further comprising concatenating, on a voxel-by-voxel basis, one-hot encoding of a reference allele, conservation frequencies per amino acid for each amino acid, annotation channels, and structural confidence channels.

57. 제1항에 있어서, 동작들은, 아미노산별 거리 채널들이 생성되기 전에 아미노산의 원자들을 회전시키는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.57. The computer-readable media of claim 1, wherein the operations further include rotating atoms of amino acids before the per-amino acid distance channels are created.

58. 제1항에 있어서, 동작들은, 콘볼루션 신경망에서 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.58. The method of claim 1, wherein the operations comprise 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, fully connected layer, dropout regularization layer, and softmax classification layer in a convolutional neural network. Computer-readable media further comprising an operation of using.

59. 제58항에 있어서, 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들인, 컴퓨터 판독가능 매체들.59. 59. The computer-readable medium of claim 58, wherein 1x1x1 convolutions and 3x3x3 convolutions are three-dimensional convolutions.

60. 제58항에 있어서, 1x1x1 콘볼루션들의 층은 텐서를 처리하고 텐서의 콘볼루션된 표현인 중간 출력을 생성하며, 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리하고 평탄화된 출력을 생성하며, 완전 접속 층은 평탄화된 출력을 처리하고 비정규화된 출력들을 생성하며, 소프트맥스 분류 층은 비정규화된 출력들을 처리하고 변이체가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성하는, 컴퓨터 판독가능 매체들.60. 59. The method of claim 58, wherein a layer of 1x1x1 convolutions processes a tensor and produces an intermediate output that is a convolved representation of the tensor, and a sequence of layers of 3x3x3 convolutions processes an intermediate output and produces a flattened output, and is complete. The connection layer processes the smoothed output and generates denormalized outputs, and the softmax classification layer processes the denormalized outputs and generates exponentially normalized outputs that identify the likelihood that a variant is pathogenic and benign. Available media.

61. 제60항에 있어서, 시그모이드 층은 비정규화된 출력들을 처리하고 변이체가 병원성일 가능성을 식별하는 정규화된 출력을 생성하는, 컴퓨터 판독가능 매체들.61. 61. The computer-readable medium of claim 60, wherein the sigmoid layer processes denormalized outputs and generates normalized output that identifies the likelihood that a variant is pathogenic.

62. 제60항에 있어서, 복셀들, 원자들, 및 거리들은 3차원 좌표들을 갖고, 텐서는 적어도 3개의 차원들을 갖고, 중간 출력은 적어도 3개의 차원들을 갖고, 평탄화된 출력은 하나의 차원을 갖는, 컴퓨터 판독가능 매체들.62. 61. The method of claim 60, wherein voxels, atoms, and distances have three-dimensional coordinates, the tensor has at least three dimensions, the intermediate output has at least three dimensions, and the smoothed output has one dimension. Computer readable media.

63. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,63. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질 내의 아미노산에 대한 원자 카테고리별 거리 채널들을 저장하는 동작으로서,An operation to store distance channels for each atomic category for amino acids in a protein,

아미노산은 복수의 원자 카테고리들에 대한 원자를 갖고,Amino acids have atoms for multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,Each of the distance channels for each atomic category has voxel-specific distance values for voxels within a plurality of voxels,

복셀별 거리 값들은 복수의 복셀들 내의 대응하는 복셀들로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들 내의 원자들까지의 거리들을 특정하는, 저장하는 동작;storing the voxel-wise distance values, specifying distances from corresponding voxels in the plurality of voxels to atoms in corresponding atomic categories in the plurality of atomic categories;

원자 카테고리별 거리 채널들 및 변이체에 의해 발현된 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하는 동작; 및An operation to process a tensor containing distance channels for each atomic category and alternative alleles of the protein expressed by the variant; and

텐서에 적어도 부분적으로 기초하여 변이체의 병원성을 결정하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 컴퓨터 판독가능 매체들.Computer-readable media configured to configure a computer to perform operations including determining the pathogenicity of a variant based at least in part on the tensor.

64. 제63항에 있어서, 동작들은, 복수의 원자 카테고리들 내의 각자의 원자 카테고리들의 각자의 원자들 상에 복셀들의 복셀 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.64. 64. The computer-readable media of claim 63, wherein the operations further comprise centering a voxel grid of voxels on respective atoms of respective atomic categories within the plurality of atomic categories.

65. 제64항에 있어서, 동작들은, 단백질 내의 적어도 하나의 변이체 아미노산의 잔기의 알파-탄소 원자 상에 복셀 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.65. 65. The computer-readable media of claim 64, wherein the operations further comprise centering the voxel grid on the alpha-carbon atom of a residue of at least one variant amino acid in the protein.

66. 제65항에 있어서, 거리들은 복셀 그리드 내의 대응하는 복셀 중심들로부터 대응하는 원자 카테고리들 내의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 판독가능 매체들.66. 66. The computer-readable medium of claim 65, wherein the distances are nearest atomic distances from corresponding voxel centers in a voxel grid to nearest atoms in corresponding atomic categories.

67. 제66항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 판독가능 매체들.67. 67. The computer readable medium of claim 66, wherein the nearest atomic distances are Euclidean distances.

68. 제67항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.68. 68. The computer-readable medium of claim 67, wherein nearest atomic distances are normalized by dividing Euclidean distances by maximum nearest atomic distances.

69. 제68항에 있어서, 거리들은 아미노산 및 아미노산의 원자 카테고리들과 관계없이 복셀 그리드 내의 대응하는 복셀 중심들로부터 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 판독가능 매체들.69. 69. The computer-readable medium of claim 68, wherein the distances are nearest atomic distances to the nearest atoms from corresponding voxel centers in a voxel grid, regardless of the amino acid and the atomic categories of the amino acid.

70. 제69항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 판독가능 매체들.70. 70. The computer-readable medium of claim 69, wherein the nearest atomic distances are Euclidean distances.

71. 제70항에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리들로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.71. The computer-readable medium of clause 70, wherein nearest atomic distances are normalized by dividing Euclidean distances by maximum nearest atomic distances.

특정 구현예들 2Specific Implementations 2

일부 구현예들에서, 시스템은, 단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 복셀화기를 포함한다. 아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖는다. 3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정한다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 아미노산을 인코딩하는 대안적인 대립유전자 인코더를 추가로 포함한다. 대안적인 대립유전자 아미노산은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현이다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 진화적 보존 서열을 인코딩하는 진화적 보존 인코더를 추가로 포함한다. 진화적 보존 서열은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현일 수 있다. 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택될 수 있다. 시스템은 대안적인 대립유전자 아미노산 및 각자의 진화적 보존 서열들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하도록 구성된 콘볼루션 신경망을 추가로 포함한다. 콘볼루션 신경망은 또한, 텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하도록 구성될 수 있다.In some embodiments, the system includes a voxelizer that accesses the three-dimensional structure of the protein's reference amino acid sequence and generates amino acid-specific distance channels by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis. Includes. Each of the distance channels for each amino acid has a 3D distance value for each voxel in the 3D grid of voxels. The three-dimensional distance value specifies the distance from the corresponding voxel in the three-dimensional grid of voxels to the atoms of the corresponding reference amino acid in the reference amino acid sequence. The system further includes an alternative allelic encoder that encodes an alternative allelic amino acid for each voxel in the three-dimensional grid of voxels. Alternative allelic amino acids are three-dimensional representations of one-hot encoding of variant amino acids expressed by variant nucleotides. The system further includes an evolutionary conservation encoder that encodes an evolutionary conservation sequence in each voxel within the three-dimensional grid of voxels. Evolutionary conserved sequences can be a three-dimensional representation of amino acid-specific conservation frequencies across multiple species. Amino acid-specific conservation frequencies can be selected based on amino acid proximity to the corresponding voxel. The system further includes a convolutional neural network configured to apply three-dimensional convolutions to a tensor containing alternative allelic amino acids and per-amino acid distance channels encoded with their respective evolutionarily conserved sequences. The convolutional neural network may also be configured to determine the pathogenicity of variant nucleotides based at least in part on the tensor.

복셀화기는 기준 아미노산 서열 내의 기준 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정할 수 있다. 복셀화기는 변이체 아미노산에 위치된 특정 기준 아미노산의 잔기의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정할 수 있다.The voxelizer can center a three-dimensional grid of voxels on the alpha-carbon atoms of the respective residues of the reference amino acids in the reference amino acid sequence. The voxelizer can center a three-dimensional grid of voxels on the alpha-carbon atom of a residue of a particular reference amino acid located on the variant amino acid.

일부 구현예들에서, 시스템은, 텐서에, 특정 기준 아미노산에 선행하는 그러한 기준 아미노산에 대한 3차원 거리 값들을 방향성 파라미터와 곱함으로써 기준 아미노산 서열 내의 기준 아미노산의 방향성 및 특정 기준 아미노산의 위치를 인코딩하도록 추가로 구성될 수 있다. 거리들은 복셀들의 3차원 그리드 내의 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들일 수 있다. 가장 가까운 원자 거리들은 유클리드 거리들일 수 있고, 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화될 수 있다.In some embodiments, the system is configured to encode the orientation of a reference amino acid within a reference amino acid sequence and the position of a particular reference amino acid by multiplying a tensor with an orientation parameter by three-dimensional distance values for that reference amino acid preceding that reference amino acid. It may be configured additionally. The distances may be the nearest atom distances from corresponding voxel centers in a three-dimensional grid of voxels to the nearest atoms of the corresponding reference amino acid. The nearest atom distances may be Euclidean distances, and may be normalized by dividing the Euclidean distances by the maximum nearest atom distance.

일부 구현예들에서, 기준 아미노산은 알파-탄소 원자들을 가질 수 있고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들일 수 있다. 일부 구현예들에서, 기준 아미노산은 베타-탄소 원자들을 가질 수 있고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들일 수 있다. 일부 구현예들에서, 기준 아미노산은 백본 원자들을 가질 수 있고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들일 수 있다. 일부 구현예들에서, 아미노산은 측쇄 원자들을 가질 수 있고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들일 수 있다.In some embodiments, a reference amino acid can have alpha-carbon atoms, and the distances can be the nearest alpha-carbon atom distances from the corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding reference amino acid. . In some embodiments, a reference amino acid can have beta-carbon atoms, and the distances can be the closest beta-carbon atom distances from corresponding voxel centers to the closest beta-carbon atoms of the corresponding reference amino acid. . In some embodiments, a reference amino acid can have backbone atoms, and the distances can be the closest backbone atom distances from corresponding voxel centers to the closest backbone atoms of the corresponding reference amino acid. In some embodiments, an amino acid can have side chain atoms, and the distances can be the closest side chain atom distances from corresponding voxel centers to the closest side chain atoms of the corresponding reference amino acid.

일부 구현예들에서, 시스템은, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하도록 추가로 구성될 수 있다. 가장 가까운 원자는 아미노산 및 아미노산의 원자 원자 원소들과 관계없이 선택될 수 있다. 거리는 유클리드 거리일 수 있고, 유클리드 거리를 최대 거리로 나눔으로써 정규화될 수 있다. 아미노산은 비표준 아미노산을 포함할 수 있다. 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않은 원자들을 특정하는 부재자 원자 채널을 추가로 포함할 수 있다. 부재자 원자 채널은 원-핫 인코딩될 수 있다.In some implementations, the system can be further configured to encode, in the tensor, a nearest atom channel that specifies the distance from each voxel to the nearest atom. The closest atom may be selected regardless of the amino acid and the atomic atomic elements of the amino acid. The distance may be a Euclidean distance and may be normalized by dividing the Euclidean distance by the maximum distance. Amino acids may include non-standard amino acids. The tensor may further include an absent atom channel that specifies atoms not found within a predefined radius of the voxel center. Absentee atomic channels can be one-hot encoded.

일부 구현예들에서, 시스템은 아미노산 위치 단위로 각각의 3차원 거리 값에 기준 대립유전자 아미노산을 복셀별로 인코딩하는 기준 대립유전자 인코더를 추가로 포함할 수 있다. 기준 대립유전자 아미노산은 기준 아미노산 서열의 원-핫 인코딩의 3차원 표현일 수 있다. 아미노산 특정적 보존 빈도들은 복수의 종에 걸친 각자의 아미노산의 보존 수준들을 특정할 수 있다.In some implementations, the system may further include a reference allele encoder that encodes, voxel-by-voxel, the reference allele amino acid at each three-dimensional distance value on a per amino acid position basis. The reference allele amino acid may be a three-dimensional representation of a one-hot encoding of the reference amino acid sequence. Amino acid-specific conservation frequencies can specify the conservation levels of individual amino acids across multiple species.

일부 구현예들에서, 진화적 보존 인코더는 기준 아미노산 및 원자 카테고리들에 걸쳐 대응하는 복셀에 가장 가까운 원자를 선택할 수 있고, 가장 가까운 원자를 포함하는 기준 아미노산의 잔기에 대한 범아미노산 보존 빈도들을 선택할 수 있고, 진화적 보존 서열로서 범아미노산 보존 빈도들의 3차원 표현을 사용할 수 있다. 범아미노산 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성될 수 있다. 범아미노산 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정할 수 있다.In some embodiments, an evolutionary conservation encoder can select the atom closest to the corresponding voxel across a reference amino acid and atom categories, and can select pan-amino acid conservation frequencies for residues of the reference amino acid containing the closest atom. And, as an evolutionary conserved sequence, a three-dimensional representation of pan-amino acid conservation frequencies can be used. Pan-amino acid conservation frequencies can be plotted for specific positions of residues as observed in multiple species. Pan-amino acid conservation frequencies can specify whether there is a missing conservation frequency for a particular reference amino acid.

일부 구현예들에서, 진화적 보존 인코더는 기준 아미노산 중 각자의 것들 내의 대응하는 복셀에 대해 각자의 가장 가까운 원자들을 선택할 수 있고, 가장 가까운 원자들을 포함하는 기준 아미노산의 각자의 잔기들에 대한 각자의 아미노산당 보존 빈도들을 선택할 수 있고, 진화적 보존 서열로서 아미노산당 보존 빈도들의 3차원 표현을 사용할 수 있다. 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성될 수 있다. 아미노산당 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정할 수 있다.In some embodiments, the evolutionary conservation encoder can select the respective closest atoms for the corresponding voxel within each of the reference amino acids, and select the respective closest atoms for the respective residues of the reference amino acids containing the closest atoms. Conservation frequencies per amino acid can be selected, and a three-dimensional representation of the conservation frequencies per amino acid can be used as an evolutionary conserved sequence. Conservation frequencies per amino acid can be plotted for specific positions of residues as observed in multiple species. Conservation frequencies per amino acid can specify whether there is a missing conservation frequency for a particular reference amino acid.

일부 구현예들에서, 시스템은 각각의 3차원 거리 값에 하나 이상의 주석 채널들을 복셀별로 인코딩하는 주석 인코더를 추가로 포함할 수 있다. 주석 채널들은 잔기 주석들의 원-핫 인코딩의 3차원 표현들일 수 있고, 개시제 메티오닌, 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들일 수 있다. 일부 구현예들에서, 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게, 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일, 모티프, 및 조성 바이어스를 포함하는 영역 주석들일 수 있거나, 또는 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들일 수 있다. 일부 구현예들에서, 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들일 수 있거나, 또는 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들일 수 있다. 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들일 수 있다.In some implementations, the system may further include an annotation encoder that encodes one or more annotation channels on a voxel-by-voxel basis for each 3-D distance value. Annotation channels can be three-dimensional representations of one-hot encoding of residue annotations and molecular processing annotations including initiator methionine, signal, variant peptide, propeptide, chain, and peptide. In some embodiments, annotation channels include topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, double coil, motif, and compositional bias. may be region annotations containing, or may be site annotations containing active site, metal binding, binding site, and site. In some embodiments, the annotation channels can be amino acid modification annotations including non-standard residues, modified residues, lipidations, glycosylation, disulfide bonds, and cross-links, or 2-nucleotide modifications including helices, turns, and beta strands. These may be secondary structural annotations. Annotation channels can be experimental information annotations including mutagenesis, sequence uncertainty, sequence conflict, non-adjacent residues, and non-terminal residues.

일부 구현예들에서, 시스템은 각각의 3차원 거리 값에 하나 이상의 구조 신뢰도 채널들을 복셀별로 인코딩하는 구조 신뢰도 인코더를 추가로 포함할 수 있다. 구조 신뢰도 채널들은 각자의 잔차 구조들의 품질을 특정하는 신뢰도 점수들의 3차원 표현들일 수 있다. 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들일 수 있거나, 정성적 모델 에너지 분석(QMEAN) 점수들일 수 있거나, 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들일 수 있거나, 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들일 수 있거나, 정렬된 주형 구조들의 주형 모델링 점수들일 수 있거나, 또는 주형 모델링 점수들 중 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수일 수 있다.In some implementations, the system may further include a structural reliability encoder that encodes one or more structural reliability channels on a voxel-by-voxel basis for each three-dimensional distance value. Structural reliability channels may be three-dimensional representations of reliability scores that specify the quality of the respective residual structures. Structural confidence channels can be global model quality estimates (GMQEs), qualitative model energy analysis (QMEAN) scores, temperature factors that specify the extent to which residues satisfy the physical constraints of the respective protein structures, or It can be template structure alignments that specify the extent to which the residues of the atoms closest to the voxel have aligned template structures, or template modeling scores of aligned template structures, or minimum template modeling scores of the template modeling scores, It may be an average of the template modeling scores, and a maximum template modeling score among the template modeling scores.

일부 구현예들에서, 시스템은 아미노산별 거리 채널들이 생성되기 전에 원자들을 회전시키는 원자 회전 엔진을 추가로 포함할 수 있다.In some implementations, the system may further include an atom rotation engine that rotates the atoms before amino acid-specific distance channels are created.

콘볼루션 신경망은 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용할 수 있다. 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들일 수 있다. 일부 구현예들에서, 1x1x1 콘볼루션들의 층은 텐서를 처리할 수 있고, 텐서의 콘볼루션된 표현인 중간 출력을 생성할 수 있다. 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리할 수 있고, 평탄화된 출력을 생성할 수 있다. 완전 접속 층은 평탄화된 출력을 처리할 수 있고, 비정규화된 출력들을 생성할 수 있다. 소프트맥스 분류 층은 비정규화된 출력들을 처리할 수 있고, 변이체 뉴클레오티드가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성할 수 있다.A convolutional neural network may use 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, a fully connected layer, a dropout regularization layer, and a softmax classification layer. 1x1x1 convolutions and 3x3x3 convolutions may be three-dimensional convolutions. In some implementations, a layer of 1x1x1 convolutions can process a tensor and produce an intermediate output that is a convolved representation of the tensor. A sequence of layers of 3x3x3 convolutions can handle the intermediate output and produce a smoothed output. The fully connected layer can process smoothed output and produce denormalized outputs. The softmax classification layer can process denormalized outputs and produce exponentially normalized outputs that identify the likelihood that a variant nucleotide is pathogenic and benign.

일부 구현예들에서, 시그모이드 층은 비정규화된 출력들을 처리할 수 있고, 변이체 뉴클레오티드가 병원성일 가능성을 식별하는 정규화된 출력을 생성할 수 있다. 콘볼루션 신경망은 주의 기반 신경망일 수 있다. 텐서는 기준 대립유전자 아미노산으로 추가로 인코딩된 아미노산별 거리 채널들을 포함할 수 있거나, 주석 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함할 수 있거나, 또는 구조 신뢰도 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함할 수 있다.In some implementations, the sigmoid layer can process denormalized outputs and generate normalized output that identifies the likelihood that a variant nucleotide is pathogenic. A convolutional neural network may be an attention-based neural network. The tensor may contain amino acid-specific distance channels further encoded with reference allelic amino acids, or may contain amino acid-specific distance channels further encoded with annotation channels, or amino acids further encoded with structural confidence channels. Can include star distance channels.

일부 구현예들에서, 시스템은, 단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 복셀화기를 포함할 수 있다. 원자들은 아미노산의 원자 원소들을 특정하는 복수의 원자 카테고리들에 걸쳐 있다. 원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖는다. 3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정한다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 아미노산을 인코딩하는 대안적인 대립유전자 인코더를 추가로 포함한다. 대안적인 대립유전자 아미노산은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현이다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 진화적 보존 서열을 인코딩하는 진화적 보존 인코더를 추가로 포함한다. 진화적 보존 서열은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현일 수 있다. 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택될 수 있다. 시스템은 대안적인 대립유전자 아미노산 및 각자의 진화적 보존 서열들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하도록, 그리고 텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하도록 구성된 콘볼루션 신경망을 추가로 포함한다.In some embodiments, the system includes a voxelizer that accesses the three-dimensional structure of a reference amino acid sequence of a protein and generates distance channels by atom category by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis. may include. The atoms span multiple atomic categories that specify the atomic elements of amino acids. Each of the distance channels for each atomic category has a 3D distance value for each voxel in the 3D grid of voxels. The three-dimensional distance value specifies the distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of corresponding atomic categories in a plurality of atomic categories. The system further includes an alternative allelic encoder that encodes an alternative allelic amino acid for each voxel in the three-dimensional grid of voxels. Alternative allelic amino acids are three-dimensional representations of one-hot encoding of variant amino acids expressed by variant nucleotides. The system further includes an evolutionary conservation encoder that encodes an evolutionary conservation sequence in each voxel within the three-dimensional grid of voxels. Evolutionary conserved sequences can be a three-dimensional representation of amino acid-specific conservation frequencies across multiple species. Amino acid-specific conservation frequencies can be selected based on amino acid proximity to the corresponding voxel. The system applies three-dimensional convolutions to a tensor containing distance channels by atomic category encoded with alternative allelic amino acids and their respective evolutionarily conserved sequences, and determines the pathogenicity of variant nucleotides based at least in part on the tensor. It additionally includes a convolutional neural network configured to do so.

일부 구현예들에서, 시스템은, 단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 복셀화기를 포함한다. 아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 가질 수 있다. 3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정할 수 있다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 아미노산을 인코딩하는 대안적인 대립유전자 인코더를 추가로 포함한다. 대안적인 대립유전자 아미노산은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현이다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 진화적 보존 서열을 인코딩하는 진화적 보존 인코더를 추가로 포함한다. 진화적 보존 서열은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현일 수 있다. 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택될 수 있다. 시스템은 대안적인 대립유전자 아미노산 및 각자의 진화적 보존 서열들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서를 생성하도록 구성된 텐서 생성기를 추가로 포함한다.In some embodiments, the system includes a voxelizer that accesses the three-dimensional structure of the protein's reference amino acid sequence and generates amino acid-specific distance channels by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis. Includes. Each of the distance channels for each amino acid may have a 3D distance value for each voxel in the 3D grid of voxels. The three-dimensional distance value may specify the distance from the corresponding voxel in the three-dimensional grid of voxels to the atoms of the corresponding reference amino acid in the reference amino acid sequence. The system further includes an alternative allelic encoder that encodes an alternative allelic amino acid for each voxel in the three-dimensional grid of voxels. Alternative allelic amino acids are three-dimensional representations of one-hot encoding of variant amino acids expressed by variant nucleotides. The system further includes an evolutionary conservation encoder that encodes an evolutionary conservation sequence in each voxel within the three-dimensional grid of voxels. Evolutionary conserved sequences can be a three-dimensional representation of amino acid-specific conservation frequencies across multiple species. Amino acid-specific conservation frequencies can be selected based on amino acid proximity to the corresponding voxel. The system further includes a tensor generator configured to generate a tensor containing alternative allelic amino acids and per-amino acid distance channels encoded with their respective evolutionarily conserved sequences.

일부 구현예들에서, 시스템은, 단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 복셀화기를 포함한다. 원자들은 아미노산의 원자 원소들을 특정하는 복수의 원자 카테고리들에 걸쳐 있을 수 있다. 원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 가질 수 있다. 3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정할 수 있다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 아미노산을 인코딩하는 대안적인 대립유전자 인코더를 추가로 포함한다. 대안적인 대립유전자 아미노산은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현이다. 시스템은 복셀들의 3차원 그리드 내의 각각의 복셀에 진화적 보존 서열을 인코딩하는 진화적 보존 인코더를 추가로 포함한다. 진화적 보존 서열은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현일 수 있다. 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택될 수 있다. 시스템은 대안적인 대립유전자 아미노산 및 각자의 진화적 보존 서열들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서를 생성하도록 구성된 텐서 생성기를 추가로 포함한다.In some embodiments, the system includes a voxelizer that accesses the three-dimensional structure of a reference amino acid sequence of a protein and generates distance channels by atom category by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis. Includes. The atoms may span multiple atomic categories that specify the atomic elements of the amino acid. Each of the distance channels for each atomic category may have a 3D distance value for each voxel in the 3D grid of voxels. The 3D distance value may specify the distance from a corresponding voxel in a 3D grid of voxels to atoms of corresponding atomic categories in a plurality of atomic categories. The system further includes an alternative allelic encoder that encodes an alternative allelic amino acid for each voxel in the three-dimensional grid of voxels. Alternative allelic amino acids are three-dimensional representations of one-hot encoding of variant amino acids expressed by variant nucleotides. The system further includes an evolutionary conservation encoder that encodes an evolutionary conservation sequence in each voxel within the three-dimensional grid of voxels. Evolutionary conserved sequences can be a three-dimensional representation of amino acid-specific conservation frequencies across multiple species. Amino acid-specific conservation frequencies can be selected based on amino acid proximity to the corresponding voxel. The system further includes a tensor generator configured to generate a tensor containing distance channels per atomic category encoded with alternative allelic amino acids and their respective evolutionarily conserved sequences.

항목 2Item 2

1. 컴퓨터 구현 방법으로서,One. 1. A computer implemented method, comprising:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 단계로서,A step of accessing the three-dimensional structure of the reference amino acid sequence of the protein and generating distance channels for each amino acid by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each amino acid has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정하는, 생성하는 단계;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of a corresponding reference amino acid in a reference amino acid sequence;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 단계로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 단계;Encoding at each voxel in the three-dimensional grid of voxels an alternative allelic channel, wherein the alternative allelic channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 아미노산별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 단계로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 단계;A step of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across amino acid-specific distance channels on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. encoding, wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel;

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하는 단계; 및Applying three-dimensional convolutions to a tensor containing per-amino acid distance channels encoded with alternative allele channels and respective evolutionary conservation channels; and

텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising determining the pathogenicity of a variant nucleotide based at least in part on the tensor.

2. 항목 1에 있어서, 기준 아미노산 서열 내의 기준 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.2. The computer-implemented method of item 1, further comprising centering the three-dimensional grid of voxels on the alpha-carbon atom of the respective residues of the reference amino acids in the reference amino acid sequence.

3. 항목 2에 있어서, 변이체 아미노산에 대응하는 특정 기준 아미노산의 잔기의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.3. The computer-implemented method of item 2, further comprising centering the three-dimensional grid of voxels on the alpha-carbon atom of a residue of a particular reference amino acid that corresponds to the variant amino acid.

4. 항목 3에 있어서, 텐서에, 특정 기준 아미노산에 선행하는 그러한 기준 아미노산에 대한 3차원 거리 값들을 방향성 파라미터와 곱함으로써 기준 아미노산 서열 내의 기준 아미노산의 방향성 및 특정 기준 아미노산의 위치를 인코딩하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.4. The method of item 3, further comprising encoding in the tensor the orientation of the reference amino acid and the position of the specific reference amino acid within the reference amino acid sequence by multiplying the three-dimensional distance values for that reference amino acid preceding that reference amino acid with the orientation parameter. Including, computer implemented methods.

5. 항목 4에 있어서, 거리들은 복셀들의 3차원 그리드 내의 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 구현 방법.5. The computer-implemented method of item 4, wherein the distances are nearest atom distances from corresponding voxel centers in a three-dimensional grid of voxels to the nearest atoms of the corresponding reference amino acid.

6. 항목 5에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 구현 방법.6. The computer-implemented method of item 5, wherein the nearest atomic distances are Euclidean distances.

7. 항목 6에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화되는, 컴퓨터 구현 방법.7. The computer-implemented method of item 6, wherein the nearest atomic distances are normalized by dividing the Euclidean distances by the maximum nearest atomic distance.

8. 항목 5에 있어서, 기준 아미노산은 알파-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들인, 컴퓨터 구현 방법.8. The computer-implemented method of item 5, wherein the reference amino acid has alpha-carbon atoms and the distances are the nearest alpha-carbon atom distances from the corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding reference amino acid.

9. 항목 5에 있어서, 기준 아미노산은 베타-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들인, 컴퓨터 구현 방법.9. The computer-implemented method of item 5, wherein the reference amino acid has beta-carbon atoms and the distances are the nearest beta-carbon atom distances from the corresponding voxel centers to the nearest beta-carbon atoms of the corresponding reference amino acid.

10. 항목 5에 있어서, 기준 아미노산은 백본 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들인, 컴퓨터 구현 방법.10. The computer-implemented method of item 5, wherein the reference amino acid has backbone atoms and the distances are the nearest backbone atom distances from corresponding voxel centers to the nearest backbone atoms of the corresponding reference amino acid.

11. 항목 5에 있어서, 아미노산은 측쇄 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들인, 컴퓨터 구현 방법.11. The computer-implemented method of item 5, wherein the amino acid has side chain atoms and the distances are the closest side chain atom distances from corresponding voxel centers to the closest side chain atoms of the corresponding reference amino acid.

12. 항목 3에 있어서, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하는 단계를 추가로 포함하고, 가장 가까운 원자는 아미노산 및 아미노산의 원자 원소들에 관계없이 선택되는, 컴퓨터 구현 방법.12. The method of item 3, further comprising encoding in the tensor a nearest atom channel specifying the distance from each voxel to the nearest atom, wherein the nearest atom is selected regardless of the amino acid and the atomic elements of the amino acid. A computer implementation method.

13. 항목 12에 있어서, 거리는 유클리드 거리인, 컴퓨터 구현 방법.13. The computer-implemented method of item 12, wherein the distance is a Euclidean distance.

14. 항목 13에 있어서, 거리는 유클리드 거리를 최대 거리로 나눔으로써 정규화되는, 컴퓨터 구현 방법.14. The computer-implemented method of item 13, wherein the distance is normalized by dividing the Euclidean distance by the maximum distance.

15. 항목 12에 있어서, 아미노산은 비표준 아미노산을 포함하는, 컴퓨터 구현 방법.15. The computer-implemented method of item 12, wherein the amino acid comprises a non-standard amino acid.

16. 항목 1에 있어서, 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않는 원자들을 특정하는 부재자 원자 채널을 추가로 포함하는, 컴퓨터 구현 방법.16. The computer-implemented method of item 1, wherein the tensor further comprises an absent atom channel that specifies atoms not found within a predefined radius of the voxel center.

17. 항목 16에 있어서, 부재자 원자 채널은 원-핫 인코딩되는, 컴퓨터 구현 방법.17. The computer-implemented method of item 16, wherein the absentee atomic channels are one-hot encoded.

18. 항목 1에 있어서, 복셀들의 3차원 그리드 내의 각각의 복셀에 기준 대립유전자 채널을 복셀별로 인코딩하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.18. The computer-implemented method of item 1, further comprising encoding the reference allele channel on a voxel-by-voxel basis in each voxel in the three-dimensional grid of voxels.

19. 항목 18에 있어서, 기준 대립유전자 아미노산은 변이체 아미노산을 경험하는 기준 아미노산의 원-핫 인코딩의 3차원 표현인, 컴퓨터 구현 방법.19. The computer-implemented method of item 18, wherein the reference allelic amino acid is a three-dimensional representation of a one-hot encoding of the reference amino acid experiencing variant amino acids.

20. 항목 1에 있어서, 아미노산 특정적 보존 빈도들은 복수의 종에 걸친 각자의 아미노산의 보존 수준들을 특정하는, 컴퓨터 구현 방법.20. The computer-implemented method of item 1, wherein the amino acid-specific conservation frequencies specify conservation levels of respective amino acids across a plurality of species.

21. 항목 20에 있어서,21. In item 20,

기준 아미노산 및 원자 카테고리들에 걸쳐 대응하는 복셀에 대한 가장 가까운 원자를 선택하는 단계,selecting the closest atom to the corresponding voxel across reference amino acid and atom categories;

가장 가까운 원자를 포함하는 기준 아미노산의 잔기에 대한 범아미노산 보존 빈도들을 선택하는 단계, 및selecting pan-amino acid conservation frequencies for the residue of the reference amino acid containing the closest atom, and

진화적 보존 채널로서 범아미노산 보존 빈도들의 3차원 표현을 사용하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.A computer-implemented method, further comprising using a three-dimensional representation of pan-amino acid conservation frequencies as an evolutionary conservation channel.

22. 항목 21에 있어서, 범아미노산 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성되는, 컴퓨터 구현 방법.22. The computer-implemented method of item 21, wherein pan-amino acid conservation frequencies are plotted for specific positions of residues as observed in a plurality of species.

23. 항목 21에 있어서, 범아미노산 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 구현 방법.23. The computer-implemented method of item 21, wherein the pan-amino acid conservation frequencies specify whether there is a missing conservation frequency for a particular reference amino acid.

24. 항목 21에 있어서,24. In item 21,

기준 아미노산 중 각자의 것들 내의 대응하는 복셀에 대한 각자의 가장 가까운 원자들을 선택하는 단계,selecting the closest atoms of each of the reference amino acids to the corresponding voxel within each of the reference amino acids;

가장 가까운 원자들을 포함하는 기준 아미노산의 각자의 잔기에 대해 각자의 아미노산당 보존 빈도들을 선택하는 단계, 및selecting conservation frequencies per respective amino acid for each residue of a reference amino acid containing the closest atoms, and

진화적 보존 채널로서 아미노산당 보존 빈도들의 3차원 표현을 사용하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.A computer-implemented method, further comprising using a three-dimensional representation of conservation frequencies per amino acid as an evolutionary conservation channel.

25. 항목 24에 있어서, 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성되는, 컴퓨터 구현 방법.25. The computer-implemented method of item 24, wherein conservation frequencies per amino acid are plotted for specific positions of residues as observed in a plurality of species.

26. 항목 24에 있어서, 아미노산당 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 구현 방법.26. The computer-implemented method of item 24, wherein the conservation frequencies per amino acid specify whether there is a missing conservation frequency for a particular reference amino acid.

27. 항목 1에 있어서, 복셀들의 3차원 그리드 내의 각각의 복셀에 하나 이상의 주석 채널들을 복셀별로 인코딩하는 단계를 추가로 포함하고, 주석 채널들은 잔기 주석들의 원-핫 인코딩의 3차원 표현들인, 컴퓨터 구현 방법.27. The computer-implemented method of item 1, further comprising encoding one or more annotation channels on a voxel-by-voxel basis for each voxel in the three-dimensional grid of voxels, wherein the annotation channels are three-dimensional representations of a one-hot encoding of residue annotations. .

28. 항목 27에 있어서, 주석 채널들은 개시제 메티오닌, 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들인, 컴퓨터 구현 방법.28. The computer-implemented method of item 27, wherein the annotation channels are molecular processing annotations including initiator methionine, signal, variable peptide, propeptide, chain, and peptide.

29. 항목 27에 있어서, 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게, 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일, 모티프, 및 조성 바이어스를 포함하는 영역 주석들인, 컴퓨터 구현 방법.29. For item 27, the annotated channels include topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, double coil, motif, and compositional bias. A computer-implemented method of containing region annotations.

30. 항목 27에 있어서, 주석 채널들은 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들인, 컴퓨터 구현 방법.30. The computer-implemented method of item 27, wherein the annotation channels are site annotations including active site, metal binding, binding site, and site.

31. 항목 27에 있어서, 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들인, 컴퓨터 구현 방법.31. The computer-implemented method of item 27, wherein the annotation channels are amino acid modification annotations including non-standard residues, modified residues, lipidation, glycosylation, disulfide bonds, and cross-links.

32. 항목 27에 있어서, 주석 채널들은 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들인, 컴퓨터 구현 방법.32. The computer-implemented method of item 27, wherein the annotation channels are secondary structure annotations including helices, turns, and beta strands.

33. 항목 27에 있어서, 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들인, 컴퓨터 구현 방법.33. The computer-implemented method of item 27, wherein the annotation channels are experimental information annotations including mutagenesis, sequence uncertainty, sequence conflicts, non-adjacent residues, and non-terminal residues.

34. 항목 1에 있어서, 복셀들의 3차원 그리드 내의 각각의 복셀에 하나 이상의 구조 신뢰도 채널들을 복셀별로 인코딩하는 단계를 추가로 포함하고, 구조 신뢰도 채널들은 각자의 잔기 구조들의 품질을 특정하는 신뢰도 점수들의 3차원 표현들인, 컴퓨터 구현 방법.34. The method of item 1, further comprising encoding one or more structural confidence channels on a voxel-by-voxel basis in each voxel in the three-dimensional grid of voxels, wherein the structural confidence channels are a three-dimensional representation of confidence scores that specify the quality of the respective residue structures. Expressions, computer-implemented methods.

35. 항목 34에 있어서, 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들인, 컴퓨터 구현 방법.35. The computer-implemented method of item 34, wherein the structural reliability channels are global model quality estimates (GMQEs).

36. 항목 34에 있어서, 구조 신뢰도 채널들은 정성적 모델 에너지 분석(QMEAN) 점수들인, 컴퓨터 구현 방법.36. The computer-implemented method of item 34, wherein the structural reliability channels are Qualitative Model Energy Analysis (QMEAN) scores.

37. 항목 34에 있어서, 구조 신뢰도 채널들은 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들인, 컴퓨터 구현 방법.37. The computer-implemented method of item 34, wherein the structural confidence channels are temperature factors that specify the extent to which residues satisfy the physical constraints of the respective protein structures.

38. 항목 34에 있어서, 구조 신뢰도 채널들은 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들인, 컴퓨터 구현 방법.38. The computer-implemented method of item 34, wherein the structure confidence channels are template structure alignments that specify the extent to which residues of the atoms closest to the voxels have aligned template structures.

39. 항목 38에 있어서, 구조 신뢰도 채널들은 정렬된 주형 구조들의 주형 모델링 점수들인, 컴퓨터 구현 방법.39. The computer-implemented method of item 38, wherein the structure confidence channels are template modeling scores of aligned template structures.

40. 항목 39에 있어서, 구조 신뢰도 채널들은 주형 모델링 점수들 중 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수인, 컴퓨터 구현 방법.40. The computer-implemented method of item 39, wherein the structural reliability channels are the minimum template modeling scores, the average of the template modeling scores, and the maximum template modeling scores.

41. 항목 1에 있어서, 아미노산별 거리 채널들이 생성되기 전에 원자들을 회전시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.41. The computer-implemented method of item 1, further comprising rotating the atoms before the per-amino acid distance channels are created.

42. 항목 1에 있어서, 콘볼루션 신경망에서 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.42. Item 1, comprising using 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, fully connected layer, dropout regularization layer, and softmax classification layer in a convolutional neural network. Additionally, computer implemented methods.

43. 항목 42에 있어서, 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들인, 컴퓨터 구현 방법.43. The computer-implemented method of item 42, wherein the 1x1x1 convolutions and 3x3x3 convolutions are three-dimensional convolutions.

44. 항목 42에 있어서, 1x1x1 콘볼루션들의 층은 텐서를 처리하고 텐서의 콘볼루션된 표현인 중간 출력을 생성하며, 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리하고 평탄화된 출력을 생성하며, 완전 접속 층은 평탄화된 출력을 처리하고 비정규화된 출력들을 생성하며, 소프트맥스 분류 층은 비정규화된 출력들을 처리하고 변이체 뉴클레오티드가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성하는, 컴퓨터 구현 방법.44. Item 42, wherein a layer of 1x1x1 convolutions processes the tensor and produces an intermediate output that is a convolved representation of the tensor, and a sequence of layers of 3x3x3 convolutions processes the intermediate outputs and produces a smoothed output, and is fully connected. A computer-implemented layer processes the smoothed output and produces denormalized outputs, and a softmax classification layer processes the denormalized outputs and produces exponentially normalized outputs that identify the likelihood that a variant nucleotide is pathogenic and benign. method.

45. 항목 44에 있어서, 시그모이드 층은 비정규화된 출력들을 처리하고 변이체 뉴클레오티드가 병원성일 가능성을 식별하는 정규화된 출력을 생성하는, 컴퓨터 구현 방법.45. The computer-implemented method of item 44, wherein the sigmoid layer processes the denormalized outputs and generates a normalized output that identifies the likelihood that the variant nucleotide is pathogenic.

46. 항목 1에 있어서, 콘볼루션 신경망은 주의 기반 신경망인, 컴퓨터 구현 방법.46. The computer-implemented method of item 1, wherein the convolutional neural network is an attention-based neural network.

47. 항목 1에 있어서, 텐서는 기준 대립유전자 채널로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 구현 방법.47. The computer-implemented method of item 1, wherein the tensor comprises amino acid-specific distance channels further encoded with reference allele channels.

48. 항목 1에 있어서, 텐서는 주석 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 구현 방법.48. The computer-implemented method of item 1, wherein the tensor includes per-amino acid distance channels further encoded with annotation channels.

49. 항목 1에 있어서, 텐서는 구조 신뢰도 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 구현 방법.49. The computer-implemented method of item 1, wherein the tensor includes per-amino acid distance channels further encoded with structure confidence channels.

50. 컴퓨터 구현 방법으로서,50. 1. A computer implemented method, comprising:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 단계로서,A step of accessing the three-dimensional structure of the reference amino acid sequence of the protein and generating distance channels for each atom category by fitting a three-dimensional grid of voxels on the atoms in the three-dimensional structure on an amino acid basis,

원자들은 복수의 원자 카테고리들에 걸쳐 있고,Atoms span multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each atomic category has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정하는, 생성하는 단계;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in the three-dimensional grid of voxels to atoms of corresponding atomic categories in the plurality of atomic categories;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 단계로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 단계;Encoding at each voxel in the three-dimensional grid of voxels an alternative allelic channel, wherein the alternative allelic channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 원자 카테고리별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 단계로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 단계;A step of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across distance channels for each atomic category on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. encoding, wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel;

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하는 단계; 및Applying three-dimensional convolutions to a tensor containing distance channels for each atomic category encoded with alternative allele channels and respective evolutionary conservation channels; and

텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising determining the pathogenicity of a variant nucleotide based at least in part on the tensor.

51. 컴퓨터 구현 방법으로서,51. 1. A computer implemented method, comprising:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 단계로서,A step of accessing the three-dimensional structure of the reference amino acid sequence of the protein and generating distance channels for each amino acid by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each amino acid has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정하는, 생성하는 단계;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of a corresponding reference amino acid in a reference amino acid sequence;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 단계로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 단계;Encoding at each voxel in the three-dimensional grid of voxels an alternative allelic channel, wherein the alternative allelic channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 아미노산별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 단계로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 단계; 및A step of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across amino acid-specific distance channels on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. encoding, wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel; and

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서를 생성하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising generating a tensor containing per-amino acid distance channels encoded with alternative allele channels and respective evolutionary conservation channels.

52. 컴퓨터 구현 방법으로서,52. 1. A computer implemented method, comprising:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 단계로서,A step of accessing the three-dimensional structure of the reference amino acid sequence of the protein and generating distance channels for each atom category by fitting a three-dimensional grid of voxels on the atoms in the three-dimensional structure on an amino acid basis,

원자들은 복수의 원자 카테고리들에 걸쳐 있고,Atoms span multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each atomic category has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정하는, 생성하는 단계;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in the three-dimensional grid of voxels to atoms of corresponding atomic categories in the plurality of atomic categories;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 단계로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 단계;Encoding at each voxel in the three-dimensional grid of voxels an alternative allelic channel, wherein the alternative allelic channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 원자 카테고리별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 단계로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 단계; 및A step of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across distance channels for each atomic category on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. encoding, wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel; and

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서를 생성하는 단계를 포함하는, 컴퓨터 구현 방법.A computer-implemented method comprising generating a tensor containing distance channels by atomic category encoded with alternative allele channels and respective evolutionary conservation channels.

1. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,One. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 동작으로서,An operation of accessing the three-dimensional structure of a reference amino acid sequence of a protein and generating distance channels for each amino acid by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each amino acid has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정하는, 생성하는 동작;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of a corresponding reference amino acid in a reference amino acid sequence;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 동작으로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 동작;Encoding in each voxel in a three-dimensional grid of voxels an alternative allele channel, wherein the alternative allele channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 아미노산별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 동작으로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 동작;The operation of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across amino acid-specific distance channels on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. , an encoding operation wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel;

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하는 동작; 및Applying three-dimensional convolutions to a tensor containing per-amino acid distance channels encoded with alternative allele channels and respective evolutionary conservation channels; and

텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 컴퓨터 판독가능 매체들.Computer-readable media configured to configure a computer to perform operations including determining the pathogenicity of a variant nucleotide based at least in part on the tensor.

2. 항목 1에 있어서, 동작들은, 기준 아미노산 서열 내의 기준 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.2. The computer-readable media of item 1, wherein the operations further comprise centering the three-dimensional grid of voxels on the alpha-carbon atom of each residue of a reference amino acid in the reference amino acid sequence.

3. 항목 2에 있어서, 동작들은, 변이체 아미노산에 대응하는 특정 기준 아미노산의 잔기의 알파-탄소 원자 상에 복셀들의 3차원 그리드를 중심설정하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.3. The computer-readable media of item 2, wherein the operations further comprise centering the three-dimensional grid of voxels on the alpha-carbon atom of a residue of a particular reference amino acid that corresponds to the variant amino acid.

4. 항목 3에 있어서, 동작들은, 텐서에, 특정 기준 아미노산에 선행하는 그러한 기준 아미노산에 대한 3차원 거리 값들을 방향성 파라미터와 곱함으로써 기준 아미노산 서열 내의 기준 아미노산의 방향성 및 특정 기준 아미노산의 위치를 인코딩하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.4. The operations of item 3, wherein the operations encode the orientation of a reference amino acid within a reference amino acid sequence and the position of a specific reference amino acid by multiplying a tensor with a directionality parameter by the three-dimensional distance values for that reference amino acid preceding that reference amino acid. Computer readable media further comprising.

5. 항목 4에 있어서, 거리들은 복셀들의 3차원 그리드 내의 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 컴퓨터 판독가능 매체들.5. The computer-readable medium of item 4, wherein the distances are nearest atomic distances from corresponding voxel centers in a three-dimensional grid of voxels to nearest atoms of the corresponding reference amino acid.

6. 항목 5에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들인, 컴퓨터 판독가능 매체들.6. The computer-readable media of item 5, wherein the nearest atomic distances are Euclidean distances.

7. 항목 6에 있어서, 가장 가까운 원자 거리들은 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.7. The computer-readable medium of item 6, wherein the nearest atomic distances are normalized by dividing the Euclidean distances by the maximum nearest atomic distance.

8. 항목 5에 있어서, 기준 아미노산은 알파-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들인, 컴퓨터 판독가능 매체들.8. The computer readable medium of item 5, wherein the reference amino acid has alpha-carbon atoms and the distances are the nearest alpha-carbon atom distances from corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding reference amino acid. field.

9. 항목 5에 있어서, 기준 아미노산은 베타-탄소 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들인, 컴퓨터 판독가능 매체들.9. The computer-readable medium of item 5, wherein the reference amino acid has beta-carbon atoms and the distances are the nearest beta-carbon atom distances from the corresponding voxel centers to the nearest beta-carbon atoms of the corresponding reference amino acid. field.

10. 항목 5에 있어서, 기준 아미노산은 백본 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들인, 컴퓨터 판독가능 매체들.10. The computer readable media of item 5, wherein the reference amino acid has backbone atoms and the distances are nearest backbone atom distances from corresponding voxel centers to the nearest backbone atoms of the corresponding reference amino acid.

11. 항목 5에 있어서, 아미노산은 측쇄 원자들을 갖고, 거리들은 대응하는 복셀 중심들로부터 대응하는 기준 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들인, 컴퓨터 판독가능 매체들.11. The computer readable media of item 5, wherein the amino acid has side chain atoms and the distances are the closest side chain atom distances from corresponding voxel centers to the closest side chain atoms of the corresponding reference amino acid.

12. 항목 3에 있어서, 동작들은, 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하는 동작을 추가로 포함하고, 가장 가까운 원자는 아미노산 및 아미노산의 원자 원소들에 관계없이 선택되는, 컴퓨터 판독가능 매체들.12. Item 3, wherein the operations further comprise encoding, in the tensor, a nearest atom channel specifying the distance from each voxel to the nearest atom, where the nearest atom is an amino acid and the atomic elements of the amino acid. Any computer-readable media selected.

13. 항목 12에 있어서, 거리는 유클리드 거리인, 컴퓨터 판독가능 매체들.13. The computer-readable media of item 12, wherein the distance is a Euclidean distance.

14. 항목 13에 있어서, 거리는 유클리드 거리를 최대 거리로 나눔으로써 정규화되는, 컴퓨터 판독가능 매체들.14. The computer-readable media of item 13, wherein the distance is normalized by dividing the Euclidean distance by the maximum distance.

15. 항목 12에 있어서, 아미노산은 비표준 아미노산을 포함하는, 컴퓨터 판독가능 매체들.15. The computer readable media of item 12, wherein the amino acid comprises a non-standard amino acid.

16. 항목 1에 있어서, 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않는 원자들을 특정하는 부재자 원자 채널을 추가로 포함하는, 컴퓨터 판독가능 매체들.16. The computer-readable media of item 1, wherein the tensor further comprises an absent atom channel that specifies atoms not found within a predefined radius of the voxel center.

17. 항목 16에 있어서, 부재자 원자 채널은 원-핫 인코딩되는, 컴퓨터 판독가능 매체들.17. The computer-readable media of item 16, wherein the absentee atomic channel is one-hot encoded.

18. 항목 1에 있어서, 동작들은, 복셀들의 3차원 그리드 내의 각각의 복셀에 기준 대립유전자 채널을 복셀별로 인코딩하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.18. The computer-readable media of item 1, wherein the operations further comprise encoding, voxel-by-voxel, a reference allele channel in each voxel in the three-dimensional grid of voxels.

19. 항목 18에 있어서, 기준 대립유전자 아미노산은 변이체 아미노산을 경험하는 기준 아미노산의 원-핫 인코딩의 3차원 표현인, 컴퓨터 판독가능 매체들.19. The computer readable media of item 18, wherein the reference allelic amino acid is a three-dimensional representation of a one-hot encoding of the reference amino acid experiencing the variant amino acid.

20. 항목 1에 있어서, 아미노산 특정적 보존 빈도들은 복수의 종에 걸친 각자의 아미노산의 보존 수준들을 특정하는, 컴퓨터 판독가능 매체들.20. The computer-readable media of item 1, wherein the amino acid-specific conservation frequencies specify conservation levels of respective amino acids across a plurality of species.

21. 항목 20에 있어서, 동작들은, 기준 아미노산 및 원자 카테고리들에 걸쳐 대응하는 복셀에 대한 가장 가까운 원자를 선택하는 동작,21. The method of item 20, wherein the operations include selecting the closest atom to the corresponding voxel across reference amino acid and atom categories;

가장 가까운 원자를 포함하는 기준 아미노산의 잔기에 대한 범아미노산 보존 빈도들을 선택하는 동작, 및selecting pan-amino acid conservation frequencies for residues of a reference amino acid containing the closest atom, and

진화적 보존 채널로서 범아미노산 보존 빈도들의 3차원 표현을 사용하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.Computer-readable media further comprising using a three-dimensional representation of pan-amino acid conservation frequencies as an evolutionary conservation channel.

22. 항목 21에 있어서, 범아미노산 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기의 특정 위치에 대해 구성되는, 컴퓨터 판독가능 매체들.22. The computer-readable medium of item 21, wherein pan-amino acid conservation frequencies are plotted for specific positions of residues as observed in a plurality of species.

23. 항목 21에 있어서, 범아미노산 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 판독가능 매체들.23. The computer readable media of item 21, wherein the pan-amino acid conservation frequencies specify whether there is a missing conservation frequency for a particular reference amino acid.

24. 항목 21에 있어서, 동작들은, 기준 아미노산 중 각자의 것들 내의 대응하는 복셀에 대한 각자의 가장 가까운 원자들을 선택하는 동작,24. Item 21, wherein the operations are: selecting the respective closest atoms for the corresponding voxel within the respective ones of the reference amino acids;

가장 가까운 원자들을 포함하는 기준 아미노산의 각자의 잔기에 대해 각자의 아미노산당 보존 빈도들을 선택하는 동작, 및selecting conservation frequencies per amino acid for each residue of a reference amino acid containing the closest atoms, and

진화적 보존 채널로서 아미노산당 보존 빈도들의 3차원 표현을 사용하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.Computer-readable media further comprising using a three-dimensional representation of conservation frequencies per amino acid as an evolutionary conservation channel.

25. 항목 24에 있어서, 아미노산당 보존 빈도들은 복수의 종에서 관찰된 바와 같이 잔기들의 특정 위치에 대해 구성되는, 컴퓨터 판독가능 매체들.25. The computer-readable medium of item 24, wherein conservation frequencies per amino acid are plotted for specific positions of residues as observed in a plurality of species.

26. 항목 24에 있어서, 아미노산당 보존 빈도들은 특정 기준 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 컴퓨터 판독가능 매체들.26. The computer readable media of item 24, wherein the conservation frequencies per amino acid specify whether there is a missing conservation frequency for a particular reference amino acid.

27. 항목 1에 있어서, 동작들은, 복셀들의 3차원 그리드 내의 각각의 복셀에 하나 이상의 주석 채널들을 복셀별로 인코딩하는 동작을 추가로 포함하고, 주석 채널들은 잔기 주석들의 원-핫 인코딩의 3차원 표현들인, 컴퓨터 판독가능 매체들.27. The method of item 1, wherein the operations further comprise encoding on a voxel-by-voxel basis one or more annotation channels in each voxel in the three-dimensional grid of voxels, wherein the annotation channels are three-dimensional representations of a one-hot encoding of residue annotations. Computer readable media.

28. 항목 27에 있어서, 주석 채널들은 개시제 메티오닌, 신호, 변화 펩티드, 프로펩티드, 사슬, 및 펩티드를 포함하는 분자 처리 주석들인, 컴퓨터 판독가능 매체들.28. The computer readable media of item 27, wherein the annotation channels are molecular processing annotations including initiator methionine, signal, variable peptide, propeptide, chain, and peptide.

29. 항목 27에 있어서, 주석 채널들은 토폴로지 도메인, 트랜스멤브레인, 인트라멤브레인, 도메인, 반복, 칼슘 결합, 아연 집게, 데옥시리보핵산(DNA) 결합, 뉴클레오티드 결합, 영역, 이중 코일, 모티프, 및 조성 바이어스를 포함하는 영역 주석들인, 컴퓨터 판독가능 매체들.29. For item 27, the annotated channels include topological domain, transmembrane, intramembrane, domain, repeat, calcium binding, zinc finger, deoxyribonucleic acid (DNA) binding, nucleotide binding, region, double coil, motif, and compositional bias. Computer-readable media, containing region annotations.

30. 항목 27에 있어서, 주석 채널들은 활성 부위, 금속 결합, 결합 부위, 및 부위를 포함하는 부위 주석들인, 컴퓨터 판독가능 매체들.30. The computer-readable medium of item 27, wherein the annotation channels are site annotations comprising an active site, metal binding, binding site, and site.

31. 항목 27에 있어서, 주석 채널들은 비표준 잔기, 변형 잔기, 지질화, 글리코실화, 이황화물 결합, 및 가교결합을 포함하는 아미노산 변형 주석들인, 컴퓨터 판독가능 매체들.31. The computer-readable medium of item 27, wherein the annotation channels are amino acid modification annotations including non-standard residues, modification residues, lipidation, glycosylation, disulfide bonds, and cross-linking.

32. 항목 27에 있어서, 주석 채널들은 나선, 회전, 및 베타 가닥을 포함하는 2차 구조 주석들인, 컴퓨터 판독가능 매체들.32. The computer-readable medium of item 27, wherein the annotation channels are secondary structure annotations including helices, turns, and beta strands.

33. 항목 27에 있어서, 주석 채널들은 돌연변이유발, 서열 불확실성, 서열 충돌, 비인접 잔기들, 및 비-말단 잔기를 포함하는 실험 정보 주석들인, 컴퓨터 판독가능 매체들.33. The computer-readable medium of item 27, wherein the annotation channels are experimental information annotations including mutagenesis, sequence uncertainty, sequence conflict, non-adjacent residues, and non-terminal residues.

34. 항목 1에 있어서, 동작들은, 복셀들의 3차원 그리드 내의 각각의 복셀에 하나 이상의 구조 신뢰도 채널들을 복셀별로 인코딩하는 동작을 추가로 포함하고, 구조 신뢰도 채널들은 각자의 잔기 구조들의 품질을 특정하는 신뢰도 점수들의 3차원 표현들인, 컴퓨터 판독가능 매체들.34. The operations of item 1 further include encoding on a voxel-by-voxel basis one or more structural confidence channels in each voxel in the three-dimensional grid of voxels, wherein the structural confidence channels have a confidence score that specifies the quality of the respective residue structures. Computer-readable media, which are three-dimensional representations of objects.

35. 항목 34에 있어서, 구조 신뢰도 채널들은 글로벌 모델 품질 추정(GMQE)들인, 컴퓨터 판독가능 매체들.35. The computer-readable media of item 34, wherein the structural reliability channels are global model quality estimates (GMQEs).

36. 항목 34에 있어서, 구조 신뢰도 채널들은 정성적 모델 에너지 분석(QMEAN) 점수들인, 컴퓨터 판독가능 매체들.36. The computer-readable media of item 34, wherein the structural reliability channels are Qualitative Model Energy Analysis (QMEAN) scores.

37. 항목 34에 있어서, 구조 신뢰도 채널들은 잔기들이 각자의 단백질 구조들의 물리적 제약들을 만족시키는 정도를 특정하는 온도 인자들인, 컴퓨터 판독가능 매체들.37. The computer-readable medium of item 34, wherein the structural confidence channels are temperature parameters that specify the degree to which residues satisfy the physical constraints of the respective protein structures.

38. 항목 34에 있어서, 구조 신뢰도 채널들은 복셀들에 가장 가까운 원자들의 잔기들이 정렬된 주형 구조들을 갖는 정도를 특정하는 주형 구조 정렬들인, 컴퓨터 판독가능 매체들.38. The computer-readable medium of item 34, wherein the structure confidence channels are template structure alignments that specify the extent to which residues of the atoms closest to the voxels have aligned template structures.

39. 항목 38에 있어서, 구조 신뢰도 채널들은 정렬된 주형 구조들의 주형 모델링 점수들인, 컴퓨터 판독가능 매체들.39. The computer-readable media of item 38, wherein the structure confidence channels are template modeling scores of aligned template structures.

40. 항목 39에 있어서, 구조 신뢰도 채널들은 주형 모델링 점수들 중 최소 주형 모델링 점수들, 주형 모델링 점수들의 평균, 및 주형 모델링 점수들 중 최대 주형 모델링 점수인, 컴퓨터 판독가능 매체들.40. The computer-readable medium of item 39, wherein the structural reliability channels are the minimum template modeling scores, the mean of the template modeling scores, and the maximum template modeling scores of the template modeling scores.

41. 항목 1에 있어서, 동작들은, 아미노산별 거리 채널들이 생성되기 전에 원자들을 회전시키는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.41. The computer-readable media of item 1, wherein the operations further include rotating the atoms before the per-amino acid distance channels are created.

42. 항목 1에 있어서, 동작들은, 콘볼루션 신경망에서 1x1x1 콘볼루션들, 3x3x3 콘볼루션들, 정류된 선형 유닛 활성화 층들, 배치 정규화 층들, 완전 접속 층, 드롭아웃 규칙화 층, 및 소프트맥스 분류 층을 사용하는 동작을 추가로 포함하는, 컴퓨터 판독가능 매체들.42. For item 1, the operations use 1x1x1 convolutions, 3x3x3 convolutions, rectified linear unit activation layers, batch normalization layers, fully connected layer, dropout regularization layer, and softmax classification layer in a convolutional neural network. Computer-readable media further comprising the operation of:

43. 항목 42에 있어서, 1x1x1 콘볼루션들 및 3x3x3 콘볼루션들은 3차원 콘볼루션들인, 컴퓨터 판독가능 매체들.43. The computer-readable medium of item 42, wherein the 1x1x1 convolutions and 3x3x3 convolutions are three-dimensional convolutions.

44. 항목 42에 있어서, 1x1x1 콘볼루션들의 층은 텐서를 처리하고 텐서의 콘볼루션된 표현인 중간 출력을 생성하며, 3x3x3 콘볼루션들의 층들의 서열은 중간 출력을 처리하고 평탄화된 출력을 생성하며, 완전 접속 층은 평탄화된 출력을 처리하고 비정규화된 출력들을 생성하며, 소프트맥스 분류 층은 비정규화된 출력들을 처리하고 변이체 뉴클레오티드가 병원성 및 양성일 가능성들을 식별하는 지수적으로 정규화된 출력들을 생성하는, 컴퓨터 판독가능 매체들.44. Item 42, wherein a layer of 1x1x1 convolutions processes the tensor and produces an intermediate output that is a convolved representation of the tensor, and a sequence of layers of 3x3x3 convolutions processes the intermediate outputs and produces a smoothed output, and is fully connected. A computer-readable layer processes the smoothed output and produces denormalized outputs, and a softmax classification layer processes the denormalized outputs and produces exponentially normalized outputs that identify the likelihood that a variant nucleotide is pathogenic and benign. Available media.

45. 항목 44에 있어서, 시그모이드 층은 비정규화된 출력들을 처리하고 변이체 뉴클레오티드가 병원성일 가능성을 식별하는 정규화된 출력을 생성하는, 컴퓨터 판독가능 매체들.45. The computer-readable medium of item 44, wherein the sigmoid layer processes the denormalized outputs and generates a normalized output that identifies the likelihood that the variant nucleotide is pathogenic.

46. 항목 1에 있어서, 콘볼루션 신경망은 주의 기반 신경망인, 컴퓨터 판독가능 매체들.46. The computer-readable media of item 1, wherein the convolutional neural network is an attention-based neural network.

47. 항목 1에 있어서, 텐서는 기준 대립유전자 채널로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 판독가능 매체들.47. The computer-readable media of item 1, wherein the tensor includes per-amino acid distance channels further encoded with reference allele channels.

48. 항목 1에 있어서, 텐서는 주석 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 판독가능 매체들.48. The computer-readable media of item 1, wherein the tensor includes per-amino acid distance channels further encoded with annotation channels.

49. 항목 1에 있어서, 텐서는 구조 신뢰도 채널들로 추가로 인코딩된 아미노산별 거리 채널들을 포함하는, 컴퓨터 판독가능 매체들.49. The computer-readable media of item 1, wherein the tensor includes per-amino acid distance channels further encoded with structure confidence channels.

50. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,50. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 동작으로서,An operation of accessing the three-dimensional structure of a reference amino acid sequence of a protein and generating distance channels for each atom category by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

원자들은 복수의 원자 카테고리들에 걸쳐 있고,Atoms span multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each atomic category has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정하는, 생성하는 동작;generating a three-dimensional distance value that specifies a distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of corresponding atomic categories in the plurality of atomic categories;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 동작으로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 동작;Encoding in each voxel in a three-dimensional grid of voxels an alternative allele channel, wherein the alternative allele channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 원자 카테고리별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 동작으로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 동작;An operation of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across distance channels for each atomic category on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. and the amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel;

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서에 3차원 콘볼루션들을 적용하는 동작; 및Applying three-dimensional convolutions to a tensor containing distance channels by atomic category encoded with alternative allele channels and respective evolutionary conservation channels; and

텐서에 적어도 부분적으로 기초하여 변이체 뉴클레오티드의 병원성을 결정하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 하나 이상의 컴퓨터 판독가능 매체들.One or more computer-readable media configured to configure a computer to perform operations including determining pathogenicity of a variant nucleotide based at least in part on the tensor.

51. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,51. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 아미노산별 거리 채널들을 생성하는 동작으로서,An operation of accessing the three-dimensional structure of a reference amino acid sequence of a protein and generating distance channels for each amino acid by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

아미노산별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each amino acid has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 기준 아미노산 서열 내의 대응하는 기준 아미노산의 원자들까지의 거리를 특정하는, 생성하는 동작;generating a three-dimensional distance value that specifies the distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of a corresponding reference amino acid in a reference amino acid sequence;

아미노산 위치 단위로 아미노산별 거리 채널들 각각에서 각각의 3차원 거리 값에 대안적인 대립유전자 채널을 인코딩하는 동작으로서,An operation of encoding an alternative allele channel to each three-dimensional distance value in each of the distance channels for each amino acid in units of amino acid positions,

대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 동작;The alternative allelic channel encodes a three-dimensional representation of the one-hot encoding of variant amino acids expressed by variant nucleotides;

복셀 위치 단위로 아미노산별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 동작으로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 동작; 및The operation of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across amino acid-specific distance channels on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. , an encoding operation wherein amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel; and

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 아미노산별 거리 채널들을 포함하는 텐서를 생성하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 하나 이상의 컴퓨터 판독가능 매체들.One or more computer-readable media configuring a computer to perform operations including generating a tensor containing per-amino acid distance channels encoded with alternative allele channels and respective evolutionary conservation channels.

52. 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 매체들로서, 컴퓨터 실행가능 명령어들은, 하나 이상의 프로세서들 상에서 실행될 때,52. One or more computer-readable media storing computer-executable instructions, which, when executed on one or more processors,:

단백질의 기준 아미노산 서열의 3차원 구조에 액세스하고 아미노산 단위로 3차원 구조 내의 원자들 상에 복셀들의 3차원 그리드를 피팅하여 원자 카테고리별 거리 채널들을 생성하는 동작으로서,An operation of accessing the three-dimensional structure of a reference amino acid sequence of a protein and generating distance channels for each atom category by fitting a three-dimensional grid of voxels on atoms in the three-dimensional structure on an amino acid basis,

원자들은 복수의 원자 카테고리들에 걸쳐 있고,Atoms span multiple atomic categories,

복수의 원자 카테고리들 내의 원자 카테고리들은 아미노산의 원자 원소들을 특정하고,Atom categories within the plurality of atomic categories specify atomic elements of amino acids,

원자 카테고리별 거리 채널들 각각은 복셀의 3차원 그리드 내의 각각의 복셀에 대한 3차원 거리 값을 갖고,Each of the distance channels for each atomic category has a 3D distance value for each voxel in the 3D grid of voxels,

3차원 거리 값은 복셀들의 3차원 그리드 내의 대응하는 복셀로부터 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들의 원자들까지의 거리를 특정하는, 생성하는 동작;generating a three-dimensional distance value that specifies a distance from a corresponding voxel in a three-dimensional grid of voxels to atoms of corresponding atomic categories in the plurality of atomic categories;

복셀들의 3차원 그리드 내의 각각의 복셀에 대안적인 대립유전자 채널을 인코딩하는 동작으로서, 대안적인 대립유전자 채널은 변이체 뉴클레오티드에 의해 발현된 변이체 아미노산의 원-핫 인코딩의 3차원 표현인, 인코딩하는 동작;Encoding in each voxel in a three-dimensional grid of voxels an alternative allele channel, wherein the alternative allele channel is a three-dimensional representation of a one-hot encoding of the variant amino acid expressed by the variant nucleotide;

복셀 위치 단위로 원자 카테고리별 거리 채널들에 걸쳐 3차원 거리 값들의 각각의 서열에 진화적 보존 채널을 인코딩하는 동작으로서, 진화적 보존 채널은 복수의 종에 걸친 아미노산 특정적 보존 빈도들의 3차원 표현이고, 아미노산 특정적 보존 빈도들은 대응하는 복셀에 대한 아미노산 근접도에 따라 선택되는, 인코딩하는 동작; 및An operation of encoding an evolutionary conservation channel in each sequence of three-dimensional distance values across distance channels for each atomic category on a voxel position basis, wherein the evolutionary conservation channel is a three-dimensional representation of amino acid-specific conservation frequencies across a plurality of species. and the amino acid-specific conservation frequencies are selected according to amino acid proximity to the corresponding voxel; and

대안적인 대립유전자 채널 및 각자의 진화적 보존 채널들로 인코딩된 원자 카테고리별 거리 채널들을 포함하는 텐서를 생성하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는, 하나 이상의 컴퓨터 판독가능 매체들.One or more computer-readable media configured to perform operations including generating a tensor containing distance channels by atomic category encoded with alternative allele channels and respective evolutionary conservation channels.

이 섹션에 기술된 방법의 다른 구현예들은 전술된 방법들 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 방법의 또 다른 구현예는 메모리 및 하나 이상의 프로세서들- 당해 메모리에 저장된 명령어들을 실행하여 전술된 방법들 중 임의의 것을 수행하도록 동작가능함 -을 포함하는 시스템을 포함할 수 있다.Other implementations of the methods described in this section may include a non-transitory computer-readable storage medium storing instructions executable by a processor to perform any of the methods described above. Another implementation of the methods described in this section may include a system that includes a memory and one or more processors, operable to perform any of the methods described above by executing instructions stored in the memory.

특정 구현예들 3Specific Implementations 3

항목 3Item 3

1. 그리드 내의 불균일하게 이격된 셀들에 가장 가까운 서열의 요소들을 효율적으로 결정하는 컴퓨터 구현 방법으로서, 요소들은 요소 좌표들을 갖고, 셀들은 차원별 셀 인덱스들 및 셀 좌표들을 가지며, 요소들 각각에, 셀들의 서브세트를 맵핑하는 요소-셀 맵핑을 생성하는 단계로서, 서열 내의 특정 요소에 맵핑된 셀들의 서브세트는 그리드 내의 가장 가까운 셀 및 그리드 내의 하나 이상의 이웃 셀들을 포함하고,One. A computer-implemented method for efficiently determining the elements of the sequence closest to unevenly spaced cells in a grid, wherein the elements have element coordinates, the cells have dimension-specific cell indices and cell coordinates, and for each of the elements, generating an element-to-cell mapping that maps a subset, wherein the subset of cells mapped to a particular element in the sequence includes a nearest cell in the grid and one or more neighboring cells in the grid;

가장 가까운 셀은 특정 요소의 요소 좌표들을 셀 좌표들에 매칭시키는 것에 기초하여 선택되고,The closest cell is selected based on matching the element coordinates of a particular element to the cell coordinates,

이웃 셀들은 가장 가까운 셀에 근접하게 인접하고, 특정 요소로부터 거리 근접 범위 내에 있는 것에 기초하여 선택되는, 요소-셀 맵핑을 생성하는 단계; 셀들 각각에, 요소들의 서브세트를 맵핑하는 셀-요소 맵핑을 생성하는 단계로서, 그리드 내의 특정 셀에 맵핑된 요소들의 서브세트는 요소-셀 맵핑에 의해 특정 셀에 맵핑되는 서열 내의 그러한 요소들을 포함하는, 셀-요소 맵핑을 생성하는 단계; 및generating an element-cell mapping, wherein neighboring cells are selected based on being closely adjacent to the nearest cell and being within a distance proximity range from a particular element; Creating a cell-element mapping that maps, to each of the cells, a subset of elements, wherein the subset of elements mapped to a particular cell in the grid includes those elements in the sequence that are mapped to the particular cell by the element-cell mapping. generating a cell-element mapping; and

셀-요소 맵핑을 사용하여, 셀들 각각에 대해, 서열 내의 가장 가까운 요소를 결정하는 단계를 포함하고,For each of the cells, using cell-element mapping, determining the closest element in the sequence,

특정 셀에 대한 가장 가까운 요소는 특정 셀과 요소들의 서브세트 내의 요소들 사이의 거리들에 기초하여 결정되는, 컴퓨터 구현 방법.A computer implemented method wherein the closest element for a particular cell is determined based on distances between the particular cell and elements within the subset of elements.

2. 항목 1에 있어서, 특정 요소의 요소 좌표들을 셀 좌표들에 매칭시키는 것은 요소 좌표들의 소수점 부분을 절단하여 절단된 요소 좌표들을 생성하는 것을 추가로 포함하는, 컴퓨터 구현 방법.2. The computer-implemented method of item 1, wherein matching element coordinates of a particular element to cell coordinates further comprises truncating decimal portions of the element coordinates to generate truncated element coordinates.

3. 항목 2에 있어서, 특정 요소의 요소 좌표들을 셀 좌표들에 매칭시키는 것은,3. In item 2, matching element coordinates of a specific element to cell coordinates involves:

제1 차원에 대해, 절단된 요소 좌표들 내의 제1 절단된 요소 좌표를 그리드 내의 제1 셀의 제1 셀 좌표에 매칭시키고, 제1 셀의 제1 차원 인덱스를 선택하는 것;For the first dimension, matching a first truncated element coordinate in the truncated element coordinates to a first cell coordinate of a first cell in the grid and selecting a first dimension index of the first cell;

제2 차원에 대해, 절단된 요소 좌표들 내의 제2 절단된 요소 좌표를 그리드 내의 제2 셀의 제2 셀 좌표에 매칭시키고, 제2 셀의 제2 차원 인덱스를 선택하는 것;for the second dimension, matching a second truncated element coordinate in the truncated element coordinates to a second cell coordinate of a second cell in the grid and selecting a second dimension index of the second cell;

제3 차원에 대해, 절단된 요소 좌표들 내의 제3 절단된 요소 좌표를 그리드 내의 제3 셀의 제3 셀 좌표에 매칭시키고, 제3 셀의 제3 차원 인덱스를 선택하는 것;for the third dimension, matching a third truncated element coordinate in the truncated element coordinates to a third cell coordinate of a third cell in the grid and selecting a third dimension index of the third cell;

선택된 제1, 제2, 및 제3 차원 인덱스들을 사용하여 기수의 제곱들에 의해 선택된 제1, 제2, 및 제3 차원 인덱스들을 위치별로 가중하는 것에 기초하여 누적된 합을 생성하는 것; 및using the selected first, second, and third dimensional indices to generate a cumulative sum based on positionally weighting the selected first, second, and third dimensional indices by squares of a cardinality; and

누적된 합을 가장 가까운 셀의 선택을 위한 셀 인덱스로서 사용하는 것을 추가로 포함하는, 컴퓨터 구현 방법.The computer implemented method further comprising using the accumulated sum as a cell index for selection of the closest cell.

4. 항목 1에 있어서, 거리들은 특정 셀의 셀 좌표들과 요소들의 서브세트 내의 요소들의 요소 좌표 사이에서 계산되는, 컴퓨터 구현 방법.4. The computer-implemented method of item 1, wherein distances are calculated between cell coordinates of a particular cell and element coordinates of elements within a subset of elements.

5. 항목 1에 있어서, 서열은 아미노산의 단백질 서열인, 컴퓨터 구현 방법.5. The computer-implemented method of item 1, wherein the sequence is a protein sequence of amino acids.

6. 항목 5에 있어서, 요소들은 아미노산의 원자들인, 컴퓨터 구현 방법.6. The computer-implemented method of item 5, wherein the elements are atoms of amino acids.

7. 항목 6에 있어서, 요소-셀 맵핑을 생성하는 단계, 셀-요소 맵핑을 생성하는 단계, 및 셀-요소 맵핑을 사용하여, 셀들 각각에 대해 가장 가까운 요소를 결정하는 단계는 O(a * f + v)의 런타임 복잡도를 갖고,7. The method of item 6, wherein generating the element-cell mapping, generating the cell-element mapping, and using the cell-element mapping to determine the closest element for each of the cells are O(a * f + v) has a runtime complexity of

a는 원자들의 수이고,a is the number of atoms,

f는 아미노산의 수이고,f is the number of amino acids,

v는 셀들의 수이고,v is the number of cells,

*는 곱셈 연산인, 컴퓨터 구현 방법.* is a multiplication operation, computer implementation method.

8. 항목 7에 있어서, 원자들은 알파-탄소 원자들을 포함하는, 컴퓨터 구현 방법.8. The computer implemented method of item 7, wherein the atoms comprise alpha-carbon atoms.

9. 항목 7에 있어서, 원자들은 베타-탄소 원자들을 포함하는, 컴퓨터 구현 방법.9. The computer implemented method of item 7, wherein the atoms comprise beta-carbon atoms.

10. 항목 7에 있어서, 원자들은 비-탄소 원자들을 포함하는, 컴퓨터 구현 방법.10. The computer implemented method of item 7, wherein the atoms comprise non-carbon atoms.

11. 항목 1에 있어서, 셀들은 3차원 복셀들인, 컴퓨터 구현 방법.11. The computer-implemented method of item 1, wherein the cells are three-dimensional voxels.

12. 항목 11에 있어서, 셀 좌표들은 3차원 좌표들인, 컴퓨터 구현 방법.12. The computer-implemented method of item 11, wherein the cell coordinates are three-dimensional coordinates.

13. 항목 12에 있어서, 요소 좌표들은 3차원 좌표들인, 컴퓨터 구현 방법.13. The computer-implemented method of item 12, wherein the element coordinates are three-dimensional coordinates.

14. 항목 1에 있어서, 이웃 셀들은 가장 가까운 셀로부터 인덱스 인접성 범위 내에 있는 것에 기초하여 선택되는, 컴퓨터 구현 방법.14. The computer-implemented method of item 1, wherein neighboring cells are selected based on being within an index contiguity range from the nearest cell.

15. 항목 1에 있어서, 이웃 셀들은 가장 가까운 셀을 포함하는 그리드 내의 셀 이웃 내에 있는 것에 기초하여 선택되는, 컴퓨터 구현 방법.15. The computer-implemented method of item 1, wherein neighboring cells are selected based on being within a cell's neighborhood in a grid containing the closest cell.

16. 항목 1에 있어서, 서열은 M개의 요소들을 포함하고, 요소들의 서브세트는 N개의 요소들을 포함하고, M>> N인, 컴퓨터 구현 방법.16. The computer-implemented method of item 1, wherein the sequence comprises M elements and the subset of elements comprises N elements, and M>>N.

17. 단백질 내의 어느 원자들이 그리드 내의 복셀들에 가장 가까운지를 효율적으로 결정하는 컴퓨터 구현 방법으로서, 원자들은 3차원(3D) 원자 좌표들을 갖고, 복셀들은 3D 복셀 좌표들을 갖고, 컴퓨터 구현 방법은,17. A computer-implemented method for efficiently determining which atoms in a protein are closest to voxels in a grid, wherein the atoms have three-dimensional (3D) atomic coordinates and the voxels have 3D voxel coordinates, the computer-implemented method comprising:

원자들 각각에, 단백질의 특정 원자의 3D 원자 좌표들을 그리드 내의 3D 복셀 좌표들에 매칭시키는 것에 기초하여 선택된 함유 복셀을 맵핑하는 원자-복셀 맵핑을 생성하는 단계;generating, for each of the atoms, an atom-voxel mapping that maps selected containing voxels based on matching 3D atomic coordinates of a particular atom of the protein to 3D voxel coordinates in a grid;

복셀들 각각에, 원자들의 서브세트를 맵핑하는 복셀-원자 맵핑을 생성하는 단계로서, 그리드 내의 특정 복셀에 맵핑된 원자들의 서브세트는 원자-복셀 맵핑에 의해 특정 복셀에 맵핑되는 단백질 내의 그러한 원자들을 포함하는, 복셀-원자 맵핑을 생성하는 단계; 및 복셀-원자 맵핑을 사용하여, 복셀들 각각에 대해, 단백질 내의 가장 가까운 원자를 결정하는 단계를 포함하는, 컴퓨터 구현 방법.Creating a voxel-to-atom mapping that maps, to each of the voxels, a subset of atoms, wherein the subset of atoms mapped to a particular voxel in the grid corresponds to those atoms in the protein that are mapped to the particular voxel by the atom-to-voxel mapping. Generating a voxel-to-atom mapping, comprising: and determining, for each of the voxels, the nearest atom in the protein using voxel-to-atom mapping.

18. 항목 17에 있어서, 항목 17의 단계들은 O(원자들의 수)의 런타임 복잡도를 갖는, 컴퓨터 구현 방법.18. The computer-implemented method of item 17, wherein the steps of item 17 have a runtime complexity of O (number of atoms).

이 섹션에 기술된 방법의 다른 구현예들은 전술된 방법들 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 방법의 또 다른 구현예는 메모리 및 하나 이상의 프로세서들- 당해 메모리에 저장된 명령어들을 실행하여 전술된 방법들 중 임의의 것을 수행하도록 동작가능함 -을 포함하는 시스템을 포함할 수 있다.Other implementations of the methods described in this section may include a non-transitory computer-readable storage medium storing instructions executable by a processor to perform any of the methods described above. Another implementation of the methods described in this section may include a system that includes a memory and one or more processors, operable to perform any of the methods described above by executing instructions stored in the memory.

본 발명이 상기에 상술된 바람직한 구현예들 및 예들을 참조하여 개시되지만, 이러한 예들은 제한적인 의미가 아니라 예시적인 것으로 의도됨이 이해될 것이다. 수정들 및 조합들이 당업자에게 쉽게 떠오를 것이며, 이러한 수정들 및 조합들은 본 발명의 사상 및 하기의 청구범위의 범주 내에 있을 것이라는 것이 고려된다.Although the present invention is disclosed with reference to the preferred embodiments and examples detailed above, it will be understood that these examples are intended to be illustrative and not restrictive. It is contemplated that modifications and combinations will readily occur to those skilled in the art, and that such modifications and combinations are within the spirit of the invention and the scope of the following claims.

Claims (30)

시스템으로서,
단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 저장하는 메모리로서, 상기 아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,
상기 복셀별 거리 값들은 상기 복수의 복셀들 내의 대응하는 복셀들로부터 상기 복수의 아미노산 내의 대응하는 아미노산의 원자들까지의 거리들을 특정하는, 상기 메모리; 및
병원성 결정 엔진으로서,
상기 아미노산별 거리 채널들 및 변이체에 의해 발현된 상기 단백질의 대안적인 대립유전자 아미노산을 포함하는 텐서를 처리하도록, 그리고
상기 텐서에 적어도 부분적으로 기초하여 상기 변이체의 병원성을 결정하도록 구성되는, 상기 병원성 결정 엔진을 포함하는, 시스템.
As a system,
A memory that stores amino acid-specific distance channels for a plurality of amino acids in a protein, wherein each of the amino acid-specific distance channels has voxel-specific distance values for voxels in a plurality of voxels,
the memory, wherein the voxel-wise distance values specify distances from corresponding voxels within the plurality of voxels to atoms of corresponding amino acids within the plurality of amino acids; and
As a pathogenicity decision engine,
to process a tensor containing the amino acid-specific distance channels and alternative allelic amino acids of the protein expressed by the variant, and
A system, comprising the pathogenicity determination engine, configured to determine pathogenicity of the variant based at least in part on the tensor.
제1항에 있어서, 상기 아미노산의 각자의 잔기들의 알파-탄소 원자 상에 상기 복셀들의 복셀 그리드를 중심설정하는 거리 채널 생성기를 추가로 포함하는, 시스템.The system of claim 1 , further comprising a distance channel generator that centers a voxel grid of the voxels on the alpha-carbon atom of each residue of the amino acid. 제2항에 있어서, 상기 거리 채널 생성기는 상기 단백질 내의 변이체 아미노산에 위치된 특정 아미노산의 잔기의 알파-탄소 원자 상에 상기 복셀 그리드를 중심설정하는, 시스템.3. The system of claim 2, wherein the distance channel generator centers the voxel grid on the alpha-carbon atom of a residue of a particular amino acid located at a variant amino acid in the protein. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 텐서에, 상기 특정 아미노산에 선행하는 그러한 아미노산에 대한 복셀별 거리 값들을 방향성 파라미터와 곱함으로써 상기 아미노산의 방향성 및 상기 특정 아미노산의 위치를 인코딩하도록 추가로 구성되는, 시스템.4. The method of any one of claims 1 to 3, wherein the tensor encodes the directionality of the amino acid and the position of the particular amino acid by multiplying the voxel-wise distance values for that amino acid preceding the particular amino acid with a directionality parameter. A system further configured to: 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 거리들은 상기 복셀 그리드 내의 대응하는 복셀 중심들로부터 상기 대응하는 아미노산의 가장 가까운 원자들까지의 가장 가까운 원자 거리들인, 시스템.5. The system of any preceding claim, wherein the distances are nearest atomic distances from corresponding voxel centers in the voxel grid to nearest atoms of the corresponding amino acid. 제5항에 있어서, 상기 가장 가까운 원자 거리들은 유클리드 거리들인, 시스템.6. The system of claim 5, wherein the nearest atomic distances are Euclidean distances. 제5항 또는 제6항에 있어서, 상기 가장 가까운 원자 거리들은 상기 유클리드 거리들을 최대 가장 가까운 원자 거리로 나눔으로써 정규화되는, 시스템.7. The system of claim 5 or 6, wherein the nearest atomic distances are normalized by dividing the Euclidean distances by the maximum nearest atomic distance. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 아미노산은 알파-탄소 원자들을 갖고, 상기 거리들은 상기 대응하는 복셀 중심들로부터 상기 대응하는 아미노산의 가장 가까운 알파-탄소 원자들까지의 가장 가까운 알파-탄소 원자 거리들인, 시스템.8. The method of any one of claims 1 to 7, wherein the amino acid has alpha-carbon atoms, and the distances are from the corresponding voxel centers to the nearest alpha-carbon atoms of the corresponding amino acid. alpha-carbon atom distances, system. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 아미노산은 베타-탄소 원자들을 갖고, 상기 거리들은 상기 대응하는 복셀 중심들로부터 상기 대응하는 아미노산의 가장 가까운 베타-탄소 원자들까지의 가장 가까운 베타-탄소 원자 거리들인, 시스템.9. The method of any one of claims 1 to 8, wherein the amino acid has beta-carbon atoms, and the distances are from the corresponding voxel centers to the nearest beta-carbon atoms of the corresponding amino acid. Beta-carbon atom distances, system. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 아미노산은 백본 원자들을 갖고, 상기 거리들은 상기 대응하는 복셀 중심들로부터 상기 대응하는 아미노산의 가장 가까운 백본 원자들까지의 가장 가까운 백본 원자 거리들인, 시스템.10. The method of any one of claims 1 to 9, wherein the amino acid has backbone atoms and the distances are the closest backbone atom distances from the corresponding voxel centers to the nearest backbone atoms of the corresponding amino acid. , system. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 아미노산은 측쇄 원자들을 갖고, 상기 거리들은 상기 대응하는 복셀 중심들로부터 상기 대응하는 아미노산의 가장 가까운 측쇄 원자들까지의 가장 가까운 측쇄 원자 거리들인, 시스템.11. The method of any one of claims 1 to 10, wherein the amino acid has side chain atoms, and the distances are the closest side chain atom distances from the corresponding voxel centers to the nearest side chain atoms of the corresponding amino acid. , system. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 텐서에, 각각의 복셀로부터 가장 가까운 원자까지의 거리를 특정하는 가장 가까운 원자 채널을 인코딩하도록 추가로 구성되고, 상기 가장 가까운 원자는 상기 아미노산 및 상기 아미노산의 원자 원소들에 관계없이 선택되는, 시스템.12. The method of any one of claims 1 to 11, further configured to encode in the tensor a nearest atom channel specifying the distance from each voxel to the nearest atom, wherein the nearest atom is the amino acid. and a system selected regardless of the atomic elements of the amino acid. 제12항에 있어서, 상기 거리는 유클리드 거리인, 시스템.13. The system of claim 12, wherein the distance is a Euclidean distance. 제12항 또는 제13항에 있어서, 상기 거리는 상기 유클리드 거리를 최대 거리로 나눔으로써 정규화되는, 시스템.14. The system of claim 12 or 13, wherein the distance is normalized by dividing the Euclidean distance by the maximum distance. 제12항 내지 제14항 중 어느 한 항에 있어서, 상기 아미노산은 비표준 아미노산을 포함하는, 시스템.15. The system of any one of claims 12-14, wherein the amino acids comprise non-standard amino acids. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 텐서는 복셀 중심의 미리정의된 반경 내에서 발견되지 않는 원자들을 특정하는 부재자(absentee) 원자 채널을 추가로 포함하고, 상기 부재자 원자 채널은 원-핫(one-hot) 인코딩되는, 시스템.16. The method of any one of claims 1 to 15, wherein the tensor further comprises an absentee atom channel that specifies atoms not found within a predefined radius of the voxel center, the absentee atom channel One-hot encoded,system. 제1항 내지 제16항 중 어느 한 항에 있어서, 상기 텐서는 상기 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 상기 대안적인 대립유전자 아미노산의 원-핫 인코딩을 추가로 포함하는, 시스템.17. The system of any one of claims 1 to 16, wherein the tensor further comprises a one-hot encoding of the alternative allelic amino acids encoded voxel-wise in each of the amino acid-wise distance channels. 제1항 내지 제17항 중 어느 한 항에 있어서, 상기 텐서는 상기 단백질의 기준 대립유전자 아미노산을 추가로 포함하는, 시스템.18. The system of any one of claims 1 to 17, wherein the tensor further comprises reference allelic amino acids of the protein. 제18항에 있어서, 상기 텐서는 상기 아미노산별 거리 채널들 각각에 복셀별로 인코딩되는 상기 기준 대립유전자 아미노산의 원-핫 인코딩을 추가로 포함하는, 시스템.19. The system of claim 18, wherein the tensor further comprises a one-hot encoding of the reference allele amino acid encoded voxel-by-voxel in each of the amino acid-wise distance channels. 제1항 내지 제19항 중 어느 한 항에 있어서, 상기 텐서는 복수의 종에 걸쳐 상기 아미노산의 보존 수준들을 특정하는 진화 프로파일들을 추가로 포함하는, 시스템.20. The system of any one of claims 1 to 19, wherein the tensor further comprises evolutionary profiles specifying levels of conservation of the amino acid across a plurality of species. 제1항 내지 제20항 중 어느 한 항에 있어서, 진화 프로파일 생성기를 추가로 포함하고, 상기 진화 프로파일 생성기는, 상기 복셀들 각각에 대해,
상기 아미노산 및 원자 카테고리들에 걸쳐 가장 가까운 원자를 선택하고,
상기 가장 가까운 원자를 포함하는 아미노산의 잔기에 대한 범아미노산 보존 빈도 서열을 선택하고,
상기 범아미노산 보존 빈도 서열을 상기 진화 프로파일들 중 하나로서 이용가능하게 하는, 시스템.
21. The method of any one of claims 1 to 20, further comprising an evolutionary profile generator, wherein for each of the voxels,
select the closest atom across the amino acid and atom categories,
Selecting a pan-amino acid conservation frequency sequence for the residue of the amino acid containing the closest atom,
A system that makes the pan-amino acid conservation frequency sequence available as one of the evolutionary profiles.
제21항에 있어서, 상기 범아미노산 보존 빈도 서열은 상기 복수의 종에서 관찰된 바와 같이 상기 잔기의 특정 위치에 대해 구성되는, 시스템.22. The system of claim 21, wherein the pan-amino acid conservation frequency sequence is constructed for specific positions of the residues as observed in the plurality of species. 제21항 또는 제22항에 있어서, 상기 범아미노산 보존 빈도 서열은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 시스템.23. The system of claim 21 or 22, wherein the pan-amino acid conservation frequency sequence specifies whether there is a missing conservation frequency for a particular amino acid. 제21항 내지 제23항 중 어느 한 항에 있어서, 상기 진화 프로파일 생성기는, 상기 복셀들 각각에 대해,
상기 아미노산 중 각자의 것들 내의 각자의 가장 가까운 원자들을 선택하고,
상기 가장 가까운 원자들을 포함하는 상기 아미노산의 각자의 잔기에 대해 각자의 아미노산당 보존 빈도들을 선택하고,
상기 아미노산당 보존 빈도들을 상기 진화 프로파일들 중 하나로서 이용가능하게 하는, 시스템.
The method of any one of claims 21 to 23, wherein the evolution profile generator is configured to, for each of the voxels,
Selecting the closest atoms in each of the amino acids,
selecting conservation frequencies per amino acid for each residue of the amino acid containing the closest atoms,
A system that makes the conservation frequencies per amino acid available as one of the evolutionary profiles.
제24항에 있어서, 상기 아미노산당 보존 빈도들은 상기 복수의 종에서 관찰된 바와 같이 상기 잔기들의 특정 위치에 대해 구성되는, 시스템.25. The system of claim 24, wherein the conservation frequencies per amino acid are plotted for specific positions of the residues as observed in the plurality of species. 제24항 또는 제25항에 있어서, 상기 아미노산당 보존 빈도들은 특정 아미노산에 대해 누락된 보존 빈도가 있는지의 여부를 특정하는, 시스템.26. The system of claim 24 or 25, wherein the conservation frequencies per amino acid specify whether there is a missing conservation frequency for a particular amino acid. 제1항 내지 제26항 중 어느 한 항에 있어서, 상기 텐서는 상기 아미노산에 대한 주석 채널들을 추가로 포함하고, 상기 주석 채널들은 상기 텐서에 원-핫 인코딩되는, 시스템.27. The system of any one of claims 1 to 26, wherein the tensor further comprises annotation channels for the amino acids, and the annotation channels are one-hot encoded in the tensor. 제1항 내지 제27항 중 어느 한 항에 있어서, 상기 텐서는 상기 아미노산의 각자의 구조들의 품질을 특정하는, 상기 아미노산에 대한 구조 신뢰도 채널들을 추가로 포함하는, 시스템.28. The system of any one of claims 1 to 27, wherein the tensor further comprises structural confidence channels for the amino acid, specifying the quality of the respective structures of the amino acid. 시스템으로서,
단백질 내의 아미노산에 대한 원자 카테고리별 거리 채널들을 저장하는 메모리로서, 상기 아미노산은 복수의 원자 카테고리들에 대한 원자를 갖고,
상기 복수의 원자 카테고리들 내의 원자 카테고리들은 상기 아미노산의 원자 원소들을 특정하고,
상기 원자 카테고리별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,
상기 복셀별 거리 값들은 상기 복수의 복셀들 내의 대응하는 복셀들로부터 상기 복수의 원자 카테고리들 내의 대응하는 원자 카테고리들 내의 원자들까지의 거리들을 특정하는, 상기 메모리; 및
병원성 결정 엔진으로서,
상기 원자 카테고리별 거리 채널들 및 변이체에 의해 발현된 상기 단백질의 대안적인 대립유전자 아미노산을 포함하는 텐서를 처리하도록, 그리고
상기 텐서에 적어도 부분적으로 기초하여 상기 변이체의 병원성을 결정하도록 구성되는, 상기 병원성 결정 엔진을 포함하는, 시스템.
As a system,
A memory that stores distance channels by atomic category for amino acids in a protein, wherein the amino acids have atoms for a plurality of atomic categories,
Atom categories within the plurality of atomic categories specify atomic elements of the amino acid,
Each of the distance channels for each atomic category has voxel-specific distance values for voxels within a plurality of voxels,
the memory, wherein the voxel-wise distance values specify distances from corresponding voxels within the plurality of voxels to atoms within corresponding atomic categories within the plurality of atomic categories; and
As a pathogenicity decision engine,
to process a tensor containing distance channels for each atomic category and alternative allelic amino acids of the protein expressed by the variant, and
A system, comprising the pathogenicity determination engine, configured to determine pathogenicity of the variant based at least in part on the tensor.
컴퓨터 구현 방법으로서,
단백질 내의 복수의 아미노산에 대한 아미노산별 거리 채널들을 저장하는 단계로서, 상기 아미노산별 거리 채널들 각각은 복수의 복셀들 내의 복셀들에 대한 복셀별 거리 값들을 갖고,
상기 복셀별 거리 값들은 상기 복수의 복셀들 내의 대응하는 복셀들로부터 상기 복수의 아미노산 내의 대응하는 아미노산의 원자들까지의 거리들을 특정하는, 상기 저장하는 단계; 상기 아미노산별 거리 채널들 및 변이체에 의해 발현된 상기 단백질의 대안적인 대립유전자를 포함하는 텐서를 처리하는 단계; 및
상기 텐서에 적어도 부분적으로 기초하여 상기 변이체의 병원성을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.
1. A computer implemented method, comprising:
A step of storing amino acid-specific distance channels for a plurality of amino acids in a protein, wherein each of the amino acid-specific distance channels has voxel-specific distance values for voxels in a plurality of voxels,
storing the voxel-wise distance values specifying distances from corresponding voxels in the plurality of voxels to atoms of corresponding amino acids in the plurality of amino acids; Processing a tensor containing the distance channels for each amino acid and alternative alleles of the protein expressed by the variant; and
A computer-implemented method comprising determining pathogenicity of the variant based at least in part on the tensor.
KR1020237034175A 2021-04-15 2022-04-14 Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures KR20230171930A (en)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US202163175495P 2021-04-15 2021-04-15
US17/232,056 2021-04-15
US17/232,056 US20220336054A1 (en) 2021-04-15 2021-04-15 Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
US63/175,495 2021-04-15
US202163175767P 2021-04-16 2021-04-16
US63/175,767 2021-04-16
US17/468,411 2021-09-07
US17/468,411 US11515010B2 (en) 2021-04-15 2021-09-07 Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures
US17/703,958 US20220336057A1 (en) 2021-04-15 2022-03-24 Efficient voxelization for deep learning
US17/703,958 2022-03-24
US17/703,935 US20220336056A1 (en) 2021-04-15 2022-03-24 Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks
US17/703,935 2022-03-24
PCT/US2022/024913 WO2022221589A1 (en) 2021-04-15 2022-04-14 Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3d) protein structures

Publications (1)

Publication Number Publication Date
KR20230171930A true KR20230171930A (en) 2023-12-21

Family

ID=81580106

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237034175A KR20230171930A (en) 2021-04-15 2022-04-14 Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures

Country Status (8)

Country Link
EP (1) EP4323990A1 (en)
JP (1) JP2024513994A (en)
KR (1) KR20230171930A (en)
AU (1) AU2022256491A1 (en)
BR (1) BR112023021302A2 (en)
CA (1) CA3215462A1 (en)
IL (1) IL307671A (en)
WO (2) WO2022221589A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153435B (en) * 2023-04-21 2023-08-11 山东大学齐鲁医院 Polypeptide prediction method and system based on coloring and three-dimensional structure

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ759804A (en) * 2017-10-16 2022-04-29 Illumina Inc Deep learning-based techniques for training deep convolutional neural networks
EP3704640A4 (en) * 2017-10-27 2021-08-18 Apostle, Inc. Predicting cancer-related pathogenic impact of somatic mutations using deep learning-based methods
CN110245685B (en) * 2019-05-15 2022-03-25 清华大学 Method, system and storage medium for predicting pathogenicity of genome single-site variation

Also Published As

Publication number Publication date
CA3215462A1 (en) 2022-10-20
WO2022221587A1 (en) 2022-10-20
JP2024513994A (en) 2024-03-27
EP4323990A1 (en) 2024-02-21
IL307671A (en) 2023-12-01
AU2022256491A1 (en) 2023-10-26
BR112023021302A2 (en) 2023-12-19
WO2022221589A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
US20230207064A1 (en) Inter-model prediction score recalibration during training
WO2023014912A1 (en) Transfer learning-based use of protein contact maps for variant pathogenicity prediction
WO2023129955A1 (en) Inter-model prediction score recalibration
US20220336056A1 (en) Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks
KR20230171930A (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures
US11515010B2 (en) Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures
KR20230170679A (en) Efficient voxelization for deep learning
US20230045003A1 (en) Deep learning-based use of protein contact maps for variant pathogenicity prediction
US20230245305A1 (en) Image-based variant pathogenicity determination
US20230047347A1 (en) Deep neural network-based variant pathogenicity prediction
US11538555B1 (en) Protein structure-based protein language models
US20230343413A1 (en) Protein structure-based protein language models
CN117178326A (en) Deep convolutional neural network using three-dimensional (3D) protein structures to predict variant pathogenicity
WO2023059750A1 (en) Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection
KR20240041877A (en) Transfer learning-based use of protein contact maps to predict variant pathogenicity
CN117581302A (en) Combinatorial learning and transfer learning using variant pathogenicity predictors for gapped and non-gapped protein samples
CN117546242A (en) Protein language model based on protein structure
WO2024030606A1 (en) Artificial intelligence-based detection of gene conservation and expression preservation at base resolution