KR20180071299A - 단일 뉴클레오타이드 다형 및 인델의 다대립유전자 유전자형분석 - Google Patents

단일 뉴클레오타이드 다형 및 인델의 다대립유전자 유전자형분석 Download PDF

Info

Publication number
KR20180071299A
KR20180071299A KR1020187013712A KR20187013712A KR20180071299A KR 20180071299 A KR20180071299 A KR 20180071299A KR 1020187013712 A KR1020187013712 A KR 1020187013712A KR 20187013712 A KR20187013712 A KR 20187013712A KR 20180071299 A KR20180071299 A KR 20180071299A
Authority
KR
South Korea
Prior art keywords
allele
sample
signal
amplification
call
Prior art date
Application number
KR1020187013712A
Other languages
English (en)
Inventor
제레미 나단 골럽
마이클 에이치 샤페로
도로시 올리버
데보라 블랙
파루크 시디퀴
Original Assignee
아피메트릭스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아피메트릭스, 인코포레이티드 filed Critical 아피메트릭스, 인코포레이티드
Publication of KR20180071299A publication Critical patent/KR20180071299A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • G06F19/18
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/143Multiplexing, i.e. use of multiple primers or probes in a single reaction, usually for simultaneously analyse of multiple analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2539/00Reactions characterised by analysis of gene expression or genome comparison
    • C12Q2539/10The purpose being sequence identification by analysis of gene expression or genome comparison characterised by
    • C12Q2539/115Comparative genomic hybridisation [CGH]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/501Detection characterised by immobilisation to a surface being an array of oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material

Abstract

다대립유전자 마커를 유전자형분석하기 위한, 방법 및 어레이 기반 방법에 대한 시스템이 개시되어 있다. 생성된 데이터에서 원치 않는 위유전자의 효과를 감소시키기 위해 증폭을 선택적으로 편향시키기 위한, 전체 게놈 증폭 및 유전좌위 특이적 다중 PCR에 대한 방법이 본 명세서에 또한 개시되어 있다.

Description

단일 뉴클레오타이드 다형 및 인델의 다대립유전자 유전자형분석
관련 출원에 대한 상호 참조
본 출원은 2015년 10월 18일자로 출원된 미국 출원 제62/243,078호(이의 개시내용은 그 전문이 참고로 본 명세서에 포함됨)에 대한 우선권을 주장한다.
기술분야
본 명세서에 기재된 양태는 일반적으로 다대립유전자 유전자형분석(multiallelic genotyping)을 위한 시스템 및 방법에 관한 것이다. 특히, 본 개시내용의 하나 이상의 양태는 단일 뉴클레오타이드 다형(single nucleotide polymorphism: SNP) 및 인델(indel)을 포함하는 다대립유전자 마커를 유전자형분석하는 어레이 기반 방법, 및 샘플에서의 각각의 변이체에서의 다수의 대립유전자의 유전자형 정보를 결정하기 위한 알고리즘에 관한 것이다.
합성된 핵산 프로브 어레이, 예컨대 아피메트릭스(등록상표) 어레이(아피메트릭스, 인크.(Affymetrix, Inc.)(캘리포니아주 산타 클라라))는 생물학적 시스템에 관한 정보의 전례 없는 양을 생성하도록 사용된다. 예를 들어, 어레이는 어레이마다 100만 개의 단일 뉴클레오타이드 다형(SNP)을 유전자형분석하기에 충분한 프로브를 함유할 수 있다. 이러한 마이크로어레이로부터의 유전자형 데이터의 분석은 새로운 약물, 식물, 동물, 박테리아, 고세균 및 진균을 포함하는 유기체의 새로운 변종 또는 균주, 및 유전적 정보(특정한 표적 집단 및/또는 개체에 맞춰진 정보를 포함)에 기초한 새로운 진단학적 도구 및 치료의 개발, 및 암과 같은 질환에 대한 이러한 정보의 상관관계를 발생시킬 수 있다.
대부분의 SNP 및 인델(예를 들어, 염기의 삽입 또는 결실)은 유전 변이에서 2개의 대립유전자가 존재할 수 있는 이대립인자성일 수 있다. 따라서, 종래의 유전자형분석 방법은 2개의 대립유전자를 식별하기 위한 이대립인자성 방법에 관할 수 있지만, 몇몇 유전 변이체는 2개 초과의 가능한 대립유전자를 가질 수 있다. 즉, 다대립유전자 변이체를 유전자형 분석하는 데 관심이 증가하고, 여기서 다수의 대안적인 대립유전자는 다수의 이대립인자성 변이체의 대립유전자에 의해 한정된 단상형과 반대로 단일 유전좌위로 존재한다. 예를 들어, 게놈 데이터, 예컨대 1000 Genomes Project로부터 얻은 것은 약 400,000개의 다대립유전자 SNP 및 인델을 함유할 수 있다. 마이크로어레이 플레이트, 예컨대 아피메트릭스(등록상표) 액시엄(Axiom)(등록상표) 어레이는 약물 대사에 상당한 영향을 미치는 다대립유전자 변이체의 수십 개의 패널을, 어떤 교대하는 대립유전자가 다대립유전자 변이체의 수십 개의 패널에 존재하는지에 따라, 함유할 수 있다. 따라서, 유전자형분석에서 다대립유전자 변이체를 식별하기 위한 새로운 접근법의 수요가 존재한다.
하기는 다양한 본 명세서에 기재된 양태의 단순화된 요약을 제시한다. 이 요약은 광범위한 개관이 아니고, 중요하거나 중대한 요소를 확인하고 청구항의 범위를 서술하도록 의도되지 않는다. 하기 요약은 단지 하기 제공된 더 상세한 설명에 대한 도입부의 서문으로서 단순화된 형태로 일부 개념을 제시한다.
본 명세서에 기재된 양태는 본 명세서에 기재된 다대립유전자 유전자형분석 및 다른 방법을 위한 시스템, 방법 및 알고리즘에 관한 것이다. 유전자형분석 방법은 통상적으로 마커 또는 게놈 변이체에 대한 1개의 기준 대립유전자 및 1개의 대안적인 대립유전자를 취한다. 본 명세서에 개시된 다대립유전자 유전자형분석 알고리즘은 1개 초과의 변이체를 가지는 다대립유전자 마커를 취급하기 위해 종래의 유전자형분석 방법으로부터 연장된다. 즉, 본 명세서에 개시된 방법은 한 번에 고려되는 대립유전자의 수를 감소시키기 위해 각각의 샘플에 대한 각각의 변이체에서 고려하기 위한 2개의 대립유전자를 선택함으로써 다대립유전자 SNP 및 인델을 유전자형분석할 수 있다.
구체적인 실시형태에 따라, 컴퓨터 시스템을 사용하여 하나 이상의 다대립유전자 마커를 유전자형분석하는 방법이 본 명세서에 개시되어 있다. 방법은 각각의 다대립유전자에 대해 하나 이상의 샘플에서 하나 이상의 다대립유전자 마커에 대한 신호를 획득하는 단계, 하나 이상의 샘플로부터의 복수의 대립유전자 쌍에서 대립유전자의 각각의 쌍에 대한 신호를 클러스터링하여 각각의 대립유전자 쌍을 나타내는 클러스터를 생성시키는 단계, 동형접합성 대립유전자 쌍을 나타내는 각각의 동형접합성 클러스터에 대해, 대안적인 대립유전자에 대한 배경 신호의 계산을 위해 대안적인 대립유전자에 대한 신호를 수집하여 각각의 대립유전자를 각각 나타내는 복수의 배경 신호를 생성시키는 단계, 신호 및 배경 신호에 기초하여 각각의 대립유전자 쌍에 대한 각각의 샘플에 대해 초기 유전자형 콜(call)을 배정하는 단계, 초기 유전자형 콜 및 프라이어 클러스터 매개변수를 사용하여 각각의 클러스터에 대한 다변량 정규 분포를 계산하는 단계, 각각의 클러스터에 대한 각각의 다변량 정규 분포에 대해, 구성원의 대수 우도에 기초하여 각각의 샘플에 대한 구성원의 대수 우도를 계산하는 단계, 각각의 샘플에 대해 각각의 클러스터에서의 구성원의 확률을 계산하는 단계, 및 구성원의 확률에 기초하여 각각의 샘플에 최종 유전자형 콜을 배정하는 단계를 포함할 수 있다.
추가의 실시형태에 따라, 증폭산물의 제조를 위해 전체 게놈 증폭 및 유전좌위 특이적 다중 중합효소 연쇄 반응(multiplex polymerase chain reaction: mPCR) 을 이용하는 방법이 또한 개시된다. 이들 방법은 관심 있는 원하는 마커에 대한 데이터를 유전자형분석하는 것의 품질을 개선하고 생성된 데이터에서 원치않는 위유전자의 효과를 감소시키기 위해 증폭을 선택적으로 바이어싱하는 것에 관한 것일 수 있다. 방법은 (예를 들어, 추출에 의해) 게놈 DNA를 얻는 단계, 전체 게놈 증폭을 게놈 DNA에 적용하는 단계, 및 유전좌위 특이적 mPCR을 수행하여 원하는 유전자 변이체의 증폭산물의 증가한 수를 얻는 단계를 포함할 수 있다. 생성된 DNA 샘플은 다대립유전자 유전자형분석에 이용될 수 있는 어레이에 단편화되고 혼성화될 수 있다. 관심 있는 변이체이 증폭을 향한 의도적인 불균형 또는 편향을 생성함으로써, 하류 생물정보학 분석이 개선될 수 있다.
추가의 실시형태에 따라, 본 개시내용은 생물학적 검정 또는 시험 또는 실험을 평가하고 결과를 제공하거나 평가하기 위해 함께 또는 독립적으로 사용될 수 있는 방법 및/또는 시스템 및/또는 장치와 관련된다. 구체적인 실시형태에서, 본 개시내용은 본 명세서에 기재된 바와 같이 데이터에 접근하고 단계를 수행하기 위해 논리 명령어 또는 모듈에 의해 구성된, 정보 프로세싱 장치, 예컨대 컴퓨터 또는 실험실 장비와 관련된다. 추가의 실시형태에서, 본 발명은 실감 매체에 기록된 논리 명령어 및/또는 데이터와 관련된다.
이들 및 추가의 양태는 하기 더 자세히 기재된 본 개시내용의 이익에 의해 이해될 것이다.
특허 또는 출원 파일은 컬러로 수행된 적어도 하나의 도면을 함유한다. 컬러 도면(들)을 가지는 이 특허 또는 특허 출원 공보의 사본은 신청 및 필요한 비용의 지불 시 특허청에 의해 제공될 것이다. 본 명세서에 기재된 양태 및 이의 이점의 더 완전한 이해는 수반된 도면의 고려 시 하기 설명을 참조함으로써 획득될 수 있고, 이 도면에서 동일한 참조 번호는 동일한 특징을 나타내고, 여기서
도 1은 본 발명의 실시형태의 소프트웨어를 실행하기 위해 이용될 수 있는 컴퓨터 시스템의 예를 예시한다.
도 2는 도 1의 컴퓨터 시스템의 시스템 블록 다이어그램을 예시한다.
도 3은 콘트라스트 및 크기로의 대립유전자 강도의 대수 변환을 위한 예시적인 선도를 예시한다.
도 4는 이대립인자성 유전자형분석 알고리즘에서 클러스터로 배정된 샘플의 예시적인 선도를 예시한다.
도 5는 다대립유전자 유전자형분석 방법에 대한 높은 수준의 흐름도를 예시한다.
도 6A, 도 6B 및 도 6C는 각각의 대립유전자 쌍에 대한 배경 신호 계산의 예시적인 선도를 예시한다.
도 7A, 도 7B 및 도 7C는 유전자형분석된 샘플의 하위세트의 초기 분할의 예시적인 선도를 예시한다.
도 8은 다대립유전자 유전자형분석에 대한 N차원 가우시안 혼합 모델의 예를 예시한다.
도 9는 모든 다대립유전자 프로브세트를 포함하는 평균 클러스터 일치율에 대한 다대립유전자 콜 비율의 예시적인 선도를 예시한다.
도 10은 몇몇 전환된 프로브세트에 대한 콜 및 기준 유전자형의 예시적인 선도를 예시한다.
도 11은 단일 유전자(예를 들어, CYP2D6)의 유전좌위 특이적 증폭 및 전체 게놈 증폭(whole genome amplification: WGA)의 조합에 대한 단계의 흐름의 예시적인 다이어그램을 예시한다.
도 12는 도 11에 예시된 2개의 접근법을 수행하는 것으로부터 얻은 결과의 유전자형분석 선도를 예시한다.
도 13은 본 개시내용의 하나 이상의 양태에 따른 개시된 증폭 접근법에서의 작업흐름의 예시적인 다이어그램을 예시한다.
도 14는 본 개시내용의 하나 이상의 양태에 따른 실행가능성에 대해 시험된 프라이머 세트를 다중화의 예시적인 표를 예시한다.
도 15는 본 개시내용의 하나 이상의 양태에 따른 올리고뉴클레오타이드 스파이크-인(spike-in) 연구로부터의 유전자형분석 결과의 예를 예시한다.
도 16은 본 개시내용의 하나 이상의 양태에 따른 15-플렉스 mPCR 검정으로부터의 결과의 예시적인 표를 예시한다.
일반사항
본 개시내용은 많은 바람직한 실시형태를 가지고, 당업자에게 공지된 세부사항에 대해 많은 특허, 출원 및 다른 참고문헌에 의존한다. 따라서, 특허, 출원 또는 다른 참고문헌이 하기 인용되거나 반복될 때, 이것이 모든 목적을 위해 또한 인용된 명제를 위해 그 전문이 참고문헌으로 포함되는 것으로 이해되어야 한다.
본 출원에 사용된 바대로, 단수 형태 "일", "하나" 및 "이"는, 문맥이 명확히 달리 기재되지 않는 한, 복수 지시어를 포함한다. 예를 들어, 용어 "물질"은 혼합물을 포함하는 복수의 물질을 포함한다.
개체는 인간으로 제한되지 않지만, 또한 포유류, 식물, 박테리아, 또는 임의의 상기로부터 유래한 세포(이들로 제한되지는 않음)를 포함하는 다른 유기체일 수 있다.
본 개시내용에 걸쳐, 본 개시내용의 다양한 양태는 범위 포맷으로 제시될 수 있다. 범위 포맷의 설명이 단지 편의 및 간결함을 위한 것으로 이해되어야 하고, 본 개시내용의 범위에 대한 융통성 없는 제한으로서 해석되지 않아야 한다. 따라서, 범위의 설명은 구체적으로 모든 가능한 하위범위, 및 그 범위 내의 개별 숫자 값을 개시하는 것으로 고려되어야 한다. 예를 들어, 1 내지 6과 같은 범위의 설명은 구체적으로 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6등과 같은 하위범위, 및 1, 2, 3, 4, 5 및 6과 같은 그 범위 내의 개별 숫자를 개시하는 것으로 고려되어야 한다. 이것은 범위의 폭과 무관하게 적용된다. 달리 기재되지 않는 한, 함수 로그에 대한 모든 참조는 기본(자연 로그)으로서 e로 디폴팅된다(예컨대, log.sub.10).
본 개시내용의 실행은, 달리 표시되지 않는 한, 당해 분야의 기술 내에 있는, 유기 화학, 중합체 기술, 분자 생물학(재조합 기법 포함), 세포 생물학, 생화학 및 면역학의 종래의 기법 및 설명을 이용할 수 있다. 이러한 종래의 기법은 중합체 어레이 합성, 혼성화, 결찰 및 라벨을 사용한 혼성화의 검출을 포함한다. 적합한 기법의 구체적인 예시는 하기 본 명세서에서의 예를 참조하여 이루어질 수 있다. 그러나, 다른 균등한 종래의 절차는 물론 또한 이용될 수 있다. 이러한 종래의 기법 및 설명은 표준 실험실 매뉴얼, 예컨대 문헌[Genome Analysis: A Laboratory Manual Series (Vols. I-IV), Using Antibodies: A Laboratory Manual, Cells: A Laboratory Manual, PCR Primer: A Laboratory Manual, and Molecular Cloning: A Laboratory Manual (all from Cold Spring Harbor Laboratory Press), Stryer, L. (1995) Biochemistry (4th Ed.) Freeman, N.Y., Gait, "Oligonucleotide Synthesis: A Practical Approach" 1984, IRL Press, London, Nelson and Cox (2000), Lehninger, Principles of Biochemistry 3rd Ed., W.H. Freeman Pub., New York, N.Y. and Berg et al. (2002) Biochemistry, 5th Ed., W.H. Freeman Pub., New York, N.Y.](이들 모두 모든 목적을 위해 그 전문이 참고로 본 명세서에 포함됨)]에서 발견될 수 있다.
본 개시내용은 몇몇 바람직한 실시형태에서 어레이를 포함하는 고체 기판을 사용할 수 있다. 중합체(단백질 포함) 어레이 합성에 적용 가능한 방법 및 기법은 미국 출원 제09/536,841호, WO 제00/58516호, 미국 특허 제5,143,854호, 제5,242,974호, 제5,252,743호, 제5,324,633호, 제5,384,261호, 제5,405,783호, 제5,424,186호, 제5,451,683호, 제5,482,867호, 제5,491,074호, 제5,527,681호, 제5,550,215호, 제5,571,639호, 제5,578,832호, 제5,593,839호, 제5,599,695호, 제5,624,711호, 제5,631,734호, 제5,795,716호, 제5,831,070호, 제5,837,832호, 제5,856,101호, 제5,858,659호, 제5,936,324호, 제5,968,740호, 제5,974,164호, 제5,981,185호, 제5,981,956호, 제6,025,601호, 제6,033,860호, 제6,040,193호, 제6,090,555호, 제6,136,269호, 제6,269,846호 및 제6,428,752호, PCT 출원 PCT/US99/00730(국제 공보 WO 제99/36760호) 및 PCT/US01/04285(이들 모두 모든 목적을 위해 그 전문이 참고로 본 명세서에 포함됨)]에 기재되어 있다.
구체적인 실시형태에서 합성 기법을 기재하는 특허는 미국 특허 제5,412,087호, 제6,147,205호, 제6,262,216호, 제6,310,189호, 제5,889,165호 및 제5,959,098호를 포함한다. 핵산 어레이는 많은 상기 특허에 기재되어 있지만, 동일한 기법은 폴리펩타이드 어레이에 적용된다.
본 개시내용에서 유용한 핵산 어레이는 브랜드명 GeneChip(등록상표) 하에 아피메트릭스(캘리포니아주 산타 클라라)로부터 상업적으로 구입 가능한 것을 포함한다. 예시적인 어레이는 웹사이트 affymetrix.com.에서 보인다.
본 개시내용은 또한 고체 기판에 부착된 중합체에 대한 많은 용도를 고려한다. 이 용도는 유전자 발현 모니터링, 프로파일링, 라이브러리 스크리닝, 유전자형분석 및 진단학을 포함한다. 유전자 발현 모니터링 및 프로파일링 방법은 미국 특허 제5,800,992호, 제6,013,449호, 제6,020,135호, 제6,033,860호, 제6,040,138호, 제6,177,248호 및 제6,309,822호에서 보일 수 있다. 유전자형분석 및 용도는 따라서 미국 출원 제60/319,253호, 제10/013,598호, 및 미국 특허 제5,856,092호, 제6,300,063호, 제5,858,659호, 제6,284,460호, 제6,361,947호, 제6,368,799호 및 제6,333,179호에서 보인다. 다른 용도는 미국 특허 제5,871,928호, 제5,902,723호, 제6,045,996호, 제5,541,061호 및 제6,197,506호에서 구현된다.
본 개시내용은 또한 소정의 바람직한 실시형태에서 샘플 제조 방법을 고려한다. 유전자형분석 전 또는 이와 동시에, 게놈 샘플은 다양한 기전에 의해 증폭될 수 있고, 이들 중 몇몇은 PCR을 이용할 수 있다. 예를 들어, 문헌[PCR Technology: Principles and Applications for DNA Amplification (Ed. H. A Erlich, Freeman Press, NY, N.Y., 1992); PCR Protocols: A Guide to Methods and Applications (Eds. Innis, et al., Academic Press, San Diego, Calif., 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Eds. McPherson et al., IRL Press, Oxford)]; 및 미국 특허 제4,683,202호, 제4,683,195호, 제4,800,159호, 제4,965,188호 및 제5,333,675호(이들은 각각 모든 목적을 위해 그 전문이 참고로 본 명세서에 포함됨)]를 참조한다. 샘플은 어레이에서 증폭될 수 있다. 예를 들어, 미국 특허 제6,300,070호 및 미국 특허 출원 제09/513,300호(참고로 본 명세서에 포함됨)]를 참조한다.
다른 적합한 증폭 방법은 리가제 사슬 반응(ligase chain reaction: LCR)(예를 들어, Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988) and Barringer et al. Gene 89:117 (1990)), transcription amplification (Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989) and WO88/10315), self-sustained sequence replication (Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990) 및 WO90/06995), 표적 폴리뉴클레오타이드 서열의 선택적 증폭(미국 특허 제6,410,276호), 공통 서열 프라이밍된 중합효소 연쇄 반응(CP-PCR)(미국 특허 제4,437,975호), 임의로 프라이밍된 중합효소 연쇄 반응(AP-PCR)(미국 특허 제5,413,909호, 제5,861,245호) 및 핵산 기반 서열 증폭(NASBA)을 포함한다. (미국 특허 제5,409,818호, 제5,554,517호 및 6,063,603호(이들은 각각 참고로 본 명세서에 포함됨)를 참조한다). 이용될 수 있는 다른 증폭 방법은 PCT 특허 출원 PCT/US87/00880에 기재된 Qbeta 복제효소, 등온 증폭 방법, 예컨대 문헌[Walker et al. 1992, Nucleic Acids Res. 20(7):1691-6, 1992]에 기재된 SDA 및 미국 특허 제5,648,245호에 기재된 회전환 증폭을 포함한다. 이용될 수 있는 다른 증폭 방법은 미국 특허 제5,242,794호, 제5,494,810호, 제4,988,617호 및 미국 출원 제09/854,317호 및 미국 공보 제20030143599호(이들은 각각 참고로 본 명세서에 포함됨)에 기재되어 있다. 몇몇 실시형태에서, DNA는 다중 유전좌위 특이적 PCR에 의해 증폭된다. 다른 실시형태에서, DNA는 어댑터-결찰 및 단일 프라이머 PCR을 사용하여 증폭된다. 또한, 다른 구입 가능한 증폭 방법, 예컨대 균형화 PCR(Makrigiorgos, et al. (2002), Nat Biotechnol, Vol. 20, pp. 936-9)을 이용할 수 있다.
샘플 제조의 추가의 방법 및 핵의 샘플의 복잡함을 감소시키기 위한 기법은 문헌[Dong et al., Genome Research 11, 1418 (2001)], 미국 특허 제6,361,947호, 제6,391,592호 및 미국 특허 출원 제09/916,135호, 제09/920,491호, 제09/910,292호 및 제10/013,598호에 기재되어 있다.
폴리뉴클레오타이드 혼성화 검정을 수행하기 위한 방법은 당해 분야에서 널리 개발되었다. 혼성화 검정 절차 및 조건은 분야에 따라 달라질 것이고, 문헌[Maniatis et al. Molecular Cloning: A Laboratory Manual (2.sup.nd Ed. Cold Spring Harbor, N.Y., 1989); Berger and Kimmel Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young and Davism, P.N.A.S, 80: 1194 (1983)]에 언급된 것을 포함하는 공지된 일반 결합 방법에 따라 선택된다. 반복된 및 제어된 혼성화 반응을 수행하기 위한 방법 및 장치는 미국 특허 제5,871,928호, 제5,874,219호, 제6,045,996호 및 제6,386,749호, 제6,391,623호(이들은 각각 본 명세서에 참고로 포함됨)에 기재되어 있다.
본 개시내용은 또한 소정의 바람직한 실시형태에서 리간드 사이의 혼성화의 신호 검출을 고려한다. 미국 특허 제5,143,854호, 제5,578,832호; 제5,631,734호; 제5,834,758호; 제5,936,324호; 제5,981,956호; 제6,025,601호; 제6,141,096호; 제6,185,030호; 제6,201,639호; 제6,218,803호; 및 제6,225,625호, 미국 특허 출원 제60/364,731호 및 PCT 출원 PCT/US99/06097(WO99/47964로 공개됨)(이들은 각각 또한 모든 목적을 위해 본 명세서에 그 전문이 참고로 포함됨)를 참조한다.
신호 검출 및 강도 데이터의 프로세싱을 위한 방법 및 장치는 예를 들어 미국 특허 제5,143,854호, 제5,547,839호, 제5,578,832호, 제5,631,734호, 제5,800,992호, 제5,834,758호; 제5,856,092호, 제5,902,723호, 제5,936,324호, 제5,981,956호, 제6,025,601호, 제6,090,555호, 제6,141,096호, 제6,185,030호, 제6,201,639호; 제6,218,803호; 및 제6,225,625호, 미국 특허 출원 제60/364,731호 및 PCT 출원 PCT/US99/06097(WO99/47964로 공개됨)(이들은 각각 또한 모든 목적을 위해 본 명세서에 그 전문이 참고로 포함됨)에 개시되어 있다.
본 개시내용의 실행은 종래의 생물학 방법, 소프트웨어 및 시스템을 또한 사용할 수 있다. 본 개시내용의 컴퓨터 소프트웨어 제품은 통상적으로 본 개시내용의 방법의 논리 단계를 수행하기 위한 컴퓨터 실행 가능한 명령어를 가지는 컴퓨터 판독 가능한 매체를 포함한다. 적합한 컴퓨터 판독 가능한 매체는 플로피 디스크, CD-ROM/DVD/DVD-ROM, 하드 디스크 드라이브, 플래시 메모리, ROM/RAM, 자기 테이프 등을 포함한다. 컴퓨터 실행 가능한 명령어는 적합한 컴퓨터 언어 또는 몇몇 언어의 조합으로 쓰기가 될 수 있다. 기본 컴퓨팅 생물학 방법은 예를 들어 문헌[Setubal and Meidanis et al., Introduction to Computational Biology Methods (PWS Publishing Company, Boston, 1997); Salzberg, Searles, Kasif, (Ed.), Computational Methods in Molecular Biology, (Elsevier, Amsterdam, 1998); Rashidi and Buehler, Bioinformatics Basics: Application in Biological Science and Medicine (CRC Press, London, 2000) 및 Ouelette and Bzevanis Bioinformatics: A Practical Guide for Analysis of Gene and Proteins (Wiley & Sons, Inc., 2nd ed., 2001)]에 기재되어 있다.
본 개시내용은 또한 다양한 목적, 예컨대 프로브 설계, 데이터의 관리, 분석 및 기기 조작을 위한 다양한 컴퓨터 프로그램 제품 및 소프트웨어를 사용할 수 있다. 미국 특허 제5,593,839호, 제5,795,716호, 제5,733,729호, 제5,974,164호, 제6,066,454호, 제6,090,555호, 제6,185,561호, 제6,188,783호, 제6,223,127호, 제6,229,911호 및 제6,308,170호를 참조한다. 고밀도 마이크로어레이 분석을 이용한 유전자형분석에 관한 컴퓨터 방법은 또한 본 방법에서 사용될 수 있고, 예를 들어 미국 특허 공보 제20050250151호, 제20050244883호, 제20050108197호, 제20050079536호 및 제20050042654호를 참조한다.
추가로, 본 개시내용은 미국 특허 출원 제10/063,559호, 제60/349,546호, 제60/376,003호, 제60/394,574호, 제60/403,381호에 보이는 것처럼 네트워크, 예컨대 인터넷으로 유전적 정보를 제공하기 위한 방법을 포함하는 바람직한 실시형태를 가질 수 있다.
정의
본 개시내용에 따른 핵산은 피리미딘 및 퓨린 염기, 바람직하게는 각각 사이토신, 타이민 및 유라실, 및 아데닌 및 구아닌의 임의의 중합체 또는 올리고머를 포함할 수 있다. (문헌[Albert L. Lehninger, Principles of Biochemistry, at 793-800 (Worth Pub. 1982](모든 목적을 위해 본 명세서에 그 전문이 포함됨)을 참조한다). 실제로, 본 개시내용은 임의의 데옥시리보뉴클레오타이드, 리보뉴클레오타이드 또는 펩타이드 핵산 성분, 및 임의의 이들의 화학 변이체, 예컨대 이들 염기의 메틸화, 하이드록시메틸화 또는 그루코실레이트화 형태 등을 고려한다. 중합체 또는 올리고머는 조성물에서 불균일 또는 균일할 수 있고, 천연 발생 소스로부터 단리될 수 있거나 인공으로 또는 합성으로 제조될 수 있다. 또한, 핵산은 DNA 또는 RNA, 또는 이들의 혼합물일 수 있고, 호모듀플렉스, 헤테로듀플렉스 및 하이브리드 상태를 포함하는 단일 가닥 또는 이중 가닥 형태로 영구적으로 또는 일시적으로 존재할 수 있다.
올리고뉴클레오타이드 또는 폴리뉴클레오타이드는 적어도 2개, 바람직하게는 적어도 8개, 15개 또는 20개의 뉴클레오타이드 길이의 범위의 핵산이지만, 50개 이하, 100개, 1000개 또는 5000개의 뉴클레오타이드 길이 또는 폴리뉴클레오타이드에 특이적으로 혼성화하는 화합물일 수 있다. 본 개시내용의 폴리뉴클레오타이드는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)의 서열 또는 천연 소스로부터 단리되거나 재조합으로 제조되거나 인공으로 합성될 수 있는 이들의 모방체를 포함한다. 본 개시내용의 폴리뉴클레오타이드의 추가의 예는 펩타이드 핵산(peptide nucleic acid: PNA)일 수 있다. (미국 특허 제6,156,501호(본 명세서에 그 전문이 참고로 포함됨)를 참조한다.) 본 개시내용은 비전통적인 염기 쌍 짓기, 예컨대 소정의 tRNA 분자에서 식별되고 삼중 헬릭스로 존재하는 것으로 가정되는 후그스틴(Hoogsteen) 염기 쌍 짓기가 존재하는 상황을 또한 포함한다. "폴리뉴클레오타이드" 및 "올리고뉴클레오타이드"는 본 출원에서 상호교환되어 사용된다.
본 명세서에 사용된 바와 같은 용어 "혼성화"는 2개의 단일 가닥 폴리뉴클레오타이드가 안정한 이중 가닥 폴리뉴클레오타이드를 형성하기 위해 비공유로 결합하는 과정을 의미하고, 삼중 가닥 혼성화가 또한 이론적으로 가능하다. 생성된 (보통) 이중 가닥 폴리뉴클레오타이드는 "하이브리드"이다. 안정한 하이브리드를 형성하는 폴리뉴클레오타이드의 집단의 비율은 본 명세서에서 "혼성화의 정도"라 칭해진다. 혼성화는 보통 엄격한 조건 하에, 예를 들어 약 1M 이하의 염 농도 및 적어도 25℃의 온도에서 수행된다. 예를 들어, 5 x SSPE(750mM NaC1, 50mM 인산Na, 5mM EDTA(pH 7.4)) 및 25 내지 30℃의 온도의 조건 또는 100mM MES, 1M [Na+], 20mM EDTA, 0.01% Tween-20 및 30 내지 50℃, 바람직하게는 약 45 내지 50℃의 온도의 조건은 대립유전자 특이적 프로브 혼성화에 적합하다. 혼성화는 약 0.1㎎/㎖에서의 청어 정자 DNA, 약 0.5㎎/㎖에서의 아세틸화 BSA와 같은 물질의 존재 하에 수행될 수 있다. 상보성 가닥의 기본 조성 및 길이, 유기 용매의 존재 및 염기 미스매칭의 정도를 포함하는 다른 인자가 혼성화의 엄격도에 영향을 미칠 수 있으므로, 매개변수의 조합은 임의의 하나의 단독의 절대 측정치보다 더 중요하다. 마이크로어레이에 적합한 혼성화 조건은 문헌[the Gene Expression Technical Manual, 2004 및 the GENECHIP® Mapping Assay Manual, 2004]에 기재되어 있다.
용어 "단편"은 더 큰 DNA 폴리뉴클레오타이드 또는 DNA의 부분을 의미한다. 폴리뉴클레오타이드는 예를 들어 복수의 단편으로 깨지거나 단편화될 수 있다. 핵산을 단편화하는 다양한 방법은 당해 분야에 널리 공지되어 있다. 이들 방법은 예를 들어 성질이 화학적 또는 물리적일 수 있다. 화학 단편화는 DNase에 의한 부분 분해; 산에 의한 부분 탈퓨린화; 제한 효소의 사용; 인트론 코딩된 엔도뉴클레아제; DNA 기반 절단 방법, 예컨대 트라이플렉스 및 하이브리드 형성 방법(핵산 분자에서 특정한 위치로 절단 물질을 국재화하도록 핵산 분절의 특정한 혼성화에 의지함); 또는 공지된 또는 비공지된 위치에서 DNA를 절단하는 다른 효소 또는 화합물을 포함할 수 있다. 물리적 단편화 방법은 DNA를 높은 전단 속도로 처리하는 것을 수반할 수 있다. 높은 전단 속도는 예를 들어 피트(pit) 또는 스파이크(spike)에 의해 챔버 또는 채널을 통해 DNA를 이동시키거나, 제한된 크기 유동 통과, 예를 들어 마이크론 또는 마이크론 이하 스케일의 횡단 치수를 가지는 어퍼쳐를 통해 DNA 샘플을 강제함으로써 제조될 수 있다. 다른 물리적 방법은 음파처리 및 분무화를 포함한다. 물리적 단편화 및 화학적 단편화 방법의 조합, 예컨대 열 및 이온 매개된 가수분해에 의한 단편화가 마찬가지로 이용될 수 있다. 예를 들어, 문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual," 3rd Ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2001)("Sambrook 등)](모든 목적을 위해 본 명세서에 그 전문이 포함됨)을 참조한다. 이들 방법은 선택된 크기 범위의 단편으로 핵산을 분해하도록 최적화될 수 있다. 유용한 크기 범위는 25개, 50개, 75개, 100개, 200개, 400개, 700개 또는 1000개 to 500개, 800개, 1500개, 2000개, 4000개 또는 10,000개의 염기 쌍일 수 있다. 그러나, 더 큰 크기 범위, 예컨대 4000개, 10,000개 또는 20,000개 내지 10,000개, 20,000개 또는 500,000개의 염기 쌍이 또한 유용할 수 있다.
"게놈"은 유기체의 DNA로 코딩되면서 유기체에 대한 유전적 명령어의 완전한 단일 카피 세트를 지칭하거나 나타낸다. DNA가 복수의 개별 염색체 중에 세포로 분포되도록, 게놈은 다중염색체일 수 있다. 예를 들어, 인간에서 염색체의 22개의 쌍과 성 연관된 XX 또는 XY 쌍이 있다.
용어 "염색체"는 염색질로부터 유래하고, DNA 및 단백질 성분(특히 히스톤)을 포함하는 살아 있는 세포의 유전성 보유 유전자 캐리어를 의미한다. 종래의 국제적으로 인식된 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에서 사용된다. 개별 염색체의 크기는 소정의 다중염색체 게놈에 의해 일 유형으로부터 또 다른 유형으로 변하고 일 게놈으로부터 또 다른 게놈으로 변할 수 있다. 인간 게놈의 경우에, 소정의 염색체의 전체 DNA 덩어리는 보통 약 100,000,000bp 초과이다. 예를 들어, 전체 인간 게놈의 크기는 약 3x109bp이다. 염색체 1호인 가장 큰 염색체는 약 2.4x108bp를 함유하는 한편, 염색체 22호인 가장 작은 염색체는 약 5.3x107bp를 함유한다.
"염색체 영역"은 염색체의 부분이다. 임의의 개별 염색체 영역의 실제 물리적 크기 또는 정도는 크게 변할 수 있다. 영역이 개별 유전자의 특정한 코딩 분절(엑손)을 특별히 고려할 필요는 없으므로, 용어 "영역"은 특정한 하나 이상의 유전자에 반드시 한정적이지는 않다.
"어레이"는 지지체, 바람직하게는 고체를 포함하고, 핵산 프로브는 지지체에 부착된다. 바람직한 어레이는 통상적으로 상이한 공지된 위치에서 기판의 표면에 커플링된 복수의 상이한 핵산 프로브를 포함한다. "마이크로어레이" 또는 구어체로 "칩"이라 또한 기재된 이들 어레이는 일반적으로 당해 분야, 예를 들어 미국 특허 제5,143,854호, 제5,445,934호, 제5,744,305호, 제5,677,195호, 제5,800,992호, 제6,040,193호, 제5,424,186호 및 문헌[Fodor et al., Science, 251:767-777 (1991)]에 기재되어 있다. 이들은 각각 모든 목적을 위해 그 전문이 참고로 포함된다.
어레이는 일반적으로, 포토리쏘그래피 방법 및 고상 합성 방법의 조합을 통합한, 기계적 합성 방법 또는 광 지시 합성 방법과 같은 다양한 기법을 이용하여 제조될 수 있다. 기계적 합성 방법을 이용한 이들 어레이의 합성을 위한 기법은 예를 들어 미국 특허 제5,384,261호 및 제6,040,193호(모든 목적을 위해 본 명세서에 그 전문이 참고로 포함됨)에 기재되어 있다. 평면 어레이 표면이 바람직하지만, 어레이는 사실상 임의의 형상의 표면 또는 심지어 표면의 중복성에서 제작될 수 있다. 어레이는 비드, 겔, 중합체 표면, 섬유, 예컨대 광학 섬유, 유리 또는 임의의 다른 적절한 기판 상의 핵산일 수 있다. (미국 특허 제5,770,358호, 제5,789,162호, 제5,708,153호, 제6,040,193호 및 제5,800,992호(모든 목적을 위해 그 전문이 참고로 포함됨)를 참조한다.)
바람직한 어레이는 아피메트릭스로부터 브랜드명 GeneChip(등록상표) 및 Axiom(등록상표) 하에 상업적으로 구입 가능한 형태이고, 다양한 진핵생물 및 원핵생물 종에 대한 유전자형분석 및 유전자 발현 모니터링을 포함하는 다양한 목적에 관련된 것이다. (아피메트릭스 인크.(산타 클라라) 및 affymetrix.com.에서의 이의 웹사이트를 참조한다.) 다른 상업적으로 구입 가능한 어레이는 Infinium(등록상표) 어레이(일루미나, 인크.(캘리포니아주 샌 디에고)) 및 SurePrint(등록상표) 어레이(Agilent Technologies, Inc.(캘리포니아주 산타 클라라))를 포함한다.
대립유전자는 세포, 개별 또는 집단 내의 유전적 서열(예컨대, 유전자)의 하나의 특정한 형태를 의미하고, 특정한 형태는 유전자의 서열 내의 적어도 하나 및 흔히 하나 초과의 변이체 부위의 서열에서 동일한 유전자의 다른 형태와 다르다. 상이한 대립유전자 사이에 다른 이 변이체 부위의 서열은 "변이", "다형" 또는 "돌연변이"라 칭해진다. 각각의 상염색체 특이적 염색체 위치 또는 "유전좌위"에서 개별은 2개의 대립유전자를 보유하고, 1개는 일 부모로부터 및 1개는 다른 부모로부터, 예를 들어 모체로부터 1개 및 부체로부터 1개 유전된다. 개별은 그 유전좌위에서 2개의 상이한 대립유전자를 가지는 경우 유전좌위에서 "이형접합성"이다. 개별은 그 유전좌위에서 2개의 동일한 대립유전자를 가지는 경우 유전좌위에서 "동형접합성"이다.
다형은 집단에서 2개 이상의 유전적으로 결정된 대안적인 서열 또는 대립유전자의 발생을 의미한다. 다형 마커 또는 부위는 분기(divergence)가 발생하는 유전좌위이다. 바람직한 마커는 각각 선택된 집단의 바람직하게는 1% 초과, 더 바람직하게는 10% 초과 또는 20%의 빈도로 발생하는 적어도 2개의 대립유전자를 가진다. 다형은 하나 이상의 염기 변경, 삽입, 반복 또는 결실을 포함할 수 있다. 다형 유전좌위는 1개의 염기 쌍만큼 작을 수 있다. 다형 마커는 제한 단편 길이 다형, 종열 반복 변이(variable number of tandem repeat: VNTR), 초가변 영역, 미소부수체, 다이뉴클레오타이드 반복, 트라이뉴클레오타이드 반복, 테트라뉴클레오타이드 반복, 단순 서열 반복 및 삽입 유전요소, 예컨대 Alu를 포함한다. 처음의 식별된 대립유전자 형태는 기준 형태로서 임의로 지정되고, 다른 대립유전자 형태는 대안적인 또는 변이체 대립유전자로서 지정된다. 선택된 집단에서 가장 흔히 발생하는 대립유전자 형태는 때때로 야생형 형태로 지칭된다. 이배체 유기체는 대립유전자 형태에 대한 동형접합성 또는 이형접합성일 수 있다. 이대립유전자 또는 이대립인자성 다형은 2개의 형태를 가진다. 삼대립유전자 다형은 3개의 형태를 가진다. 다대립유전자 다형은 2개 이상의 형태를 가진다. 2개의 핵산 사이의 다형은 천연으로 발생할 수 있거나, 화학물질, 효소 또는 다른 물질에 대한 접촉 또는 이들과의 접촉, 또는 핵산에 손상을 일으키는 물질, 예를 들어 자외선 방사선, 돌연변이원 또는 발암물질에 대한 노출에 의해 발생할 수 있다. 단일 뉴클레오타이드 다형(SNP)은 적어도 2개의 대안적인 염기가 인간 집단에서 상당한 빈도(1% 초과)로 발생하는 위치이고, 인간 유전 변이의 가장 흔한 유형이다. 다대립유전자 마커는 3개 이상의 가능한 대립유전자를 가지는 SNP 또는 인델을 포함할 수 있다.
본 명세서에서 상호교환되어 사용되고, 당해 분야에서 일반적으로 이해되는 것처럼, 용어 "단일 뉴클레오타이드 다형 프로브" 또는 "SNP 프로브"는 특정한 단일 뉴클레오타이드 다형을 정보조사하도록 설계된 하나 이상의 올리고뉴클레오타이드의 세트를 의미한다. 이러한 프로브는 일반적으로 어레이 상의 이의 위치에 따라 식별되고, 예를 들어 바코드 방식의 태그 서열, 검출 가능한 라벨, 프로브가 부착된 구별 가능한 고체 지지체의 사용, 또는 당해 분야에 공지된 다양한 다른 수단에 의해 또한 식별될 수 있다. 당해 분야에 공지된 소정의 검정, 예컨대 Axiom(등록상표) 검정(아피메트릭스, 인크.(캘리포니아주 산타 클라라)) 또는 Infinium(등록상표) II 검정(일루미나, 인크.(캘리포니아주 샌 디에고)) 내에, 샘플에 대한 혼성화 후, 샘플 서열에서 다음의 염기에 상보성인 정보조사 염기는 SNP 프로브에 첨가되고(이후, 이것은 샘플과 적어도 부분적으로 이중 가닥 복합체를 형성함), 첨가된 정보조사 염기로부터의 직접적으로 또는 간접적으로 검출 가능한 신호는 첨가된 정보조사 염기의 식별을 결정하도록 사용되고, 이로부터 관련 대립유전자의 식별이 결정된다. 첨가된 정보조사 염기는 당해 분야에 공지된 다양한 기법에 의해, 예컨대 결찰 또는 단일 염기 연장을 통해 첨가될 수 있다. 당해 분야에 공지된 바대로, 소정의 어레이 검정은 다형에 대한 정방향 또는 역방항 관점 중 어느 하나로부터 설계된 SNP 프로브를 사용하고, 이에 따라, 프로브 설계 동안, 프로브는 다형의 왼쪽 또는 오른쪽 중 어느 하나에 대한 서열에 상보성일 수 있다. 결찰 기반 정보조사 접근법의 비제한적인 예는 US 2008/0131894 내에 개시되어 있다.
용어 "유전자형분석"은 개체가 게놈에서의 하나 이상의 위치에서 보유하는 유전적 정보의 결정을 의미한다. 예를 들어, 유전자형분석은 개체가 단일 SNP에 보유하는 대립유전자 또는 대립유전자들의 결정 또는 개체가 복수의 SNP에 보유하는 대립유전자 또는 대립유전자들의 결정을 포함할 수 있다. 예를 들어, 게놈에서의 특정한 뉴클레오타이드는 몇몇 개체에서 A 및 다른 개체에서 C일 수 있다. 그 위치에서 A를 가지는 이들 개체는 A 대립유전자를 가지고, C를 가지는 개체는 C 대립유전자를 가진다. 이배체 유기체에서, 개체가 A 대립유전자 및 C 대립유전자 또는 대안적으로 A 대립유전자의 2개의 카피 또는 C 대립유전자의 2개의 카피를 가질 수 있도록, 개체는 다형 위치를 함유하는 서열의 2개의 카피를 가질 것이다. C 대립유전자의 2개의 카피를 가지는 이들 개체는 C 대립유전자에 대해 동형접합성이고, A 대립유전자의 2개의 카피를 가지는 이들 개체는 C 대립유전자에 대해 동형접합성이고, 각각의 대립유전자의 하나의 카피를 가지는 이들 개체는 이형접합성이다. 어레이는 이들 3개의 가능한 결과의 각각 사이를 구별하도록 설계될 수 있다. 다형 위치는 2개 이상의 가능한 대립유전자를 가질 수 있고, 어레이는 모든 가능한 조합 사이를 구별하도록 설계될 수 있다.
유전자형은 단일 다형, 예를 들어 단일 뉴클레오타이드 다형 또는 단일 염기 인델에 존재하는 정보, 또는 다수의 염기 위치, 예컨대 복합 또는 다중 염기 인델에 존재하는 정보를 의미할 수 있다. 예를 들어, SNP가 이대립인자성이고 A 또는 C 중 어느 하나일 수 있는 경우, 개체는 그 위치에서 A에 대해 동형접합성이고, SNP의 유전자형은 동형접합성 A 또는 AA이다. SNP는 또한 (이대립인자성과 반대로) 다대립유전자일 수 있고, 3개 이상의 가능한 대립유전자 변이체를 가진다. 유전자형은 또한 복수의 다형 위치에 존재하는 정보를 의미할 수 있다.
본 명세서에 사용된 바와 같은 용어 "프라이머"는 4개의 상이한 뉴클레오사이드 삼인산 및 중합을 위한 물질, 예컨대 DNA 또는 RNA 중합효소 또는 역전사효소 등의 존재 하에 적합한 조건, 예를 들어 완충제 및 온도 하에 주형 지시된 DNA 합성에 대한 개시의 지점으로 작용할 수 있는 단일 가닥 올리고뉴클레오타이드를 의미한다. 임의의 소정의 경우에 프라이머의 길이는 예를 들어 프라이머의 의도된 용도에 따라 달라지고, 일반적으로 15개 내지 30개의 뉴클레오타이드 범위이다. 짧은 프라이머 분자는 일반적으로 주형과 충분히 안정한 하이브리드 복합체를 형성하도록 더 차가운 온도를 요한다. 프라이머는 주형의 정확한 서열을 반영할 필요는 없지만, 이러한 주형과 혼성화하도록 충분히 상보성이어야 한다. 프라이머 부위는 프라이머가 혼성화하는 주형의 부위이다. 프라이머 쌍은 증폭되는 서열의 5' 말단에 의해 혼성화하는 5' 상류 프라이머 및 증폭되는 서열의 3' 말단의 보체에 의해 혼성화하는 3' 하류 프라이머를 포함하는 프라이머의 세트이다.
본 명세서에서 명사로서 사용되는 용어 "프라이어"는, 매개변수와, 임의의(현재의) 데이터가 관찰되기 전에 계산으로 입력된 그 매개변수의 분포에서의 불확실성의 예측치를 의미한다. 이것은 베이지안 통계(Bayesian statistics)에서의 표준 표기이다. 유전자형 클러스터 중앙 위치 및 분산에 대한 예측치로서의 이러한 값은 프라이어 값(예컨대, 다른 데이터 세트로부터 얻어진 것 또는 사용자 입력된 분량)으로 사용될 수 있다.
본 명세서에 사용된 바와 같은 용어 "프로브"는 특정한 표적에 의해 인식될 수 있는 표면 부동화 분자를 의미한다. 10개, 12개 및 이것 초과의 염기를 가지는 프로브의 모든 가능한 조합을 가지는 어레이의 예에 대해 미국 특허 제6,582,908호를 참조한다. 본 개시내용에 의해 조사될 수 있는 프로브의 예는 세포막 수용체, 독소 및 독에 대한 효능제 및 길항제, 바이러스 에피토프, 호르몬(예를 들어, 아편양 펩타이드, 스테로이드 등), 호르몬 수용체, 펩타이드, 효소, 효소 기질, 보인자, 약물, 렉틴, 당, 올리고뉴클레오타이드, 핵산, 올리고사카라이드, 단백질 및 단일클론 항체를 포함하지만, 이들로 제한되지는 않는다. 본 개시내용의 몇몇 실시형태에서, 프로브는 일반적으로 30개의 염기의 길이인 유리 결합된 올리고뉴클레오타이드를 포함할 수 있다. 프로브의 길이는 고-GC 또는 저-GC 표적 서열(여기서 GC는 표적 서열에서의 구아닌-사이토신 함량을 나타냄)을 보상하도록 조정될 수 있다. 프로브의 가변 부분은 프로브의 3' 말단에서의 결찰 부위에 또는 이에 인접하게, 또는 프로브의 중앙을 항해, 또는 결찰 부위로부터 멀리 있을 수 있다.
다형을 분석하기 위한 대립유전자 특이적 프로브의 설계 및 사용은 예를 들어 문헌[Saiki et al., Nature 324, 163-166 (1986)]; Dattagupta, EP 235,726, Saiki, 및 WO 89/11548에 의해 기재되어 있다. 하나의 개별로부터의 표적 DNA의 분절에 혼성화하지만, 2개의 개별로부터의 각각의 분절에서의 상이한 다형 형태의 존재로 인해 또 다른 개별로부터의 상응하는 분절에 혼성화하지 않는 대립유전자 특이적 프로브를 설계할 수 있다. 대립유전자 사이의 혼성화 강도의 상당한 차이, 및 바람직하게는 본질적으로 2원 반응(이로써, 프로브는 대립유전자 중 오직 하나에 혼성화함)이 존재하도록, 혼성화 조건은 충분히 엄격해야 해야 한다.
예시적인 실시형태
다양한 실시형태의 하기 설명에서, 상기에서 확인되고, 이의 일부를 형성하고, 본 명세서에 기재된 양태가 실행될 수 있는 다양한 실시형태가 예시로 나타난, 동반된 도면을 참조한다. 다른 실시형태가 사용될 수 있고, 본 명세서에 기재된 범위로부터 벗어나지 않으면서 구조적 및 기능성 변경이 이루어질 수 있다고 이해되어야 한다. 다양한 양태는 다른 실시형태가 가능하고, 다양한 상이한 방식으로 실행되거나 수행될 수 있다.
어레이 기반 게놈 분석은 일반적으로 적어도 1개의 프로브세트를 각각 가지는 매우 많은 수의 SNP 및 다른 다형을 표적화하고, 여기서 프로브세트는 특정한 SNP의 존재를 결정하도록 사용된 올리고뉴클레오타이드 서열의 세트를 포함한다. 예를 들어, 프로브는 이대립인자성 쌍 또는 세트 및 다대립유전자 프로브 세트로 체계화될 수 있고, 이들은 각각 표적 마커를 정보조사한다. 몇몇 시스템에서, 많은 다형은 2개 이상의 상이한 프로브세트를 가질 수 있고, 상이한 프로브세트의 각각은 다형에 대한 가능한 유전자형분석 결과를 제공한다. 일 방법에서, 개별 샘플은 샘플에서의 상이한 다형 대립유전자를 존재를 결정하도록 유전자형분석 어레이 또는 다른 프로브세트 시스템에 노출된다. 대부분의 유기체가 모든 염색체의 복수의 카피를 가지므로, 동일한 샘플에 대해 검출된 상이한 대립유전자가 존재할 수 있다. 따라서, 샘플은 일반적으로 각각의 다형의 다수(예를 들어, 2개 이상)의 대립유전자를 특징으로 한다. 다형에 대한 다수의 대립유전자를 결정하는 것은 일반적으로 유전자형분석 또는 SNP 유전자형분석이라 당해 분야에서 칭해진다.
최근의 유전자형분석 어레이의 일 예에서, 아피메트릭스, 인크.로부터의 Axiom(등록상표) Genotyping Arrays는 어레이마다 1,500개 내지 260만 개의 SNP의 맞춤화 가능한 선택으로부터 유전자형분석할 수 있다. 전체 어레이는 올리고뉴클레오타이드 프로브에 의해 타일링(실장)될 수 있고, 이는 수천 개의 SNP 및 게놈 프로브를 분석할 수 있다. 프로브는 표적 샘플로부터 표지된 DNA에 결합한다. 일반적으로, 분석 소프트웨어는 격자형 이미지에서 각각의 형광 DNA-프로브 복합체의 휘도를 정량화하도록 사용된다. 고강도 스팟은 프로브와 표적 DNA 서열 사이의 높은 친화도를 나타내고, 개별 SNP의 유전자형을 디코딩하도록 사용된다. 아피메트릭스는 인간, 개 및 다른 마우스 어레이를 포함하는 다른 어레이를 제공한다.
SNP 또는 다형 유전자형 호출은 다형 위치에서 어떠한 대립유전자가 존재하는지를 결정하는 과정을 의미한다. 이대립인자성 다형에서, 대립유전자 A 및 대립유전자 B라 칭해질 수 있는 위치에서 존재할 수 있는 일반적으로 2개의 상이한 염기 쌍이 존재한다. SNP의 유전자형은 일반적으로 (A, A), (B, B) 또는 (A, B) 중 하나이다. 처음의 2개의 유전자형은 일반적으로 동종성이고 마지막은 이종성이라고 칭해진다. 다대립유전자 다형에서, N개의 상이한 염기 쌍이 존재할 수 있고, 여기서 N은 2 초과의 임의의 숫자일 수 있다. 예를 들어, N = 3인 경우, 대립유전자 A, 대립유전자 B 및 대립유전자 C를 포함하는 위치에서 존재할 수 있는 3개의 상이한 염기 쌍이 존재할 수 있다. 다대립유전자 SNP의 유전자형은 (A, A), (B, B), (A, B), (A, C), (B, C) 또는 (C, C) 중 하나일 수 있다.
다대립유전자 마커에서 추가의 변이체를 취급하기 위한 개선된 유전자형분석 알고리즘 및 방법에 대한 수요가 존재한다. 하기 더 자세히 기재된 대상에 대한 일반 도입부로서, 본 명세서에 기재된 양태는 다대립유전자 마커를 유전자형분석하기 위한 하나 이상의 소프트웨어 프로그램, 논리 모듈 및 데이터 포획 시스템을 포함하는 시스템 및 방법에 관한 것이다. 다대립유전자 유전자형분석 방법은 베이지안 N-대립유전자 유전자형분석을 이용하여 2개 이상의 가능한 변이체를 가지는 마커에 대해 유전자형 콜을 배정하는 것에 관한 것이다. 베이지안 N-대립유전자 유전자형분석(Bayesian N-allele Genotyping: BANG) 알고리즘은 이배체 게놈에서 유전자형 다대립유전자 마커에 개발되었고, 알고리즘은 임의의 수의 대립유전자(N)를 취급하도록 의도된다. BANG 알고리즘은 1000 Genomes Project(3 단계)로부터 얻어지고, 360개의 샘플(HapMap 270 plus LWK)에서 분석된 약 100,000개의 다대립유전자 마커에 대한 약 150,000개의 프로브세트에서 시험되었다. 1000 Genomes로의 일치율 및 콜 비율에 대한 합당한 변환 기준을 이용하여, 프로브세트의 약 40%는 알고리즘 매개변수 조율 또는 SNP 특이적 프라이어 없이 1차 패스 분석에서 우수한 성능을 나타낸다.
BANG 알고리즘은 각각 정확하게 하나의 예상된 대립유전자에 특이적인 프로브 및 결찰 채널 쌍의 설계를 이용할 수 있다. 예를 들어, 아피메트릭스의 Axiom(등록상표) Genotyping Arrays는 마이크로어레이 기판 상의 올리고뉴클레오타이드 프로브에 의한 2개 색상의 결찰 기반 검정을 이용한다. 어레이 상의 각각의 위치는 피쳐(feature)라 칭해지고, 단일 프로브의 많은 경우를 함유한다. 몇몇 실시형태에서, 피쳐는 5x5 또는 6x6 마이크론의 치수일 수 있다. 어레이에서의 각각의 피쳐는 SNP 부위를 플랭킹하는 게놈 서열에 상보성인 독특한 올리고뉴클레오타이드 서열의 많은 경우를 함유할 수 있다. SNP 부위 염기(예를 들어, A 또는 T 대 G 또는 C)에 따라, 2개의 염료 중 하나에 대한 용액 프로브 보유 부착 부위는 유리 프로브/표적 복합체에 혼성화하고, 특이성을 위해 이후 결찰된다. Axiom(등록상표) 2개 색상 시스템은 생성된 형광 모이어티에 기초하여 A 또는 T 대 또는 G 또는 C의 결찰을 구별할 수 있다.
프로브 및 결찰 채널의 독특한 조합은 표적 서열에 존재하는 대립유전자를 결정하기 위해 이용될 수 있다. 샘플의 표적 서열에 존재하는 특정한 대립유전자는 생성된 형광 모이어티에 의해 A 또는 T 뉴클레오타이드의 결찰 또는 G 또는 C 뉴클레오타이드의 결찰을 구별하기 위해 결찰 채널을 사용하여 결정될 수 있다. 즉, 몇몇 실시형태에서, 샘플의 표적 서열에 존재하는 대립유전자는, 표지된 올리고뉴클레오타이드의 3' 말단에서 A, T, C 또는 G 뉴클레오타이드를 가지는 표지된 올리고뉴클레오타이드의 결찰을 구별하기 위해, 어레이 상의 복수의 프로브에 구별되게 표지된 올리고뉴클레오타이드를 결찰함으로써 결정될 수 있다. 다른 실시형태에서, 샘플의 표적 서열에 존재하는 대립유전자는 A, T, C 또는 G 뉴클레오타이드에 의한 연장을 구별하기 위해 구별되게 표지된 뉴클레오타이드에 의한 어레이 상의 복수의 프로브의 단일 염기 연장을 이용함으로써 결정될 수 있다.
프로브 및 예상된 결찰 채널의 수집을 포함하는 프로브세트는 특정한 마커의 다양한 가능한 대립유전자를 분석하도록 의도될 수 있다. 더욱이, BANG 알고리즘은 다수의 샘플로부터의 강도 데이터를 획득시 실행되어서, 샘플마다 대립유전자마다의 신호 값을 생성할 수 있다.
도 1은 본 발명의 실시형태의 소프트웨어를 실행하기 위해 사용될 수 있는 컴퓨터 시스템의 예를 예시한다. 도 1은 디스플레이(3), 스크린(5), 캐비닛(7), 키보드(9) 및 마우스(11)를 포함하는 컴퓨터 시스템(1)을 보여준다. 마우스(11)는 그래프 사용자 인터페이스와 상호작용하기 위한 하나 이상의 버튼을 가질 수 있다. 캐비닛(7)은 본 발명을 실행하는 컴퓨터 코드, 본 발명과 사용하기 위한 데이터 등을 도입하는 소프트웨어 프로그램을 저장하고 검색하도록 사용될 수 있는 CD-ROM 드라이브(13), 시스템 메모리 및 하드 드라이브를 수용한다(도 2 참조). CD-ROM(15)이 예시적인 컴퓨터 판독 가능한 저장 매체로서 기재되어 있지만, 플로피 디스크, 테이프, 플래시 메모리, 시스템 메모리 및 하드 드라이브를 포함하는 다른 컴퓨터 판독 가능한 저장 매체를 사용할 수 있다. 추가로, 반송파(예를 들어, 인터넷을 포함하는 네트워크)로 구현된 데이터 신호는 컴퓨터 판독 가능한 저장 매체일 수 있다.
도 2는 본 발명의 실시형태의 소프트웨어를 실행하기 위해 사용된 컴퓨터 시스템(1)의 시스템 블록 다이어그램을 보여준다. 도 1에서처럼, 컴퓨터 시스템(1)은 모니터(3) 및 키보드(9) 및 마우스(11)를 포함한다. 컴퓨터 시스템(1)은 적합한 컴퓨팅 시스템의 오직 일 예이고, 본 개시내용에 함유된 사용 또는 기능의 범위에 관한 임의의 제한을 제안하도록 의도되지 않는다. 컴퓨터 시스템(1)은 도 1 및 도 2에 도시된 성분의 임의의 것 또는 이의 조합에 관한 임의의 의존성 또는 요건을 가지는 것으로 해석되지 않아야 한다.
컴퓨터 시스템(1)은 하위시스템, 예컨대 중앙 프로세서(51), 시스템 메모리(53), 고정 기억장치(55)(예를 들어, 하드 드라이브), 이동식 기억장치(57)(예를 들어, CD-ROM 드라이브, 플로피 디스크, USB 드라이브), 디스플레이 어댑터(59), 사운드 카드(61), 스피커(63) 및 네트워크 인터페이스(65)를 추가로 포함한다. 본 발명과 사용하기에 적합한 다른 컴퓨터 시스템은 추가의 또는 더 적은 하위시스템을 포함할 수 있다. 예를 들어, 또 다른 컴퓨터 시스템은 하나 초과의 프로세서(51)(즉, 다중 프로세서 시스템) 또는 캐시 기억장치를 포함할 수 있다.
컴퓨터 시스템(1)의 시스템 버스 구성은 화살표(67)로 표시된다. 그러나, 이 화살표는 하위시스템을 연결하도록 작용하는 임의의 상호연결 체계를 예시한다. 예를 들어, 지역 버스는 중앙 프로세서를 시스템 메모리 및 디스플레이 어댑터에 연결하도록 사용될 수 있다. 도 2에 도시된 컴퓨터 시스템(1)은 그러나 본 발명과 사용하기에 적합한 컴퓨터 시스템의 예이다. 하위시스템의 상이한 구성을 가지는 다른 컴퓨터 구성을 또한 이용할 수 있다.
몇몇 양태에서, 컴퓨터 시스템(1)은 다양한 컴퓨터 판독 가능한 매체를 포함할 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 시스템(1)에 의해 접근될 수 있고, 비일시적일 수 있고, 컴퓨터 판독 가능한 명령어, 객체 코드, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술에서 실행된 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함할 수 있는 임의의 구입 가능한 매체일 수 있다. 컴퓨터 판독 가능한 매체의 예는 임의 접근 기억장치(random access memory: RAM), 읽기 전용 기억장치(read only memory: ROM), 전자로 소거 가능한 프로그래밍 가능한 읽기 전용 기억장치(electronically erasable programmable read only memory: EEPROM), 플래시 메모리 또는 다른 기억 기술, 콤팩트 디스크 읽기 전용 기억장치(compact disk read-only memory: CD-ROM), 디지털 다목적 디스크(digital versatile disk: DVD) 또는 다른 광학 디스크 저장, 자기 카세트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하도록 사용될 수 있고 컴퓨터 시스템(1)에 의해 접근될 수 있는 임의의 다른 매체를 포함할 수 있다.
필요하지 않지만, 본 명세서에 기재된 다양한 양태는 방법, 데이터 프로세싱 시스템 또는 컴퓨터 실행 가능한 명령어를 저장하는 컴퓨터 판독 가능한 매체로서 구현될 수 있다. 예를 들어, 개시된 실시형태의 양태에 따른 방법의 단계를 프로세서가 수행하게 하는 명령어를 저장하는 컴퓨터 판독 가능한 매체가 고려된다. 예를 들어, 본 명세서에 개시된 방법 단계 및 알고리즘의 양태는 컴퓨터 시스템(1)에서 프로세서에서 실행될 수 있다. 이러한 프로세서는 컴퓨터 판독 가능한 매체에서 저장된 컴퓨터 실행 가능한 명령어를 실행할 수 있다.
소프트웨어는 컴퓨터 시스템(1)이 다양한 기능을 수행하게 하기 위한 프로세서(57)에 명령어를 제공하도록 메모리(53) 및/또는 기억장치(예를 들어, 고정 기억장치(55) 또는 이동식 기억장치(57)) 내에 저장될 수 있다. 예를 들어, 메모리(53)는 운영 시스템, 어플리케이션 프로그램 및 연관 데이터베이스(이들로 제한되지는 않음)를 포함하는 컴퓨터 시스템(1)에 의해 사용되는 소프트웨어를 저장할 수 있다. 또한, 컴퓨터 시스템(1)에 대한 컴퓨터 실행 가능한 명령어의 일부 또는 전부는 하드웨어 또는 펌웨어에서 구현될 수 있다. 도시되어 있지 않지만, 메모리(53)는 메모리에 저장된 어플리케이션 데이터를 나타내는 하나 이상의 어플리케이션을 포함할 수 있는 한편, 컴퓨터 시스템(1)은 온(on)이고, 상응하는 소프트웨어 어플리케이션(예를 들어, 소프트웨어 업무)는 컴퓨터 시스템(1)에서 실행된다.
네트워크 인터페이스(65)는 근거리 네트워크(local area network: LAN), 광역 네트워크(wide area network: WAN), 또는 다른 네트워크를 포함하는 임의의 네트워크 연결로 컴퓨터 시스템(1)이 다른 장치와 통신하게 할 수 있다. 예를 들어, 컴퓨터 시스템(1)은 인터넷 또는 다른 유형의 컴퓨터 네트워크로 통신을 확립할 수 있다. 몇몇 실시형태에서, 컴퓨터 시스템(1)은 다른 장치, 예컨대 어레이를 스캔하도록 사용될 수 있는 광학 스캐너와 통신할 수 있다. 예를 들어, 스캐너는 표적 분자와 연관된 라벨로부터 형광 또는 다른 방출을 검출함으로써 또는 전송된, 반사된 또는 산란된 방사선을 검출함으로써 표적을 영상화할 수 있다. 스캐너는 검출된 방출 또는 반사된 광 파장의 강도를 나타내는 신호(및 가능하게는 다른 특징, 예컨대 검출된 파장과 연관될 수 있는 색상), 및 방출 또는 반사된 파장이 검출되는 어레이 기판 상의 위치를 제공할 수 있다. 통상적으로, 신호는 스캐닝된 기판의 부위에 상응하는 강도 정보를 포함한다. 몇몇 실시형태에서, 컴퓨터 시스템(1)은 네트워크 인터페이스(65)를 통해 스캐너로부터의 신호(예를 들어, 모든 샘플 및 모든 가능한 대립유전자에 대한 신호 데이터)를 얻고 수집하고, 저장된 명령어에 따라 데이터를 프로세싱할 수 있다.
본 개시내용은 많은 다른 일반 목적 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성에 의해 가동된다. 개시된 실시형태와 사용하기에 적합할 수 있는 널리 공지된 컴퓨팅 시스템, 환경, 및/또는 구성의 예는 퍼스널 컴퓨터(PC), 서버 컴퓨터, 휴대용 또는 랩탑 장치, 스마트폰, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 광학 스캐너, 측정 장치/기계, 셉탑 박스, 프로그래밍 가능한 소비자 전자제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 임의의 상기 시스템 또는 장치를 포함하는 분산 컴퓨팅 환경 등을 포함하지만, 이들로 제한되지는 않는다. 본 발명과 사용하기에 적합한 컴퓨터 시스템은 또한 측정 기기에서 구현될 수 있다.
몇몇 예에서, 베이지안 N-대립유전자 유전자형분석(BANG) 알고리즘 및 다른 유전자형분석 알고리즘은 컴퓨터 시스템(1)에서 저장되고/되거나 실행될 수 있다. 다대립유전자 유전자형분석 알고리즘은 다대립유전자 마커에 대한 샘플로부터 획득된 강도 데이터에 적용될 수 있다.
알고리즘 상세내용
BANG 알고리즘은 하기 단계에 따라 진행될 수 있다. 처음에, 알고리즘은 복수의 샘플에서 각각의 대립유전자에 대한 배경 신호를 추정할 수 있다. 이후, 알고리즘은 대부분 또는 모든 샘플에 대한 초기 콜을 얻기 위해 대립유전자의 쌍을 결정하고, 이대립인자성 유전자형분석 알고리즘, 예컨대 아피메트릭스, 인크.로부터의 Axiom(등록상표) GT1 또는 BRLMM-P 알고리즘 또는 일루미나, 인크.로부터의 GenTrain 알고리즘에 의한 GenCall 소프트웨어를 이용하여 적절한 샘플을 유전자형분석할 수 있다. 다음에, 컨쥬게이트 프라이어는 각각의 이배체 유전자형 클러스터에 상응하는 신호의 사후 다변량 정규 분포를 얻기 위해 상응하는 샘플의 신호와 조합될 수 있고, 유전자형의 최종 배정은 각각의 분포에서의 구성원의 우도에 기초하여 샘플에 배정될 수 있다.
몇몇 실시형태에서, 다대립유전자 유전자형분석은 대립유전자 쌍을 식별하기 위한 이대립인자성 유전자형분석 기법을 레버리징할 수 있다. 예를 들어, 이대립인자성 유전자형분석에서, 대립유전자 강도 데이터는 대수 신호 공간에서 콘트라스트 및 크기 값(예를 들어, 신호 강도)으로 변환될 수 있다. 도 3은 콘트라스트 및 크기로의 대립유전자 강도의 대수 변환의 예시적인 선도를 예시한다. 본 명세서에서 사용된 데이터는 인위적이고, 단순히 예시를 위해 사용된다. 하기 식은 대립유전자 A 및 대립유전자 B 강도에 기초한 콘트라스트 및 크기 값을 계산하도록 이용될 수 있다.
Figure pct00001
Figure pct00002
이후, 변환된 강도 데이터는 초기 콜을 배정하기 위해 데이터를 분할하도록 클러스터링될 수 있다. 대립유전자의 각각의 쌍에 대해, 모든 샘플로부터의 이들 대립유전자에 대한 신호는 Axiom(등록상표) GT1 알고리즘을 이용하여 클러스터링되고, SNP 특정한 프라이어 및 알고리즘 매개변수를 사용할 수 있다. 즉, 각각의 대립유전자 쌍을 나타내는 클러스터가 존재할 수 있다.
도 4는 이대립인자성 유전자형분석 알고리즘에서 클러스터로 배정된 샘플의 예시적인 선도를 예시한다. 도 4에서의 선도는 대립유전자 쌍 BB, AB 및 AA에 대한 클러스터, 및 2차원 공간으로 하부 그래프에 작도된 밀도를 나타낸다. 변환된 강도의 선도에 기초하여, 샘플은 상이한 클러스터로 배정될 수 있고, 데이터의 대수 우도는 분포 및 클러스터 배정을 고려하여 컴퓨팅된다. 예를 들어, 알고리즘은 X 축 상의 데이터 사이의 수직 경계의 모든 가능한 배치를 평가하고, 각각의 분할에 대해 클러스터 위치에서의 베이지안 프라이어 및 데이터의 조합을 고려하여 사후 우도를 컴퓨팅할 수 있다. 클러스터 중앙 및 분산은 가장 그럴듯한 데이터 분할을 이용하여 데이터 및 프라이어의 가중 조합으로부터 추론될 수 있다. 추가로, 각각의 클러스터에서의 각각의 샘플에 대한 사후 확률을 컴퓨팅할 수 있다. 임의의 클러스터에서 일치하지 않는 샘플은 식별되고 "오션" 클러스터에 추가될 수 있고, 확률은 재정규화될 수 있다. 콜은 최고의 사후 확률에 의해 클러스터로 배정될 수 있고, 최고의 확률이 너무 낮은 경우 콜이 배정될 수 없다.
다대립유전자 유전자형분석은 초기 클러스터를 셋업하고, 최종 유전자형 콜 및 신뢰 수준을 배정하기 위해 Axiom(등록상표) GT1 알고리즘을 유사하게 이용할 수 있다. 그러나, 다대립유전자 유전자형분석 알고리즘은 우도 계산을 N차원 공간으로 연장하고, 임의의 클러스터와 잘 맞지 않는 샘플에 추가된 "오션" 클러스터와 함께, 각각의 클러스터에 속하는 각각의 샘플의 사후 확률을 계산할 수 있다.
도 5는 다대립유전자 유전자형분석 방법에 대한 높은 수준의 흐름도를 예시한다. 도 5에서의 흐름도는 BANG 알고리즘에 관여한 단계의 개관을 제공한다.
신호 수집 및 배경 예상
신호 데이터는 모든 샘플 및 모든 가능한 대립유전자에 대해 초기에 수집될 수 있고, 여기서 각각의 샘플은 대립유전자마다 1개인 2개 초과의 신호 값을 가질 수 있다. 몇몇 실시형태에서, 샘플에서 다대립유전자 마커에 대한 신호를 획득하는 것은 다대립유전자 마커를 측정하기 위한 어레이 상의 복수의 프로브와의 샘플의 혼성화에 기초할 수 있다. 샘플은 모든 가능한 이대립인자성 조합에서 Axiom(등록상표) GT1 알고리즘을 이용하여 유전자형분석될 수 있다.
알고리즘은 3개 미만의 변이체를 가지는 마커를 건너뛰면서 다대립유전자 마커에서 각각의 대립유전자(변이체)에 대한 메트릭스(metrics)를 수집할 수 있다. 각각의 세트에서의 대립유전자가 저장될 수 있고, 콜 및 메트릭스는 각각의 이대립인자성 쌍에 대해 수집될 수 있다. 정보조사되는 각각의 변이체는 이대립인자성 세트로 쌍 짓기가 될 수 있고, 각각의 이대립인자성 세트는 유전자형분석될 수 있다. 예를 들어, 3개의 대립유전자 A, B 및 C가 잠재적으로 존재하는 경우, 모든 샘플은 A/B, A/C 및 B/C 대립유전자 조합을 고려하여 3회 유전자형분석될 수 있다.
각각의 쌍 대립유전자에 대해, 모든 샘플로부터의 이들 대립유전자에 대한 신호는 Axiom(등록상표) GT1 알고리즘을 이용하여 클러스터링될 수 있고, SNP 특정한 프라이어 및 알고리즘 매개변수를 또한 사용할 수 있다.
동형접합체 클러스터로 배정된 각각의 샘플에 대해, 다른 대립유전자 신호는 그 다른 대립유전자에 대한 평균 배경 신호의 계산에 포함될 수 있다. 예를 들어, 대립유전자 A 대 대립유전자 B 클러스터링에서, AA 클러스터에서의 샘플의 B 신호는 B 배경 신호의 수집에 추가될 수 있다. 마찬가지로, BB 클러스터에서의 샘플의 신호는 배경 신호의 수집에 추가될 수 있다. 이 과정은 대립유전자의 각각의 쌍에 대해 반복될 수 있고, 배경 신호의 평균 및 표준 편차는 각각의 대립유전자에 대해 계산될 수 있다. 몇몇 실시형태에서, 각각의 대립유전자 배경 신호는 모든 대립유전자 쌍 짖기에 걸쳐 평균이 될 수 있는 한편, 다른 실시형태에서, 각각의 대립유전자에 대한 독립적인 배경 신호 예측치가 얻어질 수 있다.
모든 샘플이 AA, AB 또는 AC 유전자형을 가지는 것으로 발견되는 경우, 대립유전자 A 배경 신호의 예측치가 없을 것이다. 대립유전자가 임의의 배경 신호를 가지지 않는 이러한 경우에, 다른 대립유전자의 평균 배경 신호의 가중 평균 및 이의 표준 편차의 가중 평균은 대신에 사용될 수 있다. 몇몇 실시형태에서, 전반적 예상된 배경 신호는 대립유전자에 대한 배경 신호의 평균, 변량 및 표준 편차를 계산하기 위해 어떠한 값도 이용 가능하지 않는 경우 대립유전자에 사용될 수 있다. 전반적 예상된 배경 신호는 모든 대립유전자에 대한 복수의 배경 신호의 평균일 수 있다.
각각의 쌍별 클러스터링에서, 오직 해당하는 2개의 대립유전자에 대해 배경 신호가 선택될 수 있다는 것에 주목한다. 즉, A 대 B 클러스터링에서, C 배경 신호가 선택될 수 없다. 샘플이 다양한 쌍별 클러스터링에서 하나 초과의 다른 대립유전자의 동형접합체라 불리는 경우, 샘플은 또한 동일한 배경 예측치로 1회 초과 기여할 수 있다.
특정한 프라이어 값은, 이들 프라이어가 유전자형분석 라운드 동안 사용된 프라이어 값과 다를 수 있으므로, 배경 계산 단계 동안 옵션으로 허용될 수 있다. 프라이어가 제공되지 않는 경우, 포괄적 값을 사용할 수 있다. 샘플 크기가 0 초과인 경우, 프로브세트의 신호 및 배경은 계산될 수 있다. 그렇지 않으면, 이들 메트릭스는, 샘플 크기가 1 미만인 경우 0으로 설정될 수 있는 채널 배경에 대한 표준 편차를 제외하고, -1로 설정될 수 있다.
이대립인자성 쌍의 각각의 대립유전자에 대한 메트릭스는 이대립인자성 프로브세트에 대한 동형접합체 콜의 신호로부터 추론될 수 있다. 대립유전자에 대한 평균 신호(
Figure pct00003
)는 그 대립유전자에 대한 동형접합체 콜의 신호(
Figure pct00004
)를 합하고 이후 이들 신호에 기여한 샘플의 전체 수(
Figure pct00005
)로 나누어서 추론될 수 있다. 대립유전자의 배경 값(
Figure pct00006
)은, 콜이 대립유전자와 일치하지 않을 때(
Figure pct00007
), 동형접합체 콜 동안 그 대립유전자에 대한 신호를 추가함으로써 계산될 수 있다. 대립유전자의 배경에 대한 평균(
Figure pct00008
)은 신호의 수로 나눈 대립유전자로부터의 이들 신호의 합을 취함으로써 계산될 수 있다. 변량(
Figure pct00009
) 및 표준 편차(
Figure pct00010
)는 대립유전자에 대한 배경 신호에 대해 또한 계산될 수 있다. 소정의 대립유전자에 대한 배경에서 발견된 평균 신호는 소정의 대립유전자에 대한 개별 배경 한계치를 설정하도록 다수의 표준 편차에 추가될 수 있다.
각각의 개별적인 대립유전자에 대한 배경 신호의 평균 신호, 배경 신호, 평균, 변량, 표준 편차 및 다른 매개변수는 하기 식을 이용하여 계산될 수 있다:
Figure pct00011
(여기서, (A, B, C, D, E, F)에서의 대립유전자임)
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
모든 채널에 기여하는 신호의 총 수를 또한 계산할 수 있다. 모든 프로브세트(
Figure pct00019
)에 대한 전체 평균 배경(모든평균배경) 및 표준 편차(모든평균표준편차)는 다대립유전자 세트에서 모든 프로브세트에 걸친 가중 평균 배경 및 가중 평균 표준 편차 값을 평균함으로써 계산될 수 있다. 전체 가중 평균 배경(모든가중평균배경) 값 및 전체 가중 평균 표준 편차(모든가중평균표준편차)는 이들 메트릭스의 평균 값을 합하고 총 중량에 기여하는 샘플의 수에 의해 이를 가중하고, 이후 이 값을 샘플의 수에 의해 나누어서 또한 계산될 수 있다. 배경에서 신호를 갖지 않음으로 인해 개별 대립유전자 한계치 세트를 가지지 않는 대립유전자에 대한 배경 한계치를 계산할 수 있다. 이 계산은 매개변수 신호_한계치_변량_다중(예를 들어, 현재의 디폴트는 2일 수 있음)에 의해 규정된 세트 인자(set factor)에 의해 가중 평균 표준 편차를 곱하는 것을 요할 수 있다. 이 값은 전체 가중 평균 배경에 추가될 수 있다.
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
도 6A, 도 6B 및 도 6C는 각각의 대립유전자에 대한 배경 신호 계산의 예시적인 선도를 예시한다. 각각의 다대립유전자에 대해, 모든 샘플은 모든 가능한 이대립인자성 조합에서 클러스터링될 수 있고, 생성된 동형접합성 콜은 배경 신호의 평균 및 변량을 예측하도록 사용될 수 있다. 도 6A-6C에 도시된 예에서, rs3091244는 A/C/T 삼대립유전자 마커이고, 가능한 이대립인자성 조합은 C 대립유전자 대 T 대립유전자(도 6A), C 대립유전자 대 대립유전자(도 6B) 및 T 대립유전자 대 대립유전자(도 6C)를 포함한다. 3개의 배경 신호 대략 1,350개 내지 대략 1,700개의 범위를 예측한다.
도 7a, 도 7b 및 도 7c는 유전자형분석된 샘플의 하위세트의 초기 분할의 예시적인 선도를 예시한다. 예를 들어, 샘플의 하위세트는 각각의 가능한 이대립인자성 조합에서 유전자형분석될 수 있다. 생성된 콜은 잠정적인 다대립유전자 유전자형 콜로 통합될 수 있다. 도 7A에서, "높은 A 신호"를 가지는 샘플은 C 대립유전자 대 T 대립유전자 클러스터링 선도로부터 제거될 수 있다. "높은 A 신호"는 대립유전자 A 배경 평균과 2의 표준 편차보다 높은 신호를 나타낼 수 있다. 도 7B에서, 높은 T 신호를 가지는 샘플은 C 대립유전자 대 대립유전자 클러스터링 선도로부터 제거될 수 있고, 도 7C에서, 높은 C 신호를 가지는 샘플은 T 대립유전자 대 대립유전자 클러스터링 선도로부터 제거될 수 있다.
알고리즘 설정
소정의 마커에 변이체를 맵핑하기 위한 정보는 알고리즘의 실행 동안 접근된 파일(예를 들어, CDF 파일)에 함유될 수 있다. 알고리즘을 실행하는 프로그램(예를 들어, 컴퓨터 시스템(1)에서 실행하는 프로그램)은 다대립유전자 마커를 위한 프라이어 파일, 및 설정을 판독할 수 있다. 다대립유전자 유전자형분석 알고리즘에 대한 설정은 이대립인자성 유전자형분석 동안 사용된 매개변수, 및 다대립유전자 유전자형분석에 배정된 상이한 초기 디폴트 값을 가지는 매개변수를 포함할 수 있다. 다대립유전자 유전자형분석에 대한 초기 콜 배정은 이대립인자성 유전자형분석 알고리즘과 동일한 매개변수 및 이용 가능한 설정을 가질 수 있다. 하기 표 1은, 초기 단계와 다를 수 있는, 다대립유전자 유전자형분석에 대한 최종 콜 배정이 가질 수 있는 매개변수를 포함한다.
Figure pct00026
초기 유전자형 배정
각각의 대립유전자에 대한 배경 신호를 계산한 후, 알고리즘은 대립유전자 신호 및 배경 신호에 기초하여 대립유전자 쌍에 대한 각각의 샘플에 대해 초기 유전자형 콜을 배정할 수 있다. 예를 들어, 다양한 이대립인자성 프로브세트 조합은 알고리즘에 대해 프로그램 파일에서 종류로부터 객체를 이용하여 유전자형분석될 수 있다.
각각의 대립유전자는 배경 신호의 예측치를 가질 수 있고, 그 대립유전자의 신호가 미리 확정된 한계치 값보다 큰 경우, 샘플은 대립유전자에 대한 배경보다 높은 신호를 가지는 것으로 생각될 수 있다. 몇몇 실시형태에서, 미리 확정된 한계치 값은 평균배경대립유전자 + 2*표준편차배경대립유전자와 동일한 것으로 계산될 수 있다. 대립유전자의 각각의 쌍에 대해, 알고리즘은 임의의 다른 대립유전자 또는 임의의 대안적인 대립유전자에서 배경 신호보다 높은 신호를 가지지 않는 샘플의 하위세트를 식별할 수 있다. 예를 들어, 대립유전자 A 대 대립유전자 B를 고려할 때, 대립유전자 C, 대립유전자 D 등에서 배경보다 높은 신호를 가지지 않는 모든 샘플은 유전자형분석 동안 포함되고 분류될 수 있다. 즉, 이대립인자성 조합의 유전자형분석의 각각의 회차 동안, 회차 동안 유전자형분석되지 않은 다른 대립유전자 중 하나가 배경 한계치보다 높은 신호를 가지는 경우, 샘플은 현재의 유전자형분석 회차로부터 제외될 수 있다.
대립유전자의 각각의 쌍에 대해, 알고리즘은 샘플의 하위세트에서의 샘플(예를 들어, 배경보다 높은 다른 대립유전자 신호를 가지지 않는 샘플)의 수가 미리 확정된 최소값보다 많은지를 결정할 수 있다. 예를 들어, 적절한 샘플의 최소 수의 초과(예를 들어, 3 또는 임의의 수)가 발견되는 경우, 이 샘플은, 특정한 프라이어 및 알고리즘 매개변수가 사용될 수 있는, Axiom(등록상표) GT1 알고리즘을 이용하여 상응하는 대립유전자 쌍에 나타난 2개의 대립유전자에 대해 유전자형분석될 수 있다. 이 결정 단계는 발견된 샘플의 최소 수의 초과를 가지는 대립유전자의 각각의 쌍에 대해 반복될 수 있다. 이 과정의 종료 시, 샘플은 다양한 반복으로부터 0, 1 또는 이것 초과의 콜을 가질 수 있다.
현재 유전자형분석되는 이대립인자성 조합에 특별할 수 있는 프라이어 값은 선택사항으로서 허용될 수 있지만, 특정한 프라이어가 제공되지 않는 경우 포괄적 값이 또한 사용될 수 있다. 이대립인자성 비교의 수, 분류 통계, 콜 및 유전자형분석된 샘플의 지표는 유전자형분석의 모든 회차에 대해 저장(예를 들어, 컴퓨터 시스템(1)에 의해 저장)될 수 있다.
다대립유전자 콜로의 이대립인자성 콜의 조합
각각의 샘플에 대한 모든 이대립인자성 콜은 수집될 수 있고, 이후 각각의 샘플에 대한 콜의 수집은 단일 잠정적인 유전자형 콜로 해결될 수 있다. 각각의 이대립인자성 콜에 대해, 프로브세트가 정보조사하는 2개의 대립유전자는 상응하는 다대립유전자 신호, 예를 들어 A, B, C, D, E, F 등에 사진편집으로 맵핑될 수 있다. 예를 들어, 하나가 삼대립유전자 A/C/T 마커에 정보조사하는 경우, A 대립유전자는 A 신호에, C 대립유전자는 B 신호에, T 대립유전자는 C 신호에 맵핑될 수 있다. 이대립인자성 C/T 프로브세트에 대한 콜을 만들기 위해, 알고리즘은 상응하는 이대립인자성 콜을 다대립유전자 콜에 맵핑할 수 있다. 콜이 -1인 경우, 알고리즘은 "무콜(no-call) 값"을 반송할 수 있다. 콜이 0인 경우, 반송하는 다대립유전자 콜은 2개의 C 대립유전자를 가지는 것에 상응하는 BB일 것이다. 콜이 2인 경우, 반송하는 다대립유전자 콜은 2개의 T 대립유전자를 가지는 것에 상응하는 CC일 것이다. 콜이 1인 경우, 이형접합체 CT 콜에 상응하는 BC는 반송될 수 있다. 모든 이대립인자성 콜은 각각의 샘플에 대해 수집될 수 있고, 가장 흔히 만들어질 수 있는 이대립인자성 콜은 샘플에 배정될 수 있다. 예를 들어, 알고리즘은 각각의 샘플에서 가장 흔히 발생하는 콜을 선택하기 위해 각각의 샘플에 대한 콜을 비교할 수 있다. 가장 흔히 이루어진 콜에 타이가 존재하는 경우, 샘플은 불일치한 콜이 배정될 수 있다. 몇몇 실시형태에서, 콜 사이에 타이가 있는 경우, "무콜" 값이 샘플에 배정될 수 있다. 샘플이 임의의 반복으로 결코 포함되지 않는 경우, 샘플은 "무콜" 값이 배정될 수 있다.
다변량 정규 분포 및 최종 유전자형 배정
초기 콜을 배정한 후, 신호는 샘플이 소정의 클러스터로부터 유래하는 우도를 결정하기 위해 각각의 클러스터를 기재하는 다변량 정규 분포에 핏팅될 수 있다. 즉, 알고리즘은 초기 콜 및 대립유전자에 의한 요약 신호를 쓰기할 수 있고, 프라이어 파일과 함께 요약 신호의 파일은 알고리즘을 실행하는 프로그램에 의해 판독될 수 있다. 신호는 대수 신호 공간으로 변환될 수 있고, 각각의 프로브세트는 각각의 클러스터에 대해 상응하는 프라이어가 모든 가능한 클러스터에 배정될 수 있다. 클러스터의 공변량, 평균 및 관찰의 수는 초기 콜로부터 유래할 수 있다.
즉, 알고리즘은 대수 신호 공간에서 각각의 이배체 유전자형 클러스터에 대한 다변량 정규 분포를 계산하기 위해 초기 콜 및 프라이어(예를 들어, 다른 데이터에서 훈련된 포괄적 또는 SNP 특정한 프라이어)를 사용할 수 있다. 각각의 이배체 유전자형 클러스터에 대해, 프라이어는 그 클러스터에 잠정적으로 배정된 각각의 샘플의 log2 신호에 의해 업데이트될 수 있다.
소정의 클러스터를 기재하는 다변량 정규에 대한 평균 및 변량은 그 클러스터에 대한 프라이어 매개변수와 조합된 그 클러스터에 대한 데이터를 사용하여 결정될 수 있다. 다변량 정규 분포에 사용된 복합 프라이어는 정규-반전-Wishart 형태일 수 있다. 이 프라이어 매개변수는 알고리즘과 사용하기 위해 로딩된 파일을 통한 입력으로서 이용 가능할 수 있다. 이들 매개변수에 대한 디폴트 값은 파일이 제공되지 않는 경우에 프로그램을 통해 설정될 수 있다. 이들 매개변수는 (하기 식으로 보여진 것처럼) 하기 방식으로 클러스터 데이터와 조합될 수 있다:
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
Figure pct00036
Figure pct00037
몇몇 실시형태에서, 사후 매개변수는 이에 따라 조정될 수 있다. 예를 들어, 데이터에서의 신호 강도는 예측된 위치로 빈 클러스터를 위치시키도록 사용될 수 있는데, 왜냐하면 이 위치가 프라이어 파일에 기재된 위치와 다를 수 있기 때문이다. 평균 배경 대립유전자 신호 및 평균 대립유전자 신호는 데이터에서의 동형접합체 신호로부터 수집될 수 있다. 빈 클러스터에 대해, 신호 강도는 평균 대립유전자 신호로부터 도출되고 이후 아래로 조정될 수 있다. 클러스터가 대립유전자를 함유하지 않는 경우, 신호는 대립유전자에 대한 배경 신호로부터 취해질 수 있다. 실제 대립유전자 신호 또는 대립유전자에 대한 배경 신호가 이용 가능하지 않는 경우, 소실하는 값은 존재하는 신호로부터의 차이의 예측된 양을 추가하거나 공제함으로써 계산될 수 있다. 클러스터 사이의 차이의 예측된 양은 2개의 변수에 함유될 수 있다: 0 대립유전자를 가지는 클러스터와 1 대립유전자를 가지는 클러스터 사이의 예측된 거리를 규명하기 위한 하나(카피수0내지1) 및 1 대립유전자를 가지는 클러스터와 2 대립유전자를 가지는 클러스터 사이의 예측된 거리를 규명하기 위한 다른 하나(카피수1내지2).
추가로, 최종 체크는 클러스터가 올바른 순서에 있도록 확실히 하도록 수행될 수 있다. 예를 들어, B 대립유전자(BB, AB)를 함유하는 클러스터는 B 대립유전자(CC, CD)를 함유하지 않는 클러스터보다 대립유전자 B에 대해 더 높은 신호를 가질 수 있다. 2개의 대립유전자를 함유하는 클러스터는 그 대립유전자의 오직 하나의 카피를 함유하는 클러스터보다 그 대립유전자에 대해 약간 더 높은 신호를 가지는 것으로 또한 예측될 수 있다. 예를 들어, BB는 클러스터 AB보다 B에서 더 높은 신호를 가질 수 있다. 상기 방법은 2개의 쉘 장벽 값에 의해 규명된 거리가 클러스터를 분리하도록 또한 보장할 수 있다. 쉘 장벽 값은 해당하는 2개의 클러스터 사이의 거리를 규명할 수 있다. 변수 "쉘장벽0내지1"은 0 대립유전자 및 1 대립유전자를 가지는 클러스터 사이의 최소 거리일 수 있는 한편, "쉘장벽1내지2"는 1 대립유전자 및 2 대립유전자를 가지는 클러스터 사이의 최소 거리일 수 있다. 클러스터 AA, AB 및 BB 및 대립유전자 A에 대해, "셀장벽0내지1"은 BB 클러스터에서의 A 대립유전자의 위치와 AB 클러스터에서의 A 대립유전자의 위치 사이의 최소 거리를 규명할 수 있는 한편, "쉘장벽1내지2"는 AB 클러스터에서의 A 대립유전자와 AA 클러스터에서의 A 대립유전자 사이의 최소 거리를 규명할 수 있다.
따라서, 필요한 경우, 사후 평균 위치는 순서를 보존하도록 조정될 수 있다. 예를 들어, AA 클러스터는 AB, AC 등의 클러스터보다 더 큰 log2 A 신호를 가질 수 있고, 이는 결국 A 대립유전자를 포함하지 않는 모든 클러스터보다 큰 log2 A 신호를 가질 수 있다. 대립유전자 카피 수 1을 가지는 클러스터는 대립유전자 카피 수 0을 가지는 클러스터와 비교될 수 있고, 이의 평균 log2 대립유전자 신호는 카피 수 0 log2 대립유전자 신호의 최대와 S(변경 가능한 매개변수일 수 있음)로 (필요한 경우) 증가할 수 있다. 이 조정은 이후 동형접합체 클러스터(카피 수 2)를 이형접합체 클러스터(카피 수 1)와 비교하여 반복될 수 있다.
사후 분포가 확립되면서, 각각의 샘플에 대한 각각의 분포(클러스터)에서의 구성원(L)의 로그 우도는 하기와 같이 계산될 수 있다:
Figure pct00038
Figure pct00039
Figure pct00040
Figure pct00041
Figure pct00042
Figure pct00043
로그 우도의 지수화가 수행되고, 이후 (음의 로그 우도에 의한 작업 시) 최소를 공제하거나 최대로부터 우도를 공제함으로써 우도 값을 재스케일링할 수 있다. "오션" 조정 값은 "오션" 매개변수에 대한 값을 최소 우도 값에 곱함으로써 계산될 수 있다.
각각의 클러스터에서의 또는 균일한 "오션" 클러스터에서의 구성원의 확률은 로그 우도로부터 각각의 샘플에 대해 계산될 수 있고, 샘플은 가장 큰 확률로 클러스터로 배정될 수 있다. 즉, 최종 유전자형 콜은 특정한 클러스터에 대한 각각의 샘플 구성원의 확률에 기초하여 배정될 수 있다. 임의의 다른 클러스터에서의 샘플의 구성원의 확률로서 정의된 신뢰값은 각각의 샘플에 대해 계산되고 미리 확정된 한계치 값과 비교될 수 있다. 그 한계치 값의 초과에 해당하는 샘플은 각각 "무콜" 값이 배정될 수 있다.
추가의 예로서, 도 8은 다대립유전자 유전자형분석에 대한 N차원 가우시안 혼합 모델의 예를 예시한다. 도 8에서의 모델은 최종 다대립유전자 콜을 배정하도록 이용될 수 있고, 복합 프라이어(포괄적 또는 훈련된 실제 데이터)를 각각의 유전자형에 잠정적으로 배정된 샘플로부터의 데이터를 조합함으로써 구성될 모델을 작제할 수 있다. 각각의 유전자형 클러스터에서의 구성원의 사후 확률은 각각의 샘플에 대해 계산될 수 있고, 가장 큰 우도를 가지는 유전자형은 기재된 한계치를 초과하는 경우 최종 유전자형 콜로서 배정될 수 있다. 이 단계는 초기 분할로부터 임의의 모순되는 유전자형 콜을 해결할 수 있고, 각각의 샘플에 대한 각각의 가능한 유전자형의 의미 있는 확률을 생성할 수 있다.
소프트웨어 실행
추가의 구체적인 실시형태에 따라, 상기 방법 중 하나 이상은 어레이 데이터 또는 유사한 유전자형 데이터로부터 다대립유전자 마커를 자동으로 유전자형분석하도록 소프트웨어 패키지에 포함될 수 있다. 이러한 소프트웨어 패키지는 BANG 알고리즘의 실행 동안 많은 상이한 파일을 판독할 수 있다. 프로그램 파일의 예는 하기를 포함한다(그러나, 이들로 제한되지는 않음):
AxiomDMETMultiallelicCaller.java
AxiomDMETClusterer.java
AxiomDMETStem.java
assign_final_calls.py
AxiomGT1.summary .txt - 다대립유전자 세트가 있는 모든 이대립인자성 프로브세트의 신호를 함유하는 요약 파일
프로브세트 파일(주석 파일) - 프로브세트가 속하는 다대립유전자 세트 및 프로브세트가 우블 세트의 일부인지에 대한 정보를 함유하는 파일. 프로그램은, 이것이 다대립유전자 콜이 수행될 수 있기 전에 AxiomDMETSummarizer.java 프로그램에 의한 통합을 필요로 하면서, 우블 세트에서 프로브세트를 스킵할 수 있다.
기준 파일 - 기준 콜을 함유하는 파일. 시험 목적에 사용됨.
출력 파일 명칭 - 이것은 다대립유전자 프로브세트에 대한 콜을 함유하는 파일의 명칭이다. 명칭은 통계(_ProbeSetSummary.txt)를 열거하고 SpotFire 그래핑 프로그램(_spotfire.txt)과 사용될 수 있는 다른 출력 파일을 생성할 때 접두사로서 사용된다.
AxiomGT1.multiallelic _summary.txt - 프로그램 AxiomDMETMultiAllelicCaller.java로부터 생성된 요약 파일
AxiomGT1.multiallelic _calls.txt - 프로그램 AxiomDMETMultiAllelicCaller.java로부터의 콜 파일
프로브세트 그룹(ps_group)은 동일한 다대립유전자 마커를 정보조사하는 프로브세트의 그룹을 확인하도록 사용될 수 있다. 이상적으로, 다대립유전자 세트에서 모든 프로브세트에 배정되는 multi_asid가 존재할 수 있다. 다대립유전자 호출 프로그램을 통해 실행되기 전에 통합될 필요가 있을 수 있는, 다대립유전자 세트에서의 프로브세트의 각각의 세트에 대한 우블 세트를 확인하기 위한 또 다른 식별자가 또한 존재할 수 있다. alleles_fwd는 이대립인자성 프로브세트가 정보조사하는 대립유전자를 확인하기 위해 여전히 요구될 수 있다. 다대립유전자 마커(multi_alleles field)에 대해 기재된 어레이에 존재하는 모든 대립유전자를 가지는 것이 또한 도움이 될 수 있다. 이 점에서, 프로그램은 alleles_fwd field에 기초하여 채널을 배정할 수 있다. 이상적인 상황은 실행으로부터 데이터를 분리하기 위해 대립유전자 또는 이대립인자성 probeset_id와 채널 사이에 약간의 맵핑을 가지는 것일 수 있다.
이들은 라이브러리 파일에서 이용 가능해야 하는 주석 파일의 필요한 데이터일 수 있다:
probeset _id - 다대립유전자 세트에서 상이한 이대립인자성 프로브세트를 식별할 수 있는 방식을 요한다. 현재의 실행은 다대립유전자 세트에서 이대립인자성 프로브세트에 대한 probeset_id를 이용한다.
multiallelic - 어떤 프로브세트가 다대립유전자인지 식별하는 방식을 요하고, 이에 따라 다대립유전자 호출 알고리즘을 이용하여 호출될 필요가 있다. 현재의 실행은 프로브세트가 프로브세트의 다대립유전자 세트(0/1)의 일부인지를 나타내도록 불린(boolean)을 이용한다.
multi_ asid - 다대립유전자 프로브세트 식별자.
ps_group - 다대립유전자 세트에서의 프로브세트가 식별될 수 있는 수단. 현재, 프로브세트 그룹은 이 목적에 사용되지만, 세트에서의 식별자와 프로브세트 사이에 맵핑이 이루어질 수 있는 한, 임의의 식별자, 및 어떤 프로를 식별하는 방식이 사용될 수 있다.
multi_alleles - 다대립유전자 마커에 대한 모든 대립유전자.
affy _snp_id - 이대립인자성 프로브세트에 의해 정보조사되는 마커에 대한 id.
wobble - 프로브는 표적 변이체(우블)에 가까운 모든 변이체에 대한 마커를 정보조사하도록 사용될 수 있다. 이 우블 세트는 유전자형분석되기 전에 프로브세트로 통합될 필요가 있다. 따라서, 통합이 발생하는 것이 필요한지를 확인하기 위한 수단이 필요할 수 있다. 현재, 불린은 프로브가 우블 세트의 일부(0/1)인지를 나타내도록 사용된다. 다대립유전자 호출 알고리즘은 현재, 이 블룬이 통합을 필요로 하는 우블 세트를 식별하면서, 이것이 1로 설정되는 모든 데이터를 스킵한다. 프로그램이 처음에 통합을 수행한 후 유전자형분석되므로, 이것은 프로토타입 뒤에 있을 필요가 없다.
alleles_fwd - 다대립유전자 세트에서의 이대립인자성 프로브세트 통합의 각각을 식별할 수 있는 수단. 정방향으로 정보조사되는 대립유전자는 지금까지 이 목적에 제공된다.
DMETcall - DMET 코드에 허용된 콜을 저장한다. 상응하는 숫자 DMET 코드에 대한 콜에 대한 이대립인자성 코드를 맵핑할 방식을 요한다.
요약 파일은 하기 데이터를 함유할 수 있다: a_ij, 요약 파일로부터 프로브세트 i 및 샘플 j에 대해 채널 A 신호; b_ij, 요약 파일로부터 프로브세트 i 및 샘플 j에 대해 채널 B 신호.
기준 파일은 다대립유전자 프로브세트에 대한 기준 콜을 함유할 수 있다.
추가의 매개변수 및 설정
하기 매개변수는 가능한 사용자 설정으로 고려될 수 있다.
AxiomDMETMultiAllelicCaller .java는 하기 매개변수를 가진다:
OUTPUT_CALLS_NUMERIC_CODE - 숫자 DMET 코드가 콜 파일에 사용되어야 하는지를 지정하기 위한 불린
AxiomDMETStem .java는 하기 매개변수를 가진다:
MIN_ LOG2 _ SIG - log 2 신호에 대한 최소값(현재 0.000001로 설정됨)
SIG _THRESHOLD_VAR_MULTIPLE - 배경 한계치 계산에서 사용된 전체 가중 평균 변량에 적용된 배수.
AxiomDMETClusterer .java 프로그램은 하기 매개변수를 가진다:
WORKING_DIR_PATH - 이대립인자성 프로브세트를 호출하고 규명하기 위해 생성된 일시적 파일에 대한 경로
SUMMARY_FILE_NAME - 하나의 이대립인자성 프로브세트에 대해 2개의 채널로부터의 신호를 함유하는, 생성되는 요약 파일의 명칭
POSTERIOR_FILE_NAME - 요약 파일에 대해 apt-summary-genotype 프로그램에 의해 생성된 이대립인자성 프로브세트에 대한 모델 파일
CALLS_FILE_NAME - apt-summary-genotype f에 의해 요약 파일로부터 생성된 이대립인자성 프로브세트에 대한 콜 파일의 명칭
METRICS_FILE_NAME - apt-summary-genotype에 의해 생성된 파일에 기초한 Ps_metrics에 의해 생성된 이대립인자성 프로브세트에 대한 메트릭 파일의 명칭
PERFORMANCE_FILE_NAME - apt-summary-genotype에 의해 생성된 메트릭스 파일 및 다른 파일을 사용하여 생성된 이대립인자성 프로브세트에 대한 성능(분류) 파일의 명칭
APT_SUMMARY_GENOTYPE - 프로그램에 대한 실제 경로
OUTPUT_DIR_NAME - 이대립인자성 프로브세트에 대한 apt-summary-genotype에 의해 생성된 유전자형 결과가 저장되는 명칭
GENOTYPES_FILE_PATH - 콜 파일의 경로 및 명칭
PS_CLASS_FILE_PATH - 성능 파일의 경로 및 명칭
SCRIPT_NAME - 이대립인자성 프로브세트 데이터에 대한 apt-summary-genotype, Ps_metrics 및 Ps_classification를 호출하기 위해 사용된 스크립트의 명칭
CMD - 스크립트가 아직 존재하지 않는 경우 이대립인자성 프로브세트에서 실행되는 스크립트에 대한 스트링
프로브세트 선택:
다대립유전자 콜은 다대립유전자이고 우블 세트에 속하지 않는 것으로 프로브세트 파일에서 지정된 프로브세트에 대해 생성될 수 있다. "1"은 프로브세트가 다대립유전자라는 것을 지칭하도록 사용될 수 있고, "0"은 프로브세트가 우블 세트의 일부가 아니라는 것을 지칭하도록 사용될 수 있다.
출력 파일
몇몇 실시형태에서, 4개의 초기 출력 파일은 다대립유전자 유전자형분석 알고리즘으로부터 생성될 수 있다. 출력 파일은 모두 사용자에 의해 지정된 출력 파일 명칭(OutFileName)일 수 있는 동일한 접두사를 가질 수 있다. 출력 파일의 예는 하기 기재되어 있다:
OutFileName.txt - 모든 프로브세트 그룹에 대해 각각의 샘플의 다대립유전자 콜을 함유하는 콜 파일. 콜 파일은 열에 대한 샘플 명칭에 의해 일반 AxiomGT1.calls.txt 파일을 닮는다. 그러나, probeset_id 열은 프로브세트 그룹 id에 의해 있고, 이것은 2개 이상의 이대립인자성 프로브세트에 의해 id 공유되어야 한다. 콜은 포맷 AA 내지 FF이고, 이는 DMET 콜 포맷이다. 소정의 마커에 대해, 그 마커를 정보조사하는 대립유전자는 콜에 실제 대립유전자를 맵핑하도록 이 기호에 렉소그래피로 뒤로 연결되어야 한다. 콜이 없는 3개의 다른 가능한 콜이 존재한다 - NotAvailable - 샘플이 유전자형분석되지 않도록 모든 다른 채널에서 너무 많은 신호가 있는 콜.
CallsInconsistent - 이대립인자성 콜이 조합될 때 동등하게 호출된 2개의 상이한 콜이 존재한다.
XX - 유전자형분석 및 유전자형 콜 조합 동안 콜이 배정되지 않음.
OutFileName_summary.txt - 채널 신호가 대립유전자 신호로 변환된 요약 파일
OutFileName_ProbesetSummary.txt - 프로브세트 그룹을 요약하는 데이터. 열은 하기와 같다:
ps_group - 프로브세트 그룹 id를 함유한다
multi_asid - 다대립유전자 프로브세트 id
multi_alleles - 마커에 정보조사되는 대립유전자
tile_strand - 정방향 또는 역방향
line - 그룹 우블에 식별됨(프로브세트 id, 다대립유전자 또는 이대립인자성 중 어느 하나의 미래에 사용되어야 함)
offset - 프로브세트의 이 그룹에 대한 오프셋
probeLength - 프로브세트의 이 그룹에서의 프로브의 길이
nAllelesFound - 호출 과정 동안 실제로 발견된 대립유전자의 수
AllelesFound - 어떤 대립유전자가 예상된 대립유전자에 발견되는지
nBiallelicCombinations - 이대립인자성 조합의 수
AveBgnd - 프로브세트의 이 그룹에 대한 평균 배경 값
VarBgnd - 프로브세트의 이 그룹에 대한 배경의 변량
WeightedAveBgnd - 배경 한계치를 계산하기 위해 사용된 가중 평균 배경 값
WeightedVarBgnd - 배경 한계치를 계산하기 위해 사용된 가중 표준 편차 배경 값
SignalThreshold_weightedBNDPlus2sd - 배경 한계치. 값은 신호가 배경보다 높은지를 결정하도록 사용된다
OutFileName_spotfire.txt - 모든 프로브세트 그룹을 요약하고 스팟파이어(spotfire)로 클러스터를 드로우하기 위해 사용될 수 있는 파일. 이것은 프로토타이핑 코드 및 디버깅을 위해 만들어진 파일이다. 데이터 중 몇몇은 디버깅 목적을 위해 미래에 바람직할 수 있다.
하기 파일은 assign_final_calls.py 스크립트로부터 출력된다:
calls file - 파일은 다대립유전자 유전자형분석 알고리즘으로부터 배정된 최종 콜을 함유한다
confidences file - 배정된 콜에 대한 신뢰도
snp-posterior file - 후속하는 실행에서 프라이어 파일로서 사용될 수 있는 클러스터에 대한 사후 매개변수를 함유하는 파일
probabilities file - 파일은 각각의 클러스터에 속하는 소정의 샘플에 대한 확률을 함유한다
다대립유전자 유전자형분석 - 알고리즘 검증
예에서, Axiom(등록상표) 어레이는 1000 Genomes 3상 데이터에서 각각 2개 초과의 대립유전자를 가지는 약 100,000개의 다대립유전자 마커에 대한 프로브세트에 의해 설계된다. 마커는 Coriell로부터 T01(CEU), T02(CHB + JPT), T03(YRI) 및 V12(LWK) HapMap 샘플 플레이트의 4개의 샘플 플레이트에서 샘플 중에서 제3의 가장 흔한 대립유전자의 적어도 하나의 예의 존재에 대해 선택된다. 프로브세트는, 2개 이하의 NIV가 허용되는 수천 개의 엑손 마커의 세트를 제외하고, 임의의 컨디넨셜 집단에서 1% 초과의 소수의 대립유전자 빈도로 인근의 간섭 변이체(nearby, interfering variant: NIV)를 피하도록 대부분 설계된다. 프로브세트는 4개의 복제물에서 타일링된 엑손 프로브세트를 제외하고 2개의 복제물에서 타일링되었다. 마커는 상염색체 염색체 및 염색체 X로부터 선택된다.
상기 기재된 4개의 집단 플레이트를 Axiom 어레이 플레이트에서 분석한다. QC 콜 비율을 평가하기 위해 3,000개의 AFFX-SNP 이대립인자성 대조군 프로브세트를 이용하여 샘플 품질 관리(QC)를 일반적으로 수행한다. QC를 통과한 샘플로부터의 신호를 BANG 알고리즘의 프로토타입 실행에 입력으로서 사용한다. 포괄적 프라이어 및 디폴트 알고리즘 매개변수를 각각의 단계에서 사용한다. 프로브세트가 하기 기준을 만족하는 경우, 프로브세트는 잘 수행되는 것으로 고려된다:
1. 90% 콜 비율
2. 각각의 대립유전자 카피 수에 대해 대립유전자 CN 일치율 > 50%.
a. 카피 수 2에 대한 일치율은 1000 Genomes 기준으로부터 동형접합체의 예상된 수로 나눈 정확하게 호출된 동형접합체의 수로서 각각의 대립유전자에 대해 별개로 계산된다. 무콜은 오차로 계수된다.
b. 카피 수 1에 대한 일치율은 대립유전자를 포함하는 이종접합체의 예상된 수로 나눈, 대립유전자를 포함하는 정확하게 호출된 이종접합체의 수로서 각각의 대립유전자에 대해 별개로 계산된다. 즉, 대립유전자 A에 대한 CN 1 일치율은 유전자형인 예상된 AB, AC 등을 가지는 샘플 중에서 정확한 콜의 분수이다. 무콜은 오차로 계수된다.
이 기준에 의해, Axiom 어레이에서의 약 42%의 프로브세트는 잘 수행된다. 도 9는 각각의 예상된 유전자형 클러스터에 대한 일치율의 비가중 평균에 대한 다대립유전자 프로브세트 콜 비율의 예시적인 선도를 예시한다. 일치율은 각각의 예상된 유전자형에 대해 계산되고, 이후 각각의 클러스터에서 예상된 샘플의 수에 관련 없이 평균이 될 수 있다. 예를 들어, 예상된 유전자형은 AA, AB, AC일 수 있는 한편, 유전자형 BB, CC, BC를 가지는 예상된 샘플이 없을 수 있다. 따라서, 이들 클러스터가 생략될 수 있다. 무콜 배정이 부정확하게 생각될 수 있다. CEU, CHB, JPT, YRI 및 LWK 집단으로부터 약 360개 개별에서 유전자형분석된, Axiom 어레이에서의 모든 다대립유전자 프로브세트가 도시되어 있다. 프로브세트의 많은 소수는 높은 콜 비율 및 일치율을 가질 수 있다(도 9의 상부 오른쪽 코너). 높은 콜 비율 및 낮은 일치율에서의 또 다른 밀도 피크, 및 성능의 범위에 걸친 프로브세트가 존재할 수 있다.
도 10은 몇몇 전환된 프로브세트에 대한 콜 및 기준 유전자형의 예시적인 선도를 예시한다. 예를 들어, 도 10에서의 선도는 1000 Genomes 3상 기준 유전자형에 걸친 BANG 콜을 보여준다. 상이한 삼대립유전자 마커에 대한 3개의 프로브세트가 도시되어 있다. 모든 선도는 약 360개의 샘플에서의 스크리닝 어레이로부터의 log2 신호를 보여준다. 왼쪽에서의 선도는 BANG 알고리즘에 의해 배정된 유전자형에 따라 색상표시된다. 오른쪽에서의 선도는 동일한 개체에 대한 1000 Genomes 3상 콜에 따라 색상표시된다. 1000 Genomes 기준 유전자형에서의 더 큰 수의 무콜(황색)은 스크리닝된 개체의 모두가 1000 Genomes에 의해 분석되지 않는다는 것을 반영한다.
프로브 설계
특정한 프로브 설계는 다대립유전자 유전자형분석 접근법과 관련될 수 있고, 관심 있는 데이터를 얻는 데 유리할 수 있다. 다양한 DNA 분석 시스템에서 사용될 수 있는 SNP 프로브의 결정에 대한 논리 루틴은 오래 존재하였다. SNP를 정보조사하도록 설계된 이전의 어레이는 관심 있는 표적(관심 있는 SNP를 포함)에 완전히 상보성인 프로브 및 완전히 상보성인 프로브와 비교하여 하나 이상의 일치환을 함유한 하나 이상의 다른 프로브를 함유하는 프로브 세트를 흔히 사용할 것이다. 이후, 프로브 세트에서의 상이한 프로브에 대한 생성된 강도 데이터는 관심 있는 SNP에 대한 유전자형 콜을 생성하도록 비교될 것이다. 예를 들어, 미국 특허 제5,858,659호(본 명세서에서 그 전문이 참고로 포함됨)를 참조한다.
SNP를 유전자형분석하기 위한 더 최근의 어레이는 Axiom(등록상표) 어레이(아피메트릭스, 인크.(캘리포니아주 산타 클라라)) 및 Infinium(등록상표) II 어레이(일루미나, 인크.(캘리포니아주 샌 디에고))을 포함한다. 이들 어레이는 관심 있는 표적 핵산 내에 SNP 부위를 플랭킹하는 서열에 상보성인 SNP 프로브를 사용하고, 이에 따라 이 어레이에서의 SNP 프로브는 SNP 부위에서의 표적 핵산과 직접적으로 혼성화하지 않는다. 대신에, 프로브-표적 듀플렉스 끝의 이중 가닥 부분은 SNP의 바로 상류에서 끝난다. 이후, SNP 부위의 정보조사는 SNP 부위(예를 들어, 결찰 또는 단일 염기 연장)에서의 표적의 염기에 상보성을 요하는 당해 분야에 공지된 적절한 기전을 통해 SNP 프로브의 일 말단(예를 들어, 5', 3')에 (2개의 상이한 합텐 중 하나를 포함하는 뉴클레오타이드 또는 프로브에 의해) 뉴클레오타이드 또는 프로브의 추가에 의해 달성된다. 어떤 대립유전자가 SNP 부위에 존재하는지의 결정은 추가되는 뉴클레오타이드 또는 프로브와 연관된 특정한 합텐의 후속하는 검출을 통해 확인된다.
Axiom(등록상표) 검정은 2개의 색상 포맷으로 30개 염기 올리고뉴클레오타이드 SNP 프로브를 사용한다. SNP 부위에서의 염기의 동일성은 SNP 프로브에 결찰된 염기의 동일성에 따라 2개의 형광 라벨 중 1개에 대한 부착 부위로서 작용하는 2개의 합텐 중 1개를 함유하는 프로브의 결찰에 의해 확인된다(예를 들어, 제1 합텐/라벨 조합은 SNP 부위가 A 또는 T일 때 결찰하는 프로브와 연관되고, 제2 합텐/라벨 조합은 SNP 부위가 C 또는 G일 때 결찰하는 프로브와 연관됨). 예를 들어, 문헌[Hoffmann et al., "Next generation genome-wide association tool: design and coverage of a high-throughput European-optimized SNP array," Genomics, 98(2): 79-89 (2011); 및 Hoffmann et al., "Design and coverage of high throughput genotyping arrays optimized for individuals of East Asian, African American, and Latino race/ethnicity using imputation and a novel hybrid SNP selection algorithm," Genomics, 98(6): 422-30 (2011)](이들 둘 다 본 명세서에 그 전문이 참고로 포함됨)을 참조한다.
Axiom(등록상표) DMET 검정은 약물 대사에서 대사 경로의 관여의 유전적 분석에 또한 이용될 수 있다. 유전 변이는 약물을 대사시키는 상이한 개체의 능력에서의 중요한 결정인자일 수 있다. 개체의 유전적 배경의 연구는 개체에 존재하는 다형에 따라 약제를 표적화하고 치료를 조정하기 위해 이용될 수 있다. DMET 패널은 약물 대사에서 역할을 할 수 있는 유전자의 세트에서 1,200개 초과의 다형을 분석하는 단일 검정을 제공함으로써 이러한 시험을 수월하게 한다. DMET 패널은 많은 상이한 유전자를 동시에 정보조사할 수 있어서, 새로운 약물의 대사에서 관여될 수 있는 상이한 유전자에서의 대립유전자의 특정한 조합의 검출을 수월하게 한다.
Infinium(등록상표) II 검정은 2개의 색상 포맷으로 50개 염기 올리고뉴클레오타이드 SNP 프로브를 사용한다. SNP 부위에서의 염기의 동일성은 SNP 프로브의 단일 염기 연장을 통해 2개의 상이한 합텐 중 1개를 보유하는 ddNTP의 혼입에 의해 확인되고, 각각의 합텐은 상이한 형광 라벨과 연관된다(예를 들어, ddCTP 및 ddGTP는 제1 합텐/라벨 조합과 연관되는 한편, ddATP 및 ddTTP는 제2 합텐/라벨 조합과 연관됨). 예를 들어, 문헌[Gunderson et al., "Whole-genome genotyping of haplotype tag single nucleotide polymorphisms," Pharmacogenomics, 7(4): 641-8 (2006); 및 Steemers et al., "Whole-genome genotyping with the single-base extension assay," Nature Methods, 3: 31-33 (2006)](이들 둘 다 본 명세서에 그 전문이 참고로 포함됨)을 참조한다.
조합된 전체 게놈 및 유전좌위 특이적 증폭 방법
본 개시내용의 추가의 실시형태에서, 전체 게놈 증폭(WGA) 및 유전좌위 특이적 증폭은 원하는 표적 서열에 대한 생성된 유전자형분석 데이터를 개선하고 생성된 데이터에서 원치 않는 위유전자의 효과를 감소시키기 위해 원하는 표적 서열을 향해 증폭을 선택적으로 편향시키기 위해 어레이 검정과 사용하도록 조합될 수 있다.
예를 들어, Axiom(등록상표) 및 Infinium(등록상표) II 검정은 증폭이 전체 게놈에서 수행되는 전체-게놈 증폭된 DNA를 사용한다. 많은 전체 게놈 증폭 접근법, 예컨대 다중 대체 증폭(Multiple Displacement Amplification: MDA), 축퇴된 올리고뉴클레오타이드 PCR(Degenerated Oligonucleotide PCR: DOP-PCR) 및 프라이머 연장 예비증폭(Primer Extension Preamplification: PEP)이 당해 분야에 공지되어 있고, WGA에 대한 많은 키트, 예컨대 PicoPLEX(상표명) WGA Kit(New England BiolabsInc.(메사추세츠주 입스위치)), REPLI-g WGA Kits(QIAGEN(네덜란드 벤로)) 및 GenomePlex(등록상표) 전체 게놈 증폭 키트(Sigma-Aldrich Corporation(미주리주 세인트 루이스))는 상업적으로 구입 가능하다. 다대립유전자 표적을 위해, 관심 있는 실제 유전자 변이체, 및 서열에서 가까울 수 있지만, 관심 있는 실제 변이체로부터의 소수의 차이를 여전히 가질 수 있고, 유용한 데이터를 특정한 임상 또는 조사 목표에 제공할 뿐만 아니라, 관심 있는 표적의 효율적인 정보조사 및 유전자형분석을 실제로 방해하는, 위유전자가 존재할 수 있다. 위유전자는 관련 서열의 분석을 복잡하게 만들 수 있고, 동형접합성 콜이 이형접합성 콜로 보이게 만들거나 그 반대일 수 있다. 따라서, 전체 게놈 증폭(WGA)은 관심 있는 표적과 유사한 정도의 증폭에서 이러한 위유전자의 증폭을 발생시킬 수 있고, 이는 관심 있는 표적에 대한 정확한 유전자형 콜을 만드는 데 있어서 어려움을 발생시킬 수 있다.
이를 극복하기 위해, 관심 있는 변이체에 대한 유전좌위 특이적 증폭에 의해 전체 게놈 증폭(WGA)을 보충함으로써 결과를 증대시키는 것이 유리할 수 있다. 유전좌위 특이적 증폭의 많은 형태, 예컨대 다중 중합효소 연쇄 반응의 사용, 후속하는 PCR에 의한 분자 반전 프로브(molecular inversion probe), 후속하는 롤링 서클 증폭에 의한 패드락 프로브 및 다른 접근법이 당해 분야에 공지되어 있다. 멀티플렉스 PCR은 상이한 DNA 표적 서열을 동시에 증폭시키기 위해 PCR을 이용하는 것으로 이루어질 수 있다. 즉, 위유전자를 함유하는 표적은 원하는 유전자에 특이적인 프라이머를 사용하여 mPCR 증폭으로 처리될 수 있다. 분자 반전 프로브의 사용은 당해 분야에 공지되어 있고, 예를 들어 문헌[Hardenbol et al., Nat. Biotechnol. 21:673-8 (2003), Hardenbol et al., Genome Res. 15:269-275 (2005), Ji et al., Cancer Res. 66:7910-9], 미국 특허 제6,858,412호; 제8,716,190호; 제8,828,688호; 제8,759,036호 및 미국 공개 특허 제2013/0296172호 및 제2015/0284786호(이들은 각각 모든 목적을 위해 본 명세서에 그 전문이 참고로 포함됨)에 기재되어 있다. 후속하는 롤링 서클 증폭에 의한 패드락 프로브의 사용은 또한 당해 분야에 공지되어 있고, 예를 들어 미국 특허 제6,558,928호 및 제7,074,564호(이들은 각각 모든 목적을 위해 본 명세서에 그 전문이 참고로 포함됨)에 기재되어 있다. (유사한 변이체 대신에) 하나의 특정한 표적 서열의 유전좌위 특이적 증폭은, 특히 전체 게놈 증폭과 조합될 때, 마이크로어레이 검정으로부터 얻은 데이터의 후속하는 분석에 의해 도움이 될 수 있다.
유전좌위 특이적 증폭은 게놈의 원하는 표적의 더 많은 카피를 궁극적으로 생성하고 원치 않는 위유전자와 반대로 원하는 표적에 대해 생성된 증폭 생성물을 통계학적으로 편향시키기 위해 전체 게놈 증폭을 보충하도록 이용될 수 있다. 원치 않는 영역에 대한 게놈의 표적 섹션의 농도의 증가는 표적으로부터의 신호를 증가시키고, 이대립인자성 및 다대립유전자 유전자형분석 둘 다에서 후속하는 유전자형분석 결과를 증대시킬 수 있다. 즉, 어레이에서의 정보조사를 위해 이용 가능한 원하는 증폭산물의 증가는 더 효율적이고 증대된 생물정보학 유전자형분석 과정을 발생시킬 수 있다. 관심 있는 마커의 특정한 표적, 예컨대 관심 있는 유전자 변이체에서의 특정한 SNP가 많은 유사한 위유전자 또는 변이체를 가질 때, 유전자형분석 과정의 개선은 특히 유리할 수 있다. 예를 들어, 사이토크롬 P450 내에, 진단학적, 임상학적 및/또는 약물유전체 중요성의 많은 마커가 있지만, 관련 없는 가까운 변이체를 가진다. 예를 들어, 높은 약물유전체 값을 가지는 CYP2D6 내에 SNP가 있지만, 전체 게놈 증폭 단독에 의존하는 것은 원하는 마커의 정확한 분석을 방해할 수 있는데, CYP2D6과 위유전자, 예컨대 CYP2D7 및 CYP2D8 사이의 높은 상동성이 관심 있는 CYP2D6 마커(예를 들어, SNP)의 정보조사에 대한 높은 비특이적 배경 신호의 후자의 기여를 통해 후속하는 유전자형분석을 보통 복잡하게 하기 때문이다. 당해 분야의 숙련자에 의해 인식되는 것처럼, 위유전자 및 달리 높은 상동성의 서열로부터의 이 높은 비특이적 배경은 또한 관심 있는 다른 마커, 예컨대 ABCC2, CFTR, CYP1A2, CYP2A6, CYP2B6, CYP2C19, CYP2C8, CYP2C9, GSTM1 및 SULT1A1을 방해한다.
몇몇 실시형태에서, 게놈 DNA 샘플은 (예컨대, 추출에 의해) 얻어질 수 있고, 전체 게놈 증폭은 샘플에 적용될 수 있다. 유전좌위 특이적 mPCR 증폭은 관심 있는 표적 서열에 대해 샘플에서 수행될 수 있고, 샘플은 다대립유전자 유전자형분석을 위해 어레이에 단편화되고 혼성화될 수 있다.
도 11은 본 개시내용의 하나 이상의 양태에 따른 개시된 증폭 접근법에서의 단계의 흐름의 예시적인 다이어그램을 예시한다. 이 예에서, CYP2D6 5.6kb PCR 생성물은 전체 게놈 증폭 전 또는 전체 게놈 증폭 후의 2개의 상이한 단계에서 Axiom(등록상표) 작업흐름에 첨가될 수 있다. 몇몇 실시형태에서, 이 작업흐름은 단일 PCR 생성물을 사용하여 약 100개의 변이체(2,973개의 프로브세트)가 관찰되게 허용할 수 있다.
도 12는 PCR 증폭된 표적을 사용하는 것에 대한 2개의 절차의 시험으로부터 얻은 결과의 선도를 예시한다. 도 12에서의 선도는 모든 CYP2D6을 포함하는 단일 증폭산물을 증폭하는 것으로부터 얻은 클러스터 선도를 보여준다. 몇몇 실시형태에서, PCR 증폭된 표적을 사용하는 것에 대한 절차는 약간 개선된 SNP 전환율을 생성시킬 수 있다. 그러나, 더 큰 연구는 어려운 마커에 대한 영향을 평가하기 위해 필요할 수 있다.
몇몇 실시형태에서, 본 명세서에 개시된 Axiom(등록상표) DMET 증폭 방법은 유사한 작업흐름에 의한, 24웰 포맷, 매뉴얼 표적 준비 및 시약 취급에 의한 Axiom 2.0 튼튼한 화학 플랫폼의 이점을 취할 수 있다. mPCR 단계는 상업적으로 구입 가능한 mPCR 키트, 예컨대 QIAGEN Multiplex PCR 키트를 사용하여 Axiom(등록상표) 작업흐름으로 통합될 수 있다. 몇몇 실시형태에서, mPCR 생성물은 작업흐름에서의 DNase 단편화 전에 전체 게놈 증폭 후 첨가될 수 있다.
도 13은 본 개시내용의 하나 이상의 양태에 따른 개시된 증폭 접근법에서의 작업흐름의 예시적인 다이어그램을 예시한다.
도 14는 본 개시내용의 하나 이상의 양태에 따른 실행가능성에 대해 시험된 다중화 프라이머 세트의 표를 예시한다.
추가로, 올리고뉴클레오타이드 스파이크-인 연구는 반응성 프로브를 식별하는 것을 도울 수 있다. 일 예에서, 70합체 올리고머는 Tier 1 단형(예를 들어, A, B, C, D 대립유전자)에 대해 합성되었다. 올리고머는 가닥 둘 다에 일치하고, 우블 위치에서의 서열 축퇴성을 가진다. 증폭된 gDNA는 DMET 어레이 플레이트에서 프로세싱되고, 프로브 반응은 모니터링된다. 도 15는 스파이크-인 연구로부터의 유전자형연구 결과의 예를 예시한다. 도 15에 도시된 바대로, 제1 프로브세트는 비반응성인 한편, 제2 프로브세트는 용량 의존적 반응을 나타냈다.
도 16은 본 개시내용의 하나 이상의 양태에 따른 15-플렉스 mPCR 검정으로부터의 결과의 예시적인 표를 예시한다. 몇몇 실시형태에서, Qiagen Multiplex PCR Plus Kit(PN 206151 또는 206152)는 mPCR 프로토콜에서 사용될 수 있다. 도 16에 도시된 결과에 표시된 바대로, 1% 이상의 소수 대립유전자 빈도(minor allele frequency: MAF)를 가지는 3개의 SNP는 DMET Plus로부터 운반된 프라이머 서열에서 관찰되었다. 기준 SNP 변이체 rs76015180은 1-0214 프라이머의 중요한 3' 말단에 존재하고, 증폭에 영향을 미치는 것으로 밝혀졌다.
대상이 구조 특징 및/또는 방법론적 작용에 구체적인 언어로 기재되어 있지만, 첨부된 청구항에 정의된 대상이 상기 기재된 특정한 특징 또는 작용에 반드시 제한될 필요가 없다고 이해되어야 한다. 오히려, 상기 기재된 특정한 특징 및 작용은 하기 청구항의 실행의 예로서 기재되어 있다.

Claims (29)

  1. 컴퓨터 시스템을 사용하여 하나 이상의 다대립유전자 마커(multiallelic marker)를 유전자형분석하는 방법으로서,
    하나 이상의 샘플에서 하나 이상의 다대립유전자 마커에 대한 신호를 획득하는 단계;
    각각의 다대립유전자 마커에 대해, 상기 하나 이상의 샘플로부터의 복수의 대립유전자 쌍에서 대립유전자의 각각의 쌍에 대한 상기 신호를 클러스터링하여, 각각의 대립유전자 쌍을 나타내는 클러스터를 생성시키는 단계;
    동형접합성 대립유전자 쌍을 나타내는 각각의 동형접합성 클러스터에 대해, 대안적인 대립유전자에 대한 배경 신호의 계산을 위해 상기 대안적인 대립유전자에 대한 신호를 수집하여, 각각의 대립유전자를 각각 나타내는 복수의 배경 신호를 생성시키는 단계;
    상기 신호 및 상기 배경 신호에 기초하여 각각의 대립유전자 쌍에 대한 각각의 샘플에 대해 초기 유전자형 콜(call)을 배정하는 단계;
    상기 초기 유전자형 콜 및 프라이어(prior) 클러스터 매개변수를 사용하여 각각의 클러스터에 대한 다변량 정규 분포를 계산하는 단계;
    각각의 클러스터에 대한 각각의 다변량 정규 분포에 대해, 각각의 샘플에 대한 구성원의 대수 우도를 계산하는 단계;
    상기 구성원의 대수 우도에 기초하여, 각각의 샘플에 대해, 각각의 클러스터에서의 구성원의 확률을 계산하는 단계; 및
    상기 구성원의 확률에 기초하여 각각의 샘플에 최종 유전자형 콜을 배정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 하나 이상의 다대립유전자 마커는 3개 이상의 가능한 대립유전자를 가지는 단일 뉴클레오타이드 다형(single nucleotide polymorphism: SNP) 및 인델(indel)을 포함하는, 방법.
  3. 제1항에 있어서, 상기 하나 이상의 다대립유전자 마커에 대해 획득된 상기 신호는 상기 하나 이상의 샘플에서 각각의 대립유전자에 대한 대립유전자 강도 데이터를 포함하는, 방법.
  4. 제1항에 있어서, 상기 신호를 클러스터링하는 것은 확정된 단일 뉴클레오타이드 다형(SNP) 및 확정된 알고리즘 매개변수를 가지는 알고리즘을 사용하는 것을 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 초기 유전자형 콜을 배정하는 단계는
    각각의 대립유전자 쌍에 대해, 임의의 대안적인 대립유전자에서 상기 배경 신호를 초과하는 신호를 가지지 않는 샘플의 하위세트를 식별하는 단계;
    각각의 대립유전자 쌍에 대해, 상기 샘플의 하위세트에서의 샘플의 수가 미리 확정된 최소값을 초과하는지를 결정하는 단계; 및
    각각의 대립유전자 쌍에 대해, 상기 상응하는 대립유전자 쌍에 나타난 상기 2개의 대립유전자에 대한 상기 샘플의 하위세트에서의 각각의 샘플을 유전자형분석하는 단계를 더 포함하는, 방법.
  6. 제1항에 있어서, 각각의 샘플에 대해 상기 초기 유전자형 콜을 배정하는 단계는, 각각의 샘플에서 가장 흔히 발생하는 콜을 선택하기 위해, 각각의 샘플에 대한 콜을 비교하는 단계를 더 포함하되, 상기 콜 중에 타이(tie)가 있는 경우 "무콜(no-call)" 값을 상기 샘플에 배정하는, 방법.
  7. 제1항에 있어서, 각각의 클러스터에 대한 상기 다변량 정규 분포는 대수 신호 공간에서 계산되는, 방법.
  8. 제1항에 있어서, 각각의 샘플에 대한 상기 구성원의 대수 우도를 계산하는 단계는 하기 식을 이용하여 계산되는, 방법:
    Figure pct00044

    식 중,
    Figure pct00045
    는 공분산의 결정인자이고;
    x는 프로브 세트에 대한 샘플에 대한 상기 신호를 함유하는 k차원 열 벡터이고;
    k는 프로브 세트에 대한 신호의 수이다.
  9. 제1항에 있어서, 상기 최종 유전자형 콜을 배정하는 단계는,
    상기 샘플이 구성원의 가장 높은 확률을 가지는 특정한 클러스터로 각각의 샘플을 배정하여, 각각의 샘플에 대해 클러스터 배정을 생성시키는 단계; 및
    각각의 샘플에 대한 상기 클러스터 배정에 기초하여 상기 최종 유전자형 콜을 배정하는 단계를 더 포함하는, 방법.
  10. 제1항에 있어서,
    각각의 샘플에 대한 신뢰값을 계산하는 단계로서, 상기 신뢰값은 임의의 다른 클러스터에서 상기 샘플의 구성원의 확률을 포함하는, 상기 신뢰값을 계산하는 단계;
    각각의 샘플에 대한 상기 신뢰값을 미리 확정된 한계치 값과 비교하는 단계; 및
    상기 미리 확정된 한계치 값보다 높은 신뢰값을 가지는 각각의 샘플에 "무콜" 값을 배정하는 단계를 더 포함하는, 방법.
  11. 제1항에 있어서, 각각의 개별적인 대립유전자에 대한 상기 배경 신호의 평균, 변량 및 표준 편차를 계산하는 단계를 더 포함하는, 방법.
  12. 제11항에 있어서, 전반적 예상된 배경 신호는 상기 대립유전자에 대한 배경 신호의 평균, 변량 및 표준 편차를 계산하기 위해 어떠한 값도 이용 가능하지 않는 경우 대립유전자에 사용되고, 상기 전반적 예상된 배경 신호는 상기 복수의 배경 신호의 평균인, 방법.
  13. 제11항에 있어서, 각각의 개별적인 대립유전자에 대한 상기 배경 신호의 평균, 변량 및 표준 편차를 계산하는 것은, 하기 식을 이용해서 계산하는 것을 더 포함하는, 방법:
    Figure pct00046

    Figure pct00047

    Figure pct00048

    Figure pct00049

    Figure pct00050

    Figure pct00051

    Figure pct00052

    식 중,
    Figure pct00053
    는 대립유전자에 대한 평균 신호이고,
    Figure pct00054
    는 그 대립유전자에 대한 동형접합체 콜의 신호이고,
    Figure pct00055
    는 상기 신호에 기여한 샘플의 전체 수이고;
    Figure pct00056
    는 대립유전자의 배경 값이고,
    Figure pct00057
    는 상기 콜이 상기 대립유전자에 일치하지 않을 때 동형접합체 콜 동안 그 대립유전자에 대한 신호이고;
    Figure pct00058
    는 대립유전자의 상기 배경에 대한 평균이고;
    Figure pct00059
    은 상기 배경의 가중 평균이고;
    Figure pct00060
    는 상기 배경의 변량이고;
    Figure pct00061
    는 상기 배경의 표준 편차이고;
    Figure pct00062
    는 상기 배경의 가중 평균 표준 편차이다.
  14. 제1항에 있어서, 상기 하나 이상의 샘플에서 상기 하나 이상의 다대립유전자 마커에 대한 상기 신호를 획득하는 단계는 상기 다대립유전자 마커를 측정하기 위한 어레이 상의 복수의 프로브에 의한 상기 샘플의 혼성화에 기초하는, 방법.
  15. 제14항에 있어서, 표지된 올리고뉴클레오타이드와 상기 표지된 올리고뉴클레오타이드의 3' 말단에서의 A, T, C 또는 G 뉴클레오타이드의 결찰을 구별하기 위해 상기 어레이 상의 복수의 프로브에 구별되게 표지된 올리고뉴클레오타이드를 결찰함으로써 상기 샘플의 표적 서열에 존재하는 대립유전자를 결정하는 단계를 더 포함하는, 방법.
  16. 제14항에 있어서, A, T, C 또는 G 뉴클레오타이드에 의한 연장을 구별하기 위해 구별되게 표지된 뉴클레오타이드에 의한 상기 어레이 상의 복수의 프로브의 단일 염기 연장을 사용함으로써 상기 샘플의 표적 서열에 존재하는 대립유전자를 결정하는 단계를 더 포함하는, 방법.
  17. 어레이에 의한 증폭산물의 혼성화 전에 유전좌위 특이적 증폭 및 전체 게놈 증폭에 의해 게놈 DNA 샘플을 증폭시키는 방법으로서,
    게놈 DNA 샘플을 얻는 단계;
    상기 게놈 DNA 샘플을 게놈 DNA의 적어도 제1 부분 및 제2 부분으로 분할하는 단계;
    표적 서열에 대한 증폭산물의 제1 풀(pool)을 생성하기 위해 게놈 DNA의 상기 제1 부분에서 유전좌위 특이적 증폭을 수행하는 단계;
    증폭산물의 제2 풀을 생성하기 위해 게놈 DNA의 적어도 상기 제2 부분에서 전체 게놈 증폭을 수행하는 단계;
    단편화된 증폭산물을 생성하기 위해 증폭산물의 상기 제1 풀 및 상기 제2 풀을 단편화하는 단계; 및
    상기 단편화된 증폭산물을 어레이에 혼성화하는 단계를 포함하는, 방법.
  18. 제17항에 있어서, 상기 유전좌위 특이적 증폭은 다중 중합효소 연쇄 반응에 의한 상기 표적 서열의 증폭을 포함하는, 방법.
  19. 제17항에 있어서, 상기 유전좌위 특이적 증폭은 분자 반전 프로브(molecular inversion probe)에 의한 상기 표적 서열의 증폭을 포함하는, 방법.
  20. 제17항에 있어서, 상기 유전좌위 특이적 증폭은 패드락(padlock) 프로브에 의한 상기 표적 서열의 증폭을 포함하는, 방법.
  21. 제17항에 있어서, 상기 증폭산물의 제1 풀은 전체 게놈 증폭이 수행되기 전에 상기 게놈 DNA의 제2 부분에 첨가되고, 상기 전체 게놈 증폭은 상기 증폭산물의 제1 풀 및 상기 게놈 DNA의 제2 부분에서 수행되는, 방법.
  22. 제17항에 있어서, 상기 전체 게놈 증폭은 오직 상기 게놈 DNA의 제2 부분에서 수행되는, 방법.
  23. 제17항에 있어서, 상기 증폭산물의 제1 및 제2 풀은 단편화 전에 조합되는, 방법.
  24. 제17항에 있어서, 상기 표적 서열은 다대립유전자 마커를 포함하는, 방법.
  25. 제17항에 있어서, 상기 게놈 DNA 샘플은 상기 표적 서열 및 상기 표적 서열의 위유전자를 포함하는, 방법.
  26. 제25항에 있어서, 상기 유전좌위 특이적 증폭은 상기 표적 서열에 대한 상기 증폭산물의 제1 풀을 생성하지만, 상기 위유전자의 증폭산물을 생성하지 않는, 방법.
  27. 제26항에 있어서, 상기 단편화된 증폭산물은 상기 위유전자의 증폭산물보다 상기 표적 서열의 더 많은 증폭산물을 포함하는, 방법.
  28. 제17항에 있어서, 상기 어레이는 하나 이상의 다대립유전자 마커를 정보조사하기 위한 복수의 프로브를 포함하는, 방법.
  29. 제26항에 있어서,
    상기 샘플에서의 상기 하나 이상의 다대립유전자 마커에 대한 신호를 획득하는 단계; 및
    베이지안(Bayesian) N-대립유전자 유전자형분석 알고리즘을 사용하여 다대립유전자 유전자형분석을 수행하는 단계를 더 포함하는, 방법.
KR1020187013712A 2015-10-18 2016-10-18 단일 뉴클레오타이드 다형 및 인델의 다대립유전자 유전자형분석 KR20180071299A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562243078P 2015-10-18 2015-10-18
US62/243,078 2015-10-18
PCT/US2016/057496 WO2017070096A1 (en) 2015-10-18 2016-10-18 Multiallelic genotyping of single nucleotide polymorphisms and indels

Publications (1)

Publication Number Publication Date
KR20180071299A true KR20180071299A (ko) 2018-06-27

Family

ID=58557921

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013712A KR20180071299A (ko) 2015-10-18 2016-10-18 단일 뉴클레오타이드 다형 및 인델의 다대립유전자 유전자형분석

Country Status (10)

Country Link
US (1) US20180305748A1 (ko)
EP (2) EP3901279B1 (ko)
JP (1) JP6858783B2 (ko)
KR (1) KR20180071299A (ko)
CN (1) CN108138226B (ko)
AU (2) AU2016341845B2 (ko)
BR (1) BR112018007710A2 (ko)
IL (2) IL296418A (ko)
RU (1) RU2706203C1 (ko)
WO (1) WO2017070096A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020023509A1 (en) * 2018-07-24 2020-01-30 Affymetrix, Inc. Array based method and kit for determining copy number and genotype in pseudogenes
CN110706746B (zh) * 2019-11-27 2021-09-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法
CN114645080A (zh) * 2020-12-21 2022-06-21 高嵩 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法
WO2024047168A1 (en) * 2022-08-31 2024-03-07 Saga Diagnostics Ab Multi-vector detection of variant sequences

Family Cites Families (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1359808A (en) 1916-03-20 1920-11-23 Martin R Jacobus Poultry-feeder
US4437975A (en) 1977-07-20 1984-03-20 Mobil Oil Corporation Manufacture of lube base stock oil
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US5333675C1 (en) 1986-02-25 2001-05-01 Perkin Elmer Corp Apparatus and method for performing automated amplification of nucleic acid sequences and assays using heating and cooling steps
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
NO870613L (no) 1986-03-05 1987-09-07 Molecular Diagnostics Inc Deteksjon av mikroorganismer i en prŸve inneholdende nukleinsyre.
IL86724A (en) 1987-06-19 1995-01-24 Siska Diagnostics Inc Methods and kits for amplification and testing of nucleic acid sequences
IE72468B1 (en) 1987-07-31 1997-04-09 Univ Leland Stanford Junior Selective amplification of target polynucleotide sequences
CA1340807C (en) 1988-02-24 1999-11-02 Lawrence T. Malek Nucleic acid amplification process
JP2650159B2 (ja) 1988-02-24 1997-09-03 アクゾ・ノベル・エヌ・ベー 核酸増幅方法
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
JP2897959B2 (ja) 1988-05-20 1999-05-31 エフ.ホフマン―ラ ロシュ アクチェンゲゼルシャフト 固定化された配列特異的プローブ
JP3152927B2 (ja) 1988-12-16 2001-04-03 アクゾ・ノベル・ナムローゼ・フェンノートシャップ 自己持続性、配列複製システム
US5856092A (en) 1989-02-13 1999-01-05 Geneco Pty Ltd Detection of a nucleic acid sequence or a change therein
US6346413B1 (en) 1989-06-07 2002-02-12 Affymetrix, Inc. Polymer arrays
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5424186A (en) 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
US6309822B1 (en) 1989-06-07 2001-10-30 Affymetrix, Inc. Method for comparing copy number of nucleic acid sequences
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5547839A (en) 1989-06-07 1996-08-20 Affymax Technologies N.V. Sequencing of surface immobilized polymers utilizing microflourescence detection
US5871928A (en) 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5527681A (en) 1989-06-07 1996-06-18 Affymax Technologies N.V. Immobilized molecular synthesis of systematically substituted compounds
US5242974A (en) 1991-11-22 1993-09-07 Affymax Technologies N.V. Polymer reversal on solid surfaces
US5252743A (en) 1989-11-13 1993-10-12 Affymax Technologies N.V. Spatially-addressable immobilization of anti-ligands on surfaces
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
EP0561796B1 (en) 1990-08-24 1997-12-29 The University Of Tennessee Research Corporation Dna amplification fingerprinting
WO1992007095A1 (en) 1990-10-15 1992-04-30 Stratagene Arbitrarily primed polymerase chain reaction method for fingerprinting genomes
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
DE69217497T2 (de) 1991-09-18 1997-06-12 Affymax Tech Nv Verfahren zur synthese der verschiedenen sammlungen von oligomeren
US5412087A (en) 1992-04-24 1995-05-02 Affymax Technologies N.V. Spatially-addressable immobilization of oligonucleotides and other biological polymers on surfaces
US5550215A (en) 1991-11-22 1996-08-27 Holmes; Christopher P. Polymer reversal on solid surfaces
US5384261A (en) 1991-11-22 1995-01-24 Affymax Technologies N.V. Very large scale immobilized polymer synthesis using mechanically directed flow paths
US5324633A (en) 1991-11-22 1994-06-28 Affymax Technologies N.V. Method and apparatus for measuring binding affinity
ATE241426T1 (de) 1991-11-22 2003-06-15 Affymetrix Inc A Delaware Corp Verfahren zur herstellung von polymerarrays
US5541061A (en) 1992-04-29 1996-07-30 Affymax Technologies N.V. Methods for screening factorial chemical libraries
US5491074A (en) 1993-04-01 1996-02-13 Affymax Technologies Nv Association peptides
AU7212494A (en) 1993-06-25 1995-01-17 Affymax Technologies N.V. Hybridization and sequencing of nucleic acids
US5858659A (en) 1995-11-29 1999-01-12 Affymetrix, Inc. Polymorphism detection
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6156501A (en) 1993-10-26 2000-12-05 Affymetrix, Inc. Arrays of modified nucleic acid probes and methods of use
US6045996A (en) 1993-10-26 2000-04-04 Affymetrix, Inc. Hybridization assays on oligonucleotide arrays
US5631734A (en) 1994-02-10 1997-05-20 Affymetrix, Inc. Method and apparatus for detection of fluorescently labeled materials
US6090555A (en) 1997-12-11 2000-07-18 Affymetrix, Inc. Scanned image alignment systems and methods
US5578832A (en) 1994-09-02 1996-11-26 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
AU2360195A (en) 1994-05-05 1995-11-29 Beckman Instruments, Inc. Oligonucleotide repeat arrays
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5959098A (en) 1996-04-17 1999-09-28 Affymetrix, Inc. Substrate preparation process
US5624711A (en) 1995-04-27 1997-04-29 Affymax Technologies, N.V. Derivatization of solid supports and methods for oligomer synthesis
US5648245A (en) 1995-05-09 1997-07-15 Carnegie Institution Of Washington Method for constructing an oligonucleotide concatamer library by rolling circle replication
US5545531A (en) 1995-06-07 1996-08-13 Affymax Technologies N.V. Methods for making a device for concurrently processing multiple biological chip assays
US5968740A (en) 1995-07-24 1999-10-19 Affymetrix, Inc. Method of Identifying a Base in a Nucleic Acid
US5733729A (en) 1995-09-14 1998-03-31 Affymetrix, Inc. Computer-aided probability base calling for arrays of nucleic acid probes on chips
US6300063B1 (en) 1995-11-29 2001-10-09 Affymetrix, Inc. Polymorphism detection
US6147205A (en) 1995-12-15 2000-11-14 Affymetrix, Inc. Photocleavable protecting groups and methods for their use
US6114122A (en) 1996-03-26 2000-09-05 Affymetrix, Inc. Fluidics station with a mounting system and method of using
US5981956A (en) 1996-05-16 1999-11-09 Affymetrix, Inc. Systems and methods for detection of labeled materials
US6368799B1 (en) 1997-06-13 2002-04-09 Affymetrix, Inc. Method to detect gene polymorphisms and monitor allelic expression employing a probe array
US6333179B1 (en) 1997-06-20 2001-12-25 Affymetrix, Inc. Methods and compositions for multiplex amplification of nucleic acids
US6188783B1 (en) 1997-07-25 2001-02-13 Affymetrix, Inc. Method and system for providing a probe array chip design database
AU9198298A (en) 1997-08-15 1999-03-08 Affymetrix, Inc. Polymorphism detection utilizing clustering analysis
DE69829493T2 (de) * 1997-09-05 2005-07-28 Affymetrix, Inc., Santa Clara Techniken zur identifizierung, bestätigung, kartierung und kategorisierung von polymeren
JP2001521753A (ja) 1997-10-31 2001-11-13 アフィメトリックス インコーポレイテッド 成人臓器及び胎児臓器中の発現プロフィール
US6013449A (en) 1997-11-26 2000-01-11 The United States Of America As Represented By The Department Of Health And Human Services Probe-based analysis of heterozygous mutations using two-color labelling
US6428752B1 (en) 1998-05-14 2002-08-06 Affymetrix, Inc. Cleaning deposit devices that form microarrays and the like
US6269846B1 (en) 1998-01-13 2001-08-07 Genetic Microsystems, Inc. Depositing fluid specimens on substrates, resulting ordered arrays, techniques for deposition of arrays
US6201639B1 (en) 1998-03-20 2001-03-13 James W. Overbeck Wide field of view and high speed scanning microscopy
US6185030B1 (en) 1998-03-20 2001-02-06 James W. Overbeck Wide field of view and high speed scanning microscopy
DE69940970D1 (de) 1998-03-25 2009-07-23 Olink Ab Rolling circle replikation von padlock-sonden
US6020135A (en) 1998-03-27 2000-02-01 Affymetrix, Inc. P53-regulated genes
US5936324A (en) 1998-03-30 1999-08-10 Genetic Microsystems Inc. Moving magnet scanner
JP3565025B2 (ja) 1998-07-07 2004-09-15 日産自動車株式会社 治具交換装置および治具交換方法
US6185561B1 (en) 1998-09-17 2001-02-06 Affymetrix, Inc. Method and apparatus for providing and expression data mining database
US6262216B1 (en) 1998-10-13 2001-07-17 Affymetrix, Inc. Functionalized silicon compounds and methods for their synthesis and use
JP2002528096A (ja) 1998-10-27 2002-09-03 アフィメトリックス インコーポレイテッド ゲノムdnaの複雑性制御および分析
US6177248B1 (en) 1999-02-24 2001-01-23 Affymetrix, Inc. Downstream genes of tumor suppressor WT1
EP1165839A2 (en) 1999-03-26 2002-01-02 Whitehead Institute For Biomedical Research Universal arrays
US6218803B1 (en) 1999-06-04 2001-04-17 Genetic Microsystems, Inc. Position sensing with variable capacitance transducers
US6300070B1 (en) 1999-06-04 2001-10-09 Mosaic Technologies, Inc. Solid phase methods for amplifying multiple nucleic acids
US6386749B1 (en) 2000-06-26 2002-05-14 Affymetrix, Inc. Systems and methods for heating and mixing fluids
JP4287652B2 (ja) 2000-10-24 2009-07-01 ザ・ボード・オブ・トラスティーズ・オブ・ザ・レランド・スタンフォード・ジュニア・ユニバーシティ ゲノムdnaの直接多重処理による性状分析
US6391592B1 (en) 2000-12-14 2002-05-21 Affymetrix, Inc. Blocker-aided target amplification of nucleic acids
US6988040B2 (en) 2001-01-11 2006-01-17 Affymetrix, Inc. System, method, and computer software for genotyping analysis and identification of allelic imbalance
US6804679B2 (en) 2001-03-12 2004-10-12 Affymetrix, Inc. System, method, and user interfaces for managing genomic data
US6872529B2 (en) 2001-07-25 2005-03-29 Affymetrix, Inc. Complexity management of genomic DNA
WO2003050242A2 (en) 2001-11-13 2003-06-19 Rubicon Genomics Inc. Dna amplification and sequencing using dna molecules generated by random fragmentation
US20030120431A1 (en) 2001-12-21 2003-06-26 Affymetrix, Inc. Method and computer software product for genomic alignment and assessment of the transcriptome
AU2003247832A1 (en) * 2002-06-28 2004-01-19 Applera Corporation A system and method for snp genotype clustering
US20050042654A1 (en) 2003-06-27 2005-02-24 Affymetrix, Inc. Genotyping methods
EP1591534A1 (en) * 2004-04-01 2005-11-02 Stichting Sanquin Bloedvoorziening A method of genotyping blood cell antigens and a kit suitable for genotyping blood cell antigens
US9845494B2 (en) * 2006-10-18 2017-12-19 Affymetrix, Inc. Enzymatic methods for genotyping on arrays
WO2008064687A1 (en) * 2006-11-27 2008-06-05 Fluimedix Fidelity enhanced allele specific amplification method
EP1956097A1 (en) * 2007-02-06 2008-08-13 bioMerieux B.V. Method for discriminating single nucleotide polymorphisms (SNPs)
US8200440B2 (en) * 2007-05-18 2012-06-12 Affymetrix, Inc. System, method, and computer software product for genotype determination using probe array data
US8716190B2 (en) 2007-09-14 2014-05-06 Affymetrix, Inc. Amplification and analysis of selected targets on solid supports
US9513300B2 (en) 2008-05-05 2016-12-06 Cornell University Determination of serum anti-mullerian hormone as a diagnostic test for spay in companion animals
US8312249B1 (en) 2008-10-10 2012-11-13 Apple Inc. Dynamic trampoline and structured code generation in a signed code environment
US8828688B2 (en) 2010-05-27 2014-09-09 Affymetrix, Inc. Multiplex amplification methods
WO2011156795A2 (en) * 2010-06-11 2011-12-15 Pathogenica, Inc. Nucleic acids for multiplex organism detection and methods of use and making the same
US20120028826A1 (en) 2010-07-27 2012-02-02 Affymetrix, Inc. Methods and Compositions for Analysis of Nucleic Acids
US8759036B2 (en) 2011-03-21 2014-06-24 Affymetrix, Inc. Methods for synthesizing pools of probes
US20150299753A1 (en) * 2012-03-30 2015-10-22 Bgi Tech Solutions Co., Ltd. Whole genome amplification method and application thereof
US20140274749A1 (en) * 2013-03-15 2014-09-18 Affymetrix, Inc. Systems and Methods for SNP Characterization and Identifying off Target Variants
WO2015154028A1 (en) 2014-04-04 2015-10-08 Affymetrix, Inc. Improved compositions and methods for molecular inversion probe assays
US9536841B2 (en) 2014-08-01 2017-01-03 Cyntec Co., Ltd. Semiconductor package with conformal EM shielding structure and manufacturing method of same
CN106252749B (zh) 2015-06-04 2020-12-29 松下知识产权经营株式会社 蓄电池包的控制方法以及蓄电池包

Also Published As

Publication number Publication date
BR112018007710A2 (pt) 2018-10-23
AU2016341845B2 (en) 2022-11-17
EP3362580B1 (en) 2021-02-17
JP6858783B2 (ja) 2021-04-14
EP3362580A1 (en) 2018-08-22
AU2022259706A1 (en) 2022-11-24
RU2706203C1 (ru) 2019-11-14
IL258795A (en) 2018-06-28
EP3901279B1 (en) 2023-05-17
US20180305748A1 (en) 2018-10-25
CN108138226A (zh) 2018-06-08
IL296418A (en) 2022-11-01
EP3362580A4 (en) 2019-03-27
EP3901279A1 (en) 2021-10-27
AU2016341845A1 (en) 2018-05-10
JP2019500706A (ja) 2019-01-10
CN108138226B (zh) 2022-02-11
IL258795B2 (en) 2023-02-01
WO2017070096A1 (en) 2017-04-27
IL258795B (en) 2022-10-01

Similar Documents

Publication Publication Date Title
Kirby et al. Fine mapping in 94 inbred mouse strains using a high-density haplotype resource
Alamancos et al. Methods to study splicing from high-throughput RNA sequencing data
Hoffmann et al. Next generation genome-wide association tool: design and coverage of a high-throughput European-optimized SNP array
Alkan et al. Genome structural variation discovery and genotyping
Bansal A statistical method for the detection of variants from next-generation resequencing of DNA pools
Gresham et al. Comparing whole genomes using DNA microarrays
Lee et al. Learning a prior on regulatory potential from eQTL data
AU2011207561B2 (en) Partition defined detection methods
Bansal et al. Efficient and cost effective population resequencing by pooling and in-solution hybridization
AU2022259706A1 (en) Multiallelic genotyping of single nucleotide polymorphisms and indels
JP2007523600A (ja) 多重配列変異体解析を用いる遺伝子診断
US20050244883A1 (en) Method and computer software product for genomic alignment and assessment of the transcriptome
Craig et al. Applications of whole-genome high-density SNP genotyping
Darnell et al. Incorporating prior information into association studies
Kingsley Identification of causal sequence variants of disease in the next generation sequencing era
Webb et al. SNPLINK: multipoint linkage analysis of densely distributed SNP data incorporating automated linkage disequilibrium removal
Zhang et al. Rapid and robust resampling-based multiple-testing correction with application in a genome-wide expression quantitative trait loci study
Bhasker et al. Advances in pharmacogenomics technologies
Chen et al. Evaluation of a SNP-STR haplotype panel for forensic genotype imputation
Ehm et al. Guidelines for conducting and reporting whole genome/large-scale association studies
US20060259251A1 (en) Computer software products for associating gene expression with genetic variations
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
Jiang et al. Inferring population parameters from single-feature polymorphism data
Kelly et al. Utility of a high-resolution mouse single nucleotide polymorphism microarray assessed for rodent comparative genomics
Chanock Principles of high-quality genotyping

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal