KR102116485B1 - 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들 - Google Patents

고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR102116485B1
KR102116485B1 KR1020177023267A KR20177023267A KR102116485B1 KR 102116485 B1 KR102116485 B1 KR 102116485B1 KR 1020177023267 A KR1020177023267 A KR 1020177023267A KR 20177023267 A KR20177023267 A KR 20177023267A KR 102116485 B1 KR102116485 B1 KR 102116485B1
Authority
KR
South Korea
Prior art keywords
delete delete
data
models
implemented method
treatment
Prior art date
Application number
KR1020177023267A
Other languages
English (en)
Other versions
KR20180010176A (ko
Inventor
크리스토퍼 제토
Original Assignee
난토믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난토믹스, 엘엘씨 filed Critical 난토믹스, 엘엘씨
Publication of KR20180010176A publication Critical patent/KR20180010176A/ko
Application granted granted Critical
Publication of KR102116485B1 publication Critical patent/KR102116485B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

고려되는 시스템들 및 방법들은 고분화 방광암으로 진단된 환자들에 대한 화학요법 결과의 예측을 허용한다. 특히 바람직한 양상들에서, 상기 예측은 머신 러닝에 기초한 모델을 사용하여 수행되며, 여기서 모델은 최소 사전결정된 정확도 이득을 가지며, 이렇게 식별된 모델은 결과 예측에 사용되는 오믹 데이터에 대한 가중치 인자들 및 아이덴티티(identity)를 제공한다.

Description

고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들
본 발명의 분야는 방광암의 화학요법(Chemotherapy)에 대한 치료 결과(treatment outcome)의 예측을 위한 인실리코(in silico) 시스템들 및 방법들이다.
배경기술은 본 발명을 이해하는데 유용할 수 있는 정보를 포함한다. 여기에 제공된 어떤 정보가 선행 기술이거나 현재 청구된 발명과 관련이 있거나, 또는 특정 또는 암시적으로 참조된 어떤 출판물이 선행 기술임을 인정하는 것은 아니다.
본 명세서의 모든 간행물들은 각각의 개별 간행물 또는 특허 출원이 구체적으로 및 개별적으로 참조로 통합된 것과 동일한 정도로 참조로 포함된다. 통합된 참조에서의 정의 또는 용도는 일관성이 없거나 본 명세서에 제공된 해당 용어의 정의와 상반되는 경우, 본 명세서에서 제공된 해당 용어의 정의가 적용되며 참조에서의 해당 용어의 정의는 적용되지 않는다.
암에 대한 약제 치료 옵션(pharmaceutical treatment option)들의 선택은 역사적으로 약물을 특정 암 유형에 일치시키는 조직학적 소견(histological finding)들 및 경험적 데이터(empirical data)에 제한되어왔다. 최근에, 분자 의학(molecular medicine)의 진보들은 세포 상의 특정 수용체(receptor)들의 존재 또는 부재, 신호전달분자(signaling molecule)들의 변성 상태(mutational status) 등을 고려하여 화학요법의 선택에 있어서 보다 개인화된 접근법을 허용해왔다. 이러한 개선들은 적어도 몇몇 경우들에서 증가된 생존 시간으로 전환(translate)되었지만, 화학요법 약물(chemotherapeutic drug)에 대한 반응은 전부 또는 거의 모든 경우에 완전히 예측 가능한 것은 아니다. 또한, 환자가 특정 치료 요법(regimen)에 전념하면, 치료 프로토콜(treatment protocol)의 변경들은 종종 환자에게 권고 및/또는 용인되지 않는다.
약제 중재(pharmaceutical intervention)들에 대한 치료 결과를 예측하는 것을 돕기 위해, 다양한 계산 시스템들 및 방법들이 개발되었다. 가장 주목할만한 것으로, WO2014/193982는 경로 모델(pathway model)의 경로 요소(pathway element)(세포의 생체내 특징(cellular in vivo feature)들에 상응함)들이 약물로 세포(cell)의 치료(treatment)하는 것을 시뮬레이션하기 위하여 인실리코로 변형되는 시스템들 및 방법들을 기술한다. 변형된 모델은 하나 이상의 경로들 상에 약물의 효과를 예측하고, 병든 조직 상에 약물의 영향을 간접적으로 예측하는데 도움을 주도록 사용될 수 있다. 이러한 시스템은 특정 상황(certain circumstance)들에서 현저한 예측력(predictive power)을 제공하지만, 이러한 시스템은 세포 배양 데이터(cell culture data)를 기반으로 하므로 생체내(in vivo) 환경들을 완전히 반영하지 못한다. 또한, 치료 시뮬레이션은 측정되고 가정된 속성(attribute)들에 뿌리를 둔 단일 모델을 사용하여 수행되므로, 모델에 맞는(genuine) 특정 가정(assumption)들에 의존한다. 설명된 접근 방식은 모델의 특정 가정들에 관련된 위험들을 완화하는 것에 대한 통찰력(insight)을 제공하지 못한다.
복잡한 생체내 시스템으로부터 대용량의 데이터를 수용하기(accommodate) 위해, 인간의 수용력을 능가하는 큰 데이터 세트를 입수(ingest)하여 이해할 수 있는 컴퓨터 기반 머신 러닝 기술들이 개발되었다. 일반적으로, 머신 러닝 알고리즘들은 트레이닝 데이터 셋(training data set)들의 패턴을 식별하도록 구성되어 알고리즘들이 새로운 입력 데이터가 제시되는 경우에 가능한 결과들을 예측하는 방법을 "학습"하거나 "훈련"되도록 한다. 특히, 각각 고유한 특정 기본 분석의 모드(예를 들어, 서포트 벡터 머신(support vector machines), 베이지안 통계(Bayesian statistics), 랜덤 포레스트(Random Forests)들 등) 및 고유한 편향(inherent bias)을 가지는 수많은 유형들의 머신 러닝 알고리즘들 있다. 이러한 분석에 대한 예가 Wei의 US2004/0193019에 제시되어 있으며, 여기서 판별(discriminant) 분석-기반 패턴 인식은 생물학적 프로파일 정보(biological profile information)를 치료 결과 정보와 상관시키는 예측 모델을 생성하는데 사용된다. 이와 같이 형성된 예측 모델은 치료에 대한 가능한 반응들의 순위를 매기는데 사용된다. Wei는 환자별 프로필 정보(patient-specific profile information)에 기반한 가능한 결과를 평가하기 위한 예측 결과 모델을 단순히 구축(build)한다. 불행히도, 각 알고리즘이 특정 질병 및/또는 약물 치료에 유효하지 않을 수도 있는 가정들을 기본으로(built in) 했으므로 모든 알고리즘이 약물 치료의 예측 분석에 적합하지 않을 것이다. 또한, 특정 예측에 대해 최대화된 모델들은 랜덤한 이벤트 및/또는 다른 모델에 비해 반드시 최상의 정확도를 제공하지는 않을 것이다..
이러한 어려움들을 해결하기 위해, Cesano 등의 US2014/0199273는, 헬스케어 세팅(healthcare setting)에서 예측 또는 예지(prognosis)에 적합한 특정 모델들/통계 방법들의 선택에 대해 논의한다. Cesano가 적합한 모델들의 선택에 대해 논하였으나, 일단 선택되는 이들 모델들은 여전히 고유한 편향의 동일한 어려움들을 겪고 있다.
따라서, 다양한 치료 예측 방법들 및 시스템들이 본 기술 분야에 공지되어 있지만, 이들 모두 또는 거의 모두가 다양한 단점들을 가진다. 따라서, 치료를 시작하기 전에 의도된 화학요법에 대한 암 환자의 약물 치료 반응을 보다 정확하게 예측하도록 돕는 시스템들 및 방법들이 여전히 필요하다.
본 출원은 2015년 1월 20일에 출원된 일련번호 62/105697의 미국 가출원 및 2015년 3월 3일에 출원된 일련번호 62/127546의 미국 가출원에 우선권을 주장하며, 양 출원은 본 명세서에 참조로 통합된다.
본 발명자는 고분화 방광암의 치료 결과에 대한 예측 모델이, 치료 결과에 관련된 이전에 공지된 고분화 방광암 오믹(omics) 정보에 대해 훈련된 다양한 머신 러닝 알고리즘들을 사용하여 준비된 모델들의 집합으로부터 유래(derived)될 수 있다는 것을 발견했다. 가장 바람직하게는, 예측 정확도는 고정확도 이득(high accuracy gain)을 가지는 모델의 식별 및 식별된 모델로부터의 관련 가중치 및 오믹 파라미터들의 선택에 의해 개선될 수 있다.
본 발명 주제의 한 양상에서, 본 발명자는 고분화 방광암을 가지는 환자에 대한 치료 결과를 예측하는 방법을 고려한다. 바람직한 양상들에서 고려되는 방법들은 환자로부터 복수의 오믹 데이터를 획득하는 단계, 및 (a) 고분화 방광암의 치료 결과의 예측을 위한 적어도 하나의 모델을 선택하기 위해서 정확도 이득 메트릭(accuracy gain metric)을 사용하거나 또는 (b) 고분화 방광암 치료의 치료 결과를 예측을 위한 사전결정된 정확도 이득 메트릭에 기초한 적어도 하나의 단일 모델을 선택하는 추가적인 단계를 포함한다. 모델들은 많은 수 중에서, 예를 들어, 적어도 10 개의 훈련된 모델들 중에서 또는 적어도 100 개의 훈련된 모델들 중에서 선택될 수 있다. 또 다른 단계에서, 분석 엔진(analysis engine)은 단일 모델 및 환자로부터의 복수의 오믹 데이터를 사용하여 예측 결과(예를 들어, 치료에 대한 완전한 반응(complete response), 치료에 대한 부분적 반응(partial response), 치료에 대한 안정된 비-반응(stable non-response) 및 치료에 대한 진행 중인 비-반응(progressive non-response)를 계산한다.
가장 일반적으로, 오믹 데이터는 전체 게놈 차별 객체(whole genome differential object)들, 엑솜 차별 객체(exome differential object), SNP 데이터, 복제 수 데이터(copy number data), RNA 전사 데이터(RNA transcription data), 단백질 발현 데이터(protein expression data) 및/또는 단백질 활성 데이터(protein activity data)를 포함하며, 정확도 이득 메트릭은 정확도 이득 분포, 곡선하면적 메트릭(area under curve metric), R2 메트릭, p-value 메트릭, 실루엣 계수(silhouette coefficient) 및 / 또는 혼동 매트릭스(confusion matrix)인 것이 더 바람직하다. 본 발명의 주제를 제한하는 것은 아니지만, 단일 모델의 정확도 이득 메트릭은 모든 모델들의 상위 4 분위수(quartile) 내인, 또는 모든 모델의 상위 5 % 내인 것, 또는 단일 모델의 정확도 이득 메트릭이 다른 모든 모델들을 능가하는 것이 고려된다.
추가로 고려되는 양상들에서, 단일 모델은 NMF예측기(linear), SVMlight(linear), SVMlight 일차 폴리노미얼 커널(SVMlight first order polynomial kernel)(degree-d polynomial), SVMlight 2 차 폴리노미얼 커널(SVMlight second order polynomial kernel)(degree-d polynomial), WEKA SMO(linear), WEKA j48 트리(WEKA j48 trees)(trees-based), WEKA 하이퍼 파이프(WEKA hyper pipes)(distribution-based), WEKA 랜덤 포레스트(WEKA random forests)(trees-based), WEKA 네이브 베이즈(WEKA naive Bayes)(probabilistic/bayes), WEAK JRip(rules-based), 글넷 라쏘(glmnet lasso)(sparse linear), 글넷 리즈 레그레션(glmnet ridge regression)(sparse linear) 및 글넷 엘라스틱 넷(glmnet elastic nets)(sparse linear)으로 이루어진 군으로부터 선택되는 분류기(classifier)를 사용하는 머신 러닝 알고리즘을 사용하여 생성될 수 있다.
가장 바람직하게는, 계산하는 단계는 최소 절대 사전결정된 가중치(minimum absolute predetermined weight)(예를 들어, 단일 모델에서 모든 가중치들의 최상위 4 분위 수 내인)들을 가지는 단일 모델의 특징들을 선택하는 단계를 포함한다. 수많은 특징들이 적합할 수 있지만, 계산하는 단계는 단일 모델에서 적어도 10 개의 별개 선택되는 특징들을 사용하는 것이 고려된다. 고분화 방광암에 대해 특히 바람직한 방법들에서, 단일 모델의 특징들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN으로 이루어진 군으로부터 선택되는 유전자들에 대한 RNA 전사값들이다. 더욱이, 유전자들에 대한 RNA 전사값들은 각각의 인자들로 계산되며, 각각의 인자들은 가중되고(weighted), 가중치들은 (절대값들을 사용하여) PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN의 순서인 것으로 고려된다.
상이한 관점에서 보는 경우에, 본 발명자들은 고분화 방광암을 가지는 환자에 대한 치료 결과를 예측하는 방법을 또한 고려한다. 이러한 방법들은 바람직하게는 복수의 환자의 RNA 전사 데이터(RNA transcription data)를 획득하는 단계, 및 분석 엔진(analysis engine) 및 복수의 환자의 RNA 전사 데이터를 사용하는 것에 의해, 모델을 사용하여 치료 결과 스코어를 계산하는 추가적인 단계를 포함할 것이다. 가장 일반적으로, 상기 모델은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN으로 이루어진 군으로부터 선택되는 유전자들에 대한 RNA 전사값들을 사용한다.
가장 바람직하게는, 복수의 RNA 전사 데이터는 polyA RNA로부터 획득되며, 그리고/또는 치료 결과 스코어는 치료에 대한 완전한 반응, 치료에 대한 부분적인 반응, 치료에 대한 안정된 비-반응, 또는 치료에 대한 진행 중인 비-반응을 나타낸다. 이미 상술한 바와 같이, 상기 모델은 NMF예측기(linear), SVMlight(linear), SVMlight 일차 폴리노미얼 커널(degree-d polynomial), SVMlight 2 차 폴리노미얼 커널 (degree-d polynomial), WEKA SMO(linear), WEKA j48 트리 (trees-based), WEKA 하이퍼 파이프 (distribution-based), WEKA 랜덤 포레스트 (trees-based), WEKA 네이브 베이즈 (probabilistic/bayes), WEAK JRip(rules-based), 글넷 라쏘 (sparse linear), 글넷 리즈 레그레션 (sparse linear) 및 글넷 엘라스틱 넷(sparse linear)으로 이루어진 군으로부터 선택되는 분류기를 사용하는 머신 러닝 알고리즘을 사용하여 생성되고, 그리고/또는 유전자들에 대한 RNA 전사값들은 각각의 인자들로 계산되고, 여기서 각각의 인자들은 절대값을 사용하여 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN의 순서로 가중되는 것이 고려된다..
결과적으로, 본 발명자들은 또한 고분화 방광암을 가지는 환자에 대한 치료 결과를 예측하는 방법을 고려한다. 특히 바람직한 이러한 방법들은 복수의 환자의 RNA 전사 데이터를 획득하는 단계-RNA 전사값들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN으로 이루어진 군으로부터 선택되는 적어도 둘의 유전자들에 대한 값들임-; 및 환자에 대한 치료 결과를 예측하기 위해서 머신 러닝 알고리즘에 의해 생성되는 모델에서의 RNA 전사값들을 사용하는 추가적인 단계; 를 포함한다.
본 발명의 주제를 제한하는 것은 아니지만, 머신 러닝 알고리즘은 NMF예측기(linear), SVMlight(linear), SVMlight 일차 폴리노미얼 커널(degree-d polynomial), SVMlight 2 차 폴리노미얼 커널 (degree-d polynomial), WEKA SMO(linear), WEKA j48 트리 (trees-based), WEKA 하이퍼 파이프 (distribution-based), WEKA 랜덤 포레스트 (trees-based), WEKA 네이브 베이즈 (probabilistic/bayes), WEAK JRip(rules-based), 글넷 라쏘 (sparse linear), 글넷 리즈 레그레션 (sparse linear) 및 글넷 엘라스틱 넷(sparse linear)으로 이루어진 군으로부터 선택되는 분류기를 사용하는 것이 일반적으로 바람직하다. 또한, 유전자들에 대한 RNA 전사값들은 각각의 인자들로 계산되고, 각각의 인자들은, PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN의 순서로, 절대값을 사용하여, 가중되는 것이 고려된다.
따라서, 본 발명자들은 고분화 방광암 치료의 치료 결과의 예측을 위해 RNA 전사값들의 사용을 고려하며, 여기서 상기 예측은 머신 러닝 알고리즘으로부터 획득되는 단일 모델을 사용하며, 여기서 RNA 전사값들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN으로 이루어진 군으로부터 선택되는 유전자들에 대한 것이다. 일반적으로, 그러나 반드시 필연적이지 않는, 유전자들에 대한 RNA 전사값들은 각각의 인자들로 계산되며, 여기서 각각의 인자들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN의 순서로 절대값을 사용하여 가중된다. 본 발명의 주제의 다양한 목적들, 특징들, 양상들 및 이점들은 동일한 숫자들이 동일한 엘리먼트들을 나타내는 첨부된 도면들 함께 바람직한 실시예들의 다음의 상세한 설명으로부터 더욱 명백해질 것이다.
도 1은 TCGA 고분화 방광암 데이터를 사용하여 고정확도 이득을 가지는 모델로부터 유래되는 특징 가중치들 및 특징들의 예시적인 테이블이다.
도 2는 약물 치료에 대한 반응자(responder)들 및 비-반응자(non-responder)들에 대한 TCGA 고분화 방광암 데이터로부터의 RNA 전사값들의 예시적인 히트 맵(heat map)이다.
본 발명의 주제는 특정 종양 질환(neoplastic disease)(예를 들어, 방광암)을 앓고 있는 상대적으로 큰 부류의 환자들에 대한 게놈 정보(genomic information)가 상응하는 다수의 예측 모델들을 식별하도록 상대적으로 많은 수의 머신 러닝 알고리즘의 대상이 되는 다양한 컴퓨터 시스템들 및 방법들에 관한 것이다. 예측 모델들은 정확도 이득에 대해 분석되며, 최고 정확도 이득(highest accuracy gain)을 가지는 모델(들)이 예측을 위한 관련된 오믹 인자들을 식별하는데 사용된다.
따라서, 고려되는 시스템들 및 방법들은 특이 모델의 예측 최적화에 기초하지않고, 선택되는 오믹 파라미터들과 치료 예측 간에 최상의 상관 관계들의 식별에 기초하지도 않는다는 것이 특히 이해되어야 한다. 대신에, 고려되는 시스템들 및 방법들은 사전결정된 또는 최소 정확도 이득(minimum accuracy gain)을 가지는 훈련된 모델을 만드는(result in) 머신 러닝 알고리즘의 하나 이상의 구현들로부터 유래되는 관련된 가중 인자들 및 오믹 파라미터들의 식별에 의존한다는 것이 인식되어야 한다. 특히, 이렇게 식별되는 오믹 파라미터들은 일반적으로 그 자체로 통계적인 예측력을 가지지 않으므로 어떠한 오믹 기반 테스트 시스템에도 사용되지 않을 것이다. 그러나, 이러한 식별되는 오믹 파라미터들이 고정확도 이득을 가지는 훈련된 모델의 맥락에서 사용되는 경우, 특히, 훈련된 모델과 관련된 가중 인자들을 사용하는 시스템에 적용되는 경우에, 다수의 오믹 파라미터들은 시스템에 높은 예측력을 제공할 것이다. 물론, 이러한 모델, 오믹 파라미터들 및 가중치들은 특정 트레이닝 셋들 및/또는 결과 예측의 유형에 유니크(unique)하고, 다른 질병들(예를 들어, 폐암) 및/또는 결과 예측들(예를 들어, 5년 생존율)은 전혀 상이한 모델들, 오믹 파라미터들, 및 가중치들로 이어질 수 있다. 따라서, 본 발명자는 고분화 방광암과 관련된 높은 예측력을 가지는 훈련된 모델들 및/또는 가중치들을 발견한 것으로 여겨진다. 또한, 치료 예측은 시스템에 의해 예측되는 치료 전략(treatment strategy)을 확인하는데 도움이 되는 공지된 경로 모델링 시스템 및 방법들을 사용하는 인실리코 변조(modulation)에 의한 경로 엘리먼트들 및/또는 식별된 경로들, 또는 경로 엘리먼트(들) 및/또는 선험적(priori)으로 식별된 경로(들)로부터 검증(validated)될 수 있다.
따라서, 본 발명의 주제는 고분화 방광암을 앓고있는 상대적으로 큰 부류의 환자들에 대한 관련된 메타 데이터 및 게놈 정보가 다수의 별개의 머신 학습알고리즘의 대상이 되는 다양한 시스템들 및 방법들에 관한 것임이 고려되어야 한다. 본 발명의 주제의 하나의 바람직한 양상에서, RNA 전사값들 및 관련된 메타 데이터(예를 들어, 치료 결과)는 분석을 위한 상이한 머신 러닝 패키지(machine-learning package)들에 데이터를 제공하는 전처리 단계(preprocessing step)에서의 트레이닝 및 검증 분할(validation splitting)의 대상이 된다.
개시된 본 발명의 주제의 초점은 컴퓨팅 디바이스(들)의 구성(configuration) 또는 구조(construction)가 인간의 능력들 이상으로 방대한 양들의 디지털 데이터에서 동작할 수 있도록 하는 것이라는 것에 주목해야한다. 디지털 데이터는 치료 결과들 및 오믹 데이터의 훈련된 컴퓨터 모델을 나타낼 수 있지만, 디지털 데이터는 실제 아이템(actual item)들이 아닌, 이러한 현실-세계 항목(real-world item)들의 하나 이상의 디지털 모델 표현이라는 것이 이해되어야 한다. 오히려, 본 명세서에 개시된 바와 같이 디바이스들을 적절하게 구성하거나 프로그래밍함으로써, 컴퓨팅 디바이스들의 메모리에서 이러한 디지털 모델들의 인스턴스화(instantiation)를 통해, 컴퓨팅 디바이스들은 인간의 능력을 넘어서는 방식으로 디지털 데이터 또는 모델들을 처리할 수 있다. 또한, 컴퓨팅 디바이스들은 이러한 구성이 없어 선험적 기능들이 부족하다. 게다가, 본 발명의 주제는 복잡한 오믹 계산들의 계산적인 분석에 내재된 문제점들을 상당히 개선/완화한다는 것이 이해되어야한다.
상이한 관점에서 보면, 컴퓨터 기술에서의 본 시스템들 및 방법들은 오믹 데이터에 대한 모델들을 컴퓨팅하는데 내재된 문제점을 해결하기 위해 사용되고 있음이 이해되어야 한다. 따라서, 컴퓨터들이 없이는, 상기 문제점 그리고 이에 따른 본 발명의 진보한 주요 특징은 존재하지 않을 것이다. 보다 구체적으로, 개시된 접근법들은 낮은 능력의 다른 훈련된 모델들보다 더 큰 정확도 이득을 가지는 하나 이상의 최적화된 훈련된 모델을 만들며, 이는 환자 데이터에 기초하여 예측 결과들을 생성하는 지연 시간을 단축시킨다.
컴퓨터를 가르키는 모든 언어는 서버들, 인터페이스들, 시스템들, 데이터베이스들, 에이전트들, 피어들, 엔진들, 제어기들, 모듈들, 또는 개별적 또는 집합적으로 동작하는 다른 유형의 컴퓨팅 디바이스들을 포함하는 컴퓨팅 디바이스들의 모든 적절한 조합을 포함하는 것으로 해석(read)되어야한다는 것에 유의해야한다. 컴퓨팅 장치들은 명백한(tangible), 비-일시적 컴퓨터 판독 가능 저장 매체(예를 들어, 하드 드라이브, FPGA, PLA, 솔리드 스테이트 드라이브, RAM, 플래시, ROM 등) 상에 저장된 소프트웨어 명령들을 실행하도록 구성된 프로세서를 포함하는 것을 이해해야한다. 소프트웨어 명령들은 개시된 장치와 관련하여 아래에 논의되는 역할들, 책임들 또는 다른 기능들을 제공하도록 컴퓨팅 장치를 구성하거나 프로그래밍한다. 또한, 개시된 기술들은 프로세서가 컴퓨터 기반 알고리즘들, 프로세스들, 방법들 또는 다른 명령들의 구현들과 관련된 개시된 단계들을 실행하도록 하는 소프트웨어 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로서 구체화될 수 있다. 일부 실시예들에서, 다양한 서버들, 시스템들, 데이터베이스들 또는 인터페이스들은 HTTP, HTTPS, AES, 퍼블릭-프라이빗 키 익스체인지(public-private key exchange)들, 웹 서비스 APIs, 공지된 금융 거래 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기반하여 표준화된 프로토콜들 또는 알고리즘들을 사용하여 데이터를 교환한다. 디바이스들 간 데이터 교환들은 패킷 교환 네트워크, 인터넷, LAN, WAN, VPN 또는 다른 유형의 패킷 교환 네트워크, 회선 교환 네트워크, 및/또는 셀 교환 네트워크를 통해 수행될 수 있다.
본 명세서 및 다음의 청구 범위들에 사용되는 바와 같이, 시스템, 엔진, 서버, 디바이스, 모듈 또는 다른 컴퓨팅 엘리먼트가 메모리의 데이터 상에 기능을 수행 또는 실행하도록 구성되는 것으로 설명되는 경우에, "구성되는" 또는 "프로그래밍되는"의 의미는 메모리에 저장된 데이터 객체들 또는 타겟 데이터 상에 동작하거나 또는 기능들의 셋을 실행하기위한 컴퓨팅 엘리먼트의 메모리에 저장된 소프트웨어 명령들의 세트에 의해 프로로그래밍되어 있는 하나 이상의 프로세서들 또는 컴퓨팅 엘리먼트의 코어들로 정의된다.
예를 들어, 고분화 방광암의 분석에서, 고분화 방광암으로 진단된 환자들로부터의 각각의 메타 데이터를 가지는 다수의 게놈 데이터는 훈련 데이터 셋들을 생성하기위해서 프로세싱되어, 모델 템플릿(model template)(즉, 머신 러닝 알고리즘들의 소프트웨어 구현들)들의 콜랙션으로 공급된다. 데이터 셋들 및 머신 러닝 시스템들을 사용하여, 아래에 추가로 설명되는 바와 같이 정확도 이득에 대해 연속적으로 분석되는(그리고 순위가 매겨지는) 상응하는 훈련된 모델들이 생성된다. 최고 정확도 이득을 가지는 모델로부터, 각 파라미터들에 대한 가중치 인자들 및 오믹 파라미터들이 추출되고 예측 모델로 사용된다.
보다 구체적으로, 상기 접근법을 사용하여, 본 발명자는 데이터에서 고분화 방광암 환자들이 화학요법에 반응하는 공개적으로 이용 가능한 데이터(여기서는 TCGA BLCA 데이터)의 분석으로 조사하였으며, 이는 적어도 잠재적으로 수술을 배제할 수 있다. 이 데이터 셋에서, 50 명의 환자들에게서 116개의 약물 치료 과정들이 추적되었다. 이 116 가지 치료들 중, 111 가지는 아드리아마이신 (Adriamycin), 아바스틴(Avastin), 카보플라틴(Carboplatin), 시스플라틴(Cisplatin), 탁소텔(Docetaxel), 독소루비신(Doxorubicin), 에토포시드(Etopside), 젬시타빈(Gemcitabine), 이포스파마이드(Ifosfamide), 메토트렉세이트(Methotrexate), 파클리탁셀(Paclitaxel) 및 빈블라스틴(Vinblastine)(또는 이들 약물들에 대한 동등한 상표명들)을 포함하는 화학 요법 제제(chemotherapy agent)들이였다. 이들 111가지 화학요법들 중, 78 가지가 '치료 최상의 반응'을 보였다(recorded). 환자가 완전한 또는 부분적 반응을 보인 화학요법 제제가 있는 경우, 그들은 "화학요법 반응자"로 간주된다. 그들이 임상 진행 중인 또는 안정된 질병이 있는 경우, 그들은 "화학요법 비-반응자"로 간주된다. 총 33 명의 환자들이 화학요법 반응을 보였다(15 명의 비-반응자들 및 18명의 반응자들). 33명의 환자들 모두는 추가적인 TCGA 임상 정보를 사용하여 고분화 방광암 환자로 확인되었다.
이들 데이터는 고분화 종양들을 가진 환자들이 화학요법에 반응할 수 있는 72개의 후보 예측 모델들을 생성하는데 사용되었다. 각 모델은 데이터 셋을 트레이닝 셋들 및 검증 셋(validation set)들로 분할함으로써 k-폴드 크로스-벨리데이션(k-fold cross-validation)을 사용하여 훈련되었다. 24가지의 예측 모델들이 Scikit-learn(scikit-learn developers, online scikit-learn.org)을 통해 사용 가능한 예측 모델 템플릿들을 사용하여 각각의 사용 가능한 데이터 셋들에 대해 계산되었고, 선형 분류기(linear classifiers), NMF-기반 분류기(NMF-based classifiers), 그래픽-기반 분류기(graphical-based classifiers), 트리-기반 분류기(graphical-based classifiers), 베이지안-기반 분류기(Bayesian-based classifiers) 및 넷-기반 분류기(net-based classifiers)를 포함하는 다양한 분류기를 사용하여, 360 가지 평가 모델(evaluation model)들을 산출하였다. 이렇게 구축된 평가 모델들 모두는 최고 정확도 이득을 가지는 모델 구축 프로세스(model building process)를 식별하기위해서 정확도 이득 분석을 받았다. 이러한 예에서, 정확도 이득은 검증 데이터 셋(validation data set)을 사용하여 정확한 예측 백분율을 대다수 분류기의 발생(occurrence)(여기선 치료가 반응함)의 백분율(빈도)과 비교하여 계산되었다. 예를 들어, 반응성인 치료 빈도가 공지된 데이터 셋에서 60 %이고, 모델이 반응성인 치료 결과의 85%를 정확하게 예측하는 경우, 정확도 이득은 25%이다. 특히, 구축된 모든 모델들에서, 최상의 모델 구축 프로세스는 크로스-벨리데이션 테스트 폴드(cross-validation testing folds)에서 88% 정확도(대다수보다 33 % 향상된)을 보였다. 가장 정확한 구축 프로세스를 사용했던 최종적으로 완전히 훈련된 모델은 72 개의 후보 모델 중에서 선택되었다.
이러한 접근법의 사용은 상대적으로 많은 수의 훈련된 모델들을 신속하게 생성할 수 있음이 이해되어야 한다. 예를 들어, n 개의 알고리즘들이 p 폴드 크로스 벨리데이션(p fold cross validation)을 사용하는 m 가지 유형들의 입력 데이터 셋에 사용되는 경우, 훈련된 모델의 전체 수는 n x m x p 이다. 이렇게 구축된 모든 모델들은 최고 정확도 이득을 가지는 모델을 식별하기 위해서 정확도 이득 분석을 받았다. 이러한 예에서, 정확도 이득은 검증 데이터 셋을 사용하여 정확한 예측 백분율을 대다수 분류기의 발생(여기선 치료가 반응함) 백분율(빈도)과 비교하여 계산되었다. 예를 들어, 반응성인 치료 빈도가 공지된 데이터 세트에서 60%이고, 모델이 반응성인 치료 결과의 85 %를 정확하게 예측하는 경우, 정확도 이득은 25%이다. 특히, 구축된 모든 모델들에 대해, 최상의 모델은 교차-벨리데이션 테스트 폴드(cross-validation testing folds)에서 88 % 정확도(대다수보다 33 % 향상된)을 보였으며, 엘라스틱 네트 분류기를 사용했다.
이러한 맥락에서, 각 유형의 모델은 고유한 편향들 또는 가정들을 포함하며, 이는 동일한 데이터로 훈련된 경우에도, 결과로 생긴(resulting) 훈련된 모델이 다른 유형의 훈련된 모델과 비교하여 어떻게 작동하는지에 영향을 줄 수 있음이 이해되어야 한다. 따라서, 상이한 모델들은 동일한 트레이닝 데이터 셋을 사용하는 경우에 상이한 예측/정확도 이득을 생성할 것이다. 지금까지, 예측 결과를 향상시키기 위한 시도에서, 단일 머신 러닝 알고리즘들은 동일한 데이터 셋 상에 정확한 예측을 증가시키도록 최적화되었다. 그러나, 알고리즘들의 고유한 편향 때문에, 이러한 최적화는 예측능력(predictability)에서 반드시 정확도 (즉, '동전 던지기'(coin flip)에 대한 정확한 예측 능력)을 증가시키지 않을 것이다. 이러한 편향은 관련된 메타 데이터를 가지는 질병-특이적인 데이터 셋들 상에 상이한 기본 원리들 및 분류기들을 가지는 다수의 다양한 모델들을 훈련시키고, 그렇게 훈련된 모델들 중에서 바람직한(desirable) 정확도 이득 또는 견고성(robustness)을 가지는 것들을 선택함으로써 극복될 수 있다.
최고 정확도 이득을 가지는 바람직한 모델이 선택되는 경우에, 높은 관련성(relevance)을 가지는 오믹 파라미터들이 개선된 예측 정확도를 가지는 예측 모델을 생성하기 위해서 모델로부터 선택될 수 있다. 도 1은 환자로부터의 오믹 데이터가 RNA 전사 데이터(전사 강도(transcription strength))인 RNA를 인코딩(encoding)하는 유전자들의 집합을 예시적으로 도시한다. 여기서, 예측 모델은 유전자 발현 패널(gene expression panel)로부터 RNA 전사 수준(RNA transcription level)들을 사용하여 선험적으로 공지된 TGCA 데이터로부터 상술한 바와 같이 구축되었다. 최상의 예측 모델은 교차-벨리데이션 테스트 폴드에서 88%의 정확도를 가지며, 최고 가중치를 가진 상위 53개 유전자들이 표시된다. 예를 들어, PCDHGA4 유전자(Protocadherin Gamma Subfamily A, 4)는 RNA 발현에 대해 -121543.6202의 가중치 인자를 가졌으며, PCDHGA4 유전자 아래에 추가적인 유전자들 및 가중치 인자들이 열거(listed)되어 있다. RNA 전사 데이터를 초과하는 다수의, 상이한 유형들의 데이터가 또한 훈련된 모델들을 생성하기위해서 사용되었음이 이해되어야 한다. 본 발명자는 RNA 전사 데이터를 훈련 데이터로 사용하여 다른 유형들의 오믹 데이터(예를 들어, WGS, SNP 복제 수(SNP copy number), 프로테오믹스(proteomics))에 대해 훈련된 다른 훈련된 모델과 비교하여 최상의 모델(즉, 최고 정확도 이득을 가지는 모델들)을 생성하는 것을 발견했다.
도 2는 실제 환자 데이터에 대한 히트 맵을 예시적으로 도시하며, 여기서 맵의 각 행은 단일 환자에 대응하고, 각 열은 특정 유전자(여기선, 도 1의 그래프에 열거된 유전자들)에 대응한다. 히트 맵에서 볼 수 있는 바와 같이, 환자 데이터는 반응자들(CR: 완전한 반응 및 PR: 부분적 반응으로 분류됨) 및 비-반응자(Prog: 질병 진행 중 및 Stable: 질병 진행없음으로 분류됨)로 그룹화된다. 색심도(Color depth)/그레이스케일(grayscale) 값은 측정된 전사 수준에 대응하며 -1.8과 1.8 사이의 색심도/그레이스케일 값으로 표현된다. 도 1의 가중치 인자들을 사용하여, 각 환자에 대한 최종 예측 점수는 가중치 인수가 곱해진 각 유전자에 대한 도 2의 표현값(expression value)의 합이다. 0 이상의 최종 예측 점수(+ 기호의 레드/그레이)는 가능한 치료 반응성을 나타내는 반면에, 0 미만의 최종 예측 점수(- 기호의 파란색/회색)는 가능한 치료 반응성의 결핍(lack)을 나타낸다. '최상위 모델 시그네쳐'(최종 예측 점수)에서 볼 수 있는 바와 같이, 비-반응자들이 2 개의 위음성 결과(false negative result) (Prog 카테고리 맨 아랫줄, Stable 카테고리 맨 아랫줄)들을 가지는 반면에, '반응자들' 카테고리에는 하나의 위양성 결과(false positive result) (반응자 카테고리의 맨 윗줄)만 나타났다.
또한, 도 2의 히트 맵을 추가로 참조하면, RNA 전사 데이터 각각의 통계적 의미(statistical significance) 자체만으로는 맵의 하부의 막대 그래프에 도시된 바와 같이 정확한 예측에 충분하지 못하다는 것이 이해되어야 한다. 여기서 막대들은 Bonferroni 보정을 사용하여 다양한 가설 테스트(hypothesis testing)를 위해 수정된 반응자 그룹 및 비-반응자 그룹의 결과 사이에 나타난(signed) t-test 값들을 나타낸다. 쉽게 알 수 있듯이, 오직 제한된 데이타의 세트만이 검은색 막대(예를 들어, DDI2, AGAP1 등)들 및 흰색 막대(RPL39)에 나타난 것처럼 반응자와 비-반응자 사이에 통계적으로 유의미한 차이를 보였다. 그러나 개별 결과 중 적어도 일부가 함께 취해지는 경우에(특히 계산된 가중치를 가지는 조합에서), 상기 모델의 예측력은 대부분의 경쟁모델에 비해 뛰어날 것이며, 모든 경쟁모델에 비해서도 뛰어날 수 있다.
또한, 경로 모델링 알고리즘 (예를 들어, WO 2011/139345, WO 2013/062505, WO 2014/059036 및 WO 2014/193982 참조)을 사용하여 환자가 실제 치료를 받기 전에 환자 데이터가 치료를 검증 및/또는 시뮬레이트(simulate)하는데 이용될 수 있으며, 이러한 검증은 고분화 방광암에 대한 최상의 모델들을 사용하여 재평가될 수 있다. 예를 들어, 높게 가중된 RNA 전사는 경로 모델링 시스템의 인실리코에서 클램핑될 수 있으며, 실제로 생체 내에서의 약물 중재의 예상 효과를 인실리코에서 시뮬레이트하는 활동이 재추론(re-inferred)된다. 그런 다음, 예측 모델은 새로 추론된 사후-개입 데이터(post-intervention data)를 재평가하는데 사용될 수 있다.
본 발명의 주제의 추가로 고려되는 양상들에서, 상술한 예는 RNA 전사 데이터를 사용했지만, 하나 이상의 다른 (또는 부가적인) 오믹 데이터가 또한 본 명세서의 교시들과 함께 사용하기에 적합하다는 것이 인식될 것이다. 예를 들어, 적절한 대체 또는 부가적인 오믹 데이터는 전체 게놈 차별 객체 데이터(genome differential object data), 엑솜 차별 객체 데이터(exome differential object data), SNP 데이터, 복제 수 데이터(copy number data), 단백질 발현 데이터(protein expression data) 및/또는 단백질 활성 데이터(protein activity data)를 포함한다. 마찬가지로, 오믹 데이터와 관련된 메타 데이터는 치료 결과에 한정될 필요가 없고, 많은 대체 환자 또는 케어-관련 메트릭(care-relevant metric)들을 포함할 수 있다. 예를 들어, 고려된 메타 데이터는 치료 비용, 저항의 가능성(likelihood of resistance), 전이성 질환의 가능성(likelihood of metastatic disease), 5년 생존율, 면역 요법(immunotherapy)에 대한 적합성 및 환자 인구 통계 정보(patient demographic information) 등을 포함할 수 있다.
유사하게, 생성된 모델의 수는 본 발명의 주제를 제한하는 것이 아니며 (일반적으로) 더 많은 수의 모델들이 선호됨이 주목 되어야한다. 그러한 모델들은 바람직하게는 다수의 그리고 별개의 머신 러닝 알고리즘들에 기초하며, 모든 공지의 머신 러닝 알고리즘들이 본 명세서에서의 사용에 적합하다고 이해되어야 한다. 예를 들어, 고려되는 분류기들은 하나 이상의 선형 분류기, NMF 기반 분류기, 그래픽 기반 분류기, 트리 기반 분류기, 베이지안 기반 분류기, 규칙들 기반 분류기, 네트 기반 분류기, 및 kNN 분류기를 포함한다. 그러나, 특히 선호되는 알고리즘들은 NMF예측기(linear), SVMlight(linear), SVMlight 일차 폴리노미얼 커널(degree-d polynomial), SVMlight 2 차 폴리노미얼 커널 (degree-d polynomial), WEKA SMO(linear), WEKA j48 트리 (trees-based), WEKA 하이퍼 파이프 (distribution-based), WEKA 랜덤 포레스트 (trees-based), WEKA 네이브 베이즈 (probabilistic/bayes), WEAK JRip(rules-based), 글넷 라쏘 (sparse linear), 글넷 리즈 레그레션 (sparse linear) 및 글넷 엘라스틱 넷(sparse linear)으로 이루어진 군으로부터 선택되는 분류기를 사용하는 것들을 포함할 것이다. 상기 분류기들 이외에, 추가적인 적합한 알고리즘들은 다양한 형태의 뉴럴 네트워크(예를 들어, 인공 뉴럴 네트워크, 컨볼루션 뉴럴 네트워크 등), 바이너리 디시젼 트리(binary decision trees) 또는 다른 유형들의 학습(learning)을 포함한다. 이러한 알고리즘들의 출처는 TensorFlow (URL www.tensorflow.com 참조), OpenAI (URL www.openai.com 참조) 및 Baidu (URL research.***.com/warp-ctc 참조)를 통해 쉽게 이용할 수 있다. 따라서, 본 발명자는 적어도 5, 적어도 10, 적어도 20, 적어도 50, 적어도 100, 적어도 500, 적어도 1000, 적어도 5,000, 또는 적어도 10,000 이상의 훈련된 모델들이 생성되는 것을 고려한다. 가능한 트레이닝 데이터 셋들의 수, 검증들의 수 및 알고리즘들의 유형들의 수에 따라, 결과로 생성된 훈련된 모델들의 수가 1,000,000개의 훈련된 모델들을 초과할 수도 있다.
모델이 생성되는 경우에, 모델 품질이 평가되고 가장 선호되는 모델들이 랜덤 선택을 능가하는 예측력을 가지는 것들로 선택(retained)된다. 상이한 관점에서 보면, 모델들은 정확도에서 그들의 이득에 대해 평가된다. 정확도를 평가하는 많은 방법들이 있으며, 특정 선택은 사용된 알고리즘에 적어도 부분적으로 의존한다. 예를 들어, 적합한 메트릭은 정확도 값, 정확도 이득, 성능 메트릭 또는 상응하는 모델의 다른 측정을 포함한다. 부가적인 예시 메트릭들은 곡선하영역 메트릭, R2, p-value 메트릭, 실루엣 계수, 혼동 매트릭스, 또는 그 상응하는 모델 템플릿 또는 모델의 특성(nature)과 관련된 다른 메트릭을 포함한다.
예를 들어, 모델의 정확도는 공지된 데이터 셋들 및 상응하는 공지된 임상 결과 데이터의 사용을 통해 유래될 수 있다. 따라서, 특정 모델 템플릿에 대해, 입력된 공지된 데이터 셋들(input known data sets) (예를 들어, k-폴드 크로스 벨리데이션)에 대해 훈련되고 검증되는 다수의 평가 모델들이 구축될 수 있다. 예를 들어, 훈련된 모델은 입력 데이터의 80%를 기반으로 훈련될 수 있다. 평가 모델이 훈련되면, 나머지 20 %의 게놈 데이터가 평가 모델을 통해 실행되어 공지된 임상 결과 데이터의 나머지 20 %와 유사하거나 근접한 예측 데이터를 생성하는지 알 수 있다. 훈련된 평가 모델의 정확도는 총 결과들의 수에 대한 정확한 예측들 수의 비율로 간주된다.
예를 들어, RNA 전사 데이터 셋/임상 결과 데이터 셋은 500명의 환자들의 집단(cohort)을 나타낸다. 그 다음, 데이터 셋은, 예를 들어, 400 개의 환자 샘플들을 포함하는 평가 트레이닝 셋들의 하나 이상의 그룹들로 분할될 수 있다. 그런 다음, 모델들은 400 개의 환자 샘플들을 기반으로 생성되고, 이렇게 훈련된 모델들은 100 개의 예측 결과들을 생성하도록 나머지 100명의 환자들의 전사 데이터 셋으로 모델을 실행하여 검증된다. 100 개의 예측 결과들은 임상 결과 데이터 셋의 환자 데이터로부터 실제 100 개의 결과들과 비교된다. 훈련된 모델의 정확도는 총 결과들의 수에 대한 정확한 예측 결과들의 수이다. 100개의 예측 결과 중에서, 훈련된 평가 모델이 환자 데이터의 실제 또는 공지된 임상 결과들과 일치하는 85 개의 정확한 결과들을 생성하는 경우에, 훈련 된 평가 모델의 정확도는 85%로 간주된다. 대안적으로, 관찰된 결과(예를 들어, 약물 반응자)가 RNA 전사 데이터 셋의 메타 데이터에서 60%의 빈도를 가지며, 모델이 100 개의 예측 결과들 중에서 85 개의 정확한 결과들을 생성하는 경우에, 정확도 이득은 25 %(즉, 25 % 이상 랜덤하게 관찰된 결과들; 예측된 이벤트는 60 %, 정확한 예측은 85 %, 정확도 이득은 25 %)일 수 있다.
모델들/정확도 분포의 수에 따라, 예측에 사용되는 모델은 최상위 모델(최고 정확도 이득 또는 최고 정확도 점수 등을 가지는), 또는 상위 n-분위수(3 분위수, 4 분위수, 5 분위수 등), 또는 모든 모델들의 상위 n%(상위 5 %, 상위 10 % 등)으로 선택될 수 있다. 따라서 적합한 모델들은 다른 모든 모델들을 능가하는 정확도 이득 메트릭을 가질 수 있다.
단일 모델과 관련하여, 최상위 (또는 다른 선택되는 단일) 모델에 기초한 예측은 입력 데이터의 일부인 모든 오믹 데이터(즉, 모델을 훈련시키는데 사용되는 모든 RNA 표현 수준들을 사용하여)에 또는 오믹 데이터의 일부분(fraction)에만 기초할 수 있다. 예를 들어, 오믹 데이터의 일부분만이 최종 예측에 사용되는 경우, 도 1의 선택되는 특징들(유전자들)에 보이는 바와 같이 모델에서 최고 또는 최소 절대 사전결정된 가중치(absolute predetermined weight)를 가지는 오믹 데이터(예를 들어, 단일 모델에서 모든 가중치들의 상위 4 분위수)가 일반적으로 선호될 것이다. 따라서, 적합한 모델들은 예측에서 적어도 5, 또는 적어도 10, 또는 적어도 20, 또는 적어도 50, 또는 적어도 100 개의 특징들을 사용(employ)할 것이다. 또한, 치료 결과들 간에 실질적인 통계적 의미를 가지는 특징들이 식별되는 경우에, 이들 특징들은 예측 알고리즘보다는 유전자 발현 어레이(gene expression array)에서, 바람직하게는 조합하여 사용될 수 있음이 이해되어야 한다.
이미 기술된 것들 이외의 많은 수정이 여기 본 발명의 개념으로부터 벗어나지 않고 가능하다는 것이 본 기술분야의 통상의 기술자들에게 명백할 것이다. 따라서, 본 발명의 주제는 첨부된 청구항들의 범위를 제외하고는 제한되지 않는다. 또한, 명세서 및 청구항들 모두를 해석함에 있어서, 모든 용어들은 문맥에 따라 가능한 가장 넓은 방식으로 해석되어야 한다. 특히, "포함하는(comprises)"및 "포함하는(comprising)"이라는 용어는 비-배타적인 방식으로 엘리먼트들, 컴퍼넌트들 또는 단계들을 언급하거나, 참조되는 엘리먼트들, 컴포넌트들, 또는 단계들이 명시적으로 참조되지 않은 다른 엘리먼트들, 컴포넌트들, 또는 단계들과 함께 존재하거나 이용되거나 결합될 수 있다는 것을 나타내는 것으로 해석되어야 한다. 본 명세서 청구범위들이 A, B, C ... 및 N으로 이루어진 군으로부터 선택되는 적어도 하나를 언급하는 경우에, 문장은 A + N이나 B + N 등이 아닌 군으로부터 하나의 요소만을 요구하는 것으로 해석되어야 한다. 또한, 본 명세서의 설명에서 및 하기의 청구 범위를 통해 사용되는 바와 같이, "a", "an"및 "the"의 의미는 문맥이 달리 명시하지 않는 한 복수의 참조를 포함한다. 또한, 본 명세서의 설명에서 사용되는 바와 같이, "in"의 의미는 문맥에 따라 달리 명시하지 않는 한 "in" 및 "on"을 포함한다.

Claims (42)

  1. 고분화 방광암 환자에 대한 치료 결과를 예측하는 컴퓨터 구현 방법에 있어서,
    상기 컴퓨터에 의해, 상기 환자의 복수의 오믹(omics) 데이터를 수신하는 단계;
    상기 컴퓨터에 의해, 복수의 머신 러닝 알고리즘(machine learning algorithm)들 및 선험적인 오믹 데이터(a priori omics data)를 사용하여 복수의 모델들을 생성하는 단계;
    상기 컴퓨터에 의해, 상기 복수의 상이한 모델들의 각각에 대한 정확도 이득 메트릭을 결정하는 단계;
    상기 컴퓨터에 의해, 고분화 방광암 치료의 상기 치료 결과를 예측하는 상기 복수의 모델들 중 상위 사분위 내의 상기 정확도 이득 메트릭을 가지는 단일 모델을 선택하거나, 또는 사전결정된 정확도 이득 메트릭을 이용하여 상기 복수의 모델들로부터 단일 모델을 선택하는 단계-상기 정확도 이득 메트릭 및 상기 사전결정된 정확도 이득 메트릭은 정확도 이득, 정확도 이득 분포, 곡선하면적 메트릭(area under curve metric), R2, p-value, 실루엣 계수(silhouette coefficient) 및 혼동 매트릭스(confusion matrix)으로 이루어지는 그룹으로부터 선택됨-; 및
    상기 컴퓨터에 의해, 상기 환자의 상기 복수의 오믹 데이터 및 단일 모델을 사용하여 예측 결과를 계산하는 단계;
    를 포함하는,
    컴퓨터 구현 방법.
  2. 제 1 항에 있어서,
    상기 오믹 데이터는 전체 게놈 차별 객체(whole genome differential objects), 엑솜 차별 객체(exome differential object), SNP 데이터, 복제 수 데이터(copy number data), RNA 전사 데이터(RNA transcription data), 단백질 발현 데이터(protein expression data) 및 단백질 활성 데이터(protein activity data)로 이루어진 군으로부터 선택되는,
    컴퓨터 구현 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 제 1 항에 있어서,
    상기 단일 모델은 적어도 100 개의 모델들 중에서 선택되는,
    컴퓨터 구현 방법.
  17. 제 1 항에 있어서,
    상기 단일 모델의 상기 정확도 이득 메트릭은 모든 모델들의 상위 4분위수 내인,
    컴퓨터 구현 방법.
  18. 제 1 항에 있어서,
    상기 단일 모델의 상기 정확도 이득 메트릭은 모든 모델들의 상위 5 % 내인,
    컴퓨터 구현 방법.
  19. 제 1 항에 있어서,
    상기 단일 모델의 상기 정확도 이득 메트릭은 모든 다른 모델들을 능가하는,
    컴퓨터 구현 방법.

  20. 제 1 항에 있어서,
    상기 예측 결과는 치료에 대한 완전한 반응, 치료에 대한 부분적 반응, 치료에 대한 안정한 비-반응 및 치료에 대한 진행 중인 비-반응으로 이루어진 군으로부터 선택되는,
    컴퓨터 구현 방법.
  21. 제 1 항에 있어서,
    상기 단일 모델은 NMF예측기(linear), SVMlight(linear), SVMlight 일차 폴리노미얼 커널(degree-d polynomial), SVMlight 2 차 폴리노미얼 커널 (degree-d polynomial), WEKA SMO(linear), WEKA j48 트리 (trees-based), WEKA 하이퍼 파이프 (distribution-based), WEKA 랜덤 포레스트 (trees-based), WEKA 네이브 베이즈 (probabilistic/bayes), WEAK JRip(rules-based), 글넷 라쏘 (sparse linear), 글넷 리즈 레그레션 (sparse linear) 및 글넷 엘라스틱 넷(sparse linear)으로 이루어진 군으로부터 선택되는 분류기를 사용하는 머신 러닝 알고리즘을 사용하여 생성되는,
    컴퓨터 구현 방법.
  22. 제 1 항에 있어서,
    상기 계산하는 단계는 최소 절대 사전결정된 가중치들을 가지는 상기 단일 모델의 특징들을 선택하는 단계;
    를 포함하는,
    컴퓨터 구현 방법.
  23. 제 22 항에 있어서,
    상기 최소 절대 사전결정된 가중치들은 상기 단일 모델에서 모든 가중치들의 상위 4분위수 내인,
    컴퓨터 구현 방법.
  24. 제 1 항에 있어서,
    상기 계산하는 단계는 상기 단일 모델에서 적어도 10 개의 별개의 선택되는 특징들을 사용하는,
    컴퓨터 구현 방법.
  25. 제 22 항에 있어서,
    상기 특징들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES, VWA1, GOLGA2, ARHGAP21, FLJ37201, KIAA1429, AZIN1, SCAMP2, H1F0, PYCR1, SEC24D, FLNB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1 및 GSN으로 이루어진 군으로부터 선택되는 유전자들에 대한 RNA 전사값들인,
    컴퓨터 구현 방법.
  26. 제 25 항에 있어서,
    상기 유전자들에 대한 상기 RNA 전사값들은 각각의 인자들로 계산되고, 상기 각각의 인자들은 PCDHGA4, PCDHGB1, HSP90AB2P, SPAG9, DDI2, TOP1P2, AGAP1, BBS9, FNIP2, LOC647121, NFIC, TGFBRAP1, EPRS, C9orf129, SARS, RBM28, NACC2, GTPBP5, PRKAR2A, CDK8, FAM24B, CRK, RAB2A, SMAD2, ELP2, WWP1, KIF5B, RPL39, PSEN1, SURF4, TTC35, TOM1, TES FLAB, PATL1, HDLBP, RRBP1, OXR1, GLB1, NPEPPS, KIF1C, DDB1, 및 GSN의 순서로 절대값들을 사용하여 가중되는,
    컴퓨터 구현 방법.
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
KR1020177023267A 2015-01-20 2016-01-19 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들 KR102116485B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562105697P 2015-01-20 2015-01-20
US62/105,697 2015-01-20
US201562127546P 2015-03-03 2015-03-03
US62/127,546 2015-03-03
PCT/US2016/013959 WO2016118527A1 (en) 2015-01-20 2016-01-19 Systems and methods for response prediction to chemotherapy in high grade bladder cancer

Publications (2)

Publication Number Publication Date
KR20180010176A KR20180010176A (ko) 2018-01-30
KR102116485B1 true KR102116485B1 (ko) 2020-05-28

Family

ID=56417658

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177023267A KR102116485B1 (ko) 2015-01-20 2016-01-19 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들

Country Status (9)

Country Link
US (1) US11101038B2 (ko)
EP (1) EP3248127A4 (ko)
JP (1) JP2018507470A (ko)
KR (1) KR102116485B1 (ko)
CN (1) CN107548498A (ko)
AU (2) AU2016209478B2 (ko)
CA (1) CA2974199A1 (ko)
IL (1) IL253550B (ko)
WO (1) WO2016118527A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102116485B1 (ko) 2015-01-20 2020-05-28 난토믹스, 엘엘씨 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들
JP2019524692A (ja) 2016-06-30 2019-09-05 ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC Nant癌ワクチン
KR20190038608A (ko) * 2016-08-03 2019-04-08 난토믹스, 엘엘씨 다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor)
CN109543203B (zh) * 2017-09-22 2023-04-18 山东建筑大学 一种基于随机森林的建筑冷热负荷预测方法
CN111492435A (zh) * 2017-10-30 2020-08-04 南托米克斯有限责任公司 替莫唑胺反应预测因子和方法
US11823773B2 (en) 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
TW202345890A (zh) 2018-04-23 2023-12-01 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
US20210228128A1 (en) * 2018-05-08 2021-07-29 Abbott Diabetes Care Inc. Sensing systems and methods for identifying emotional stress events
CN108611416B (zh) * 2018-05-09 2020-12-29 中国科学院昆明动物研究所 一种基于多基因表达特征谱的***个性化预后评估方法
WO2020077163A1 (en) * 2018-10-10 2020-04-16 Kiljanek Lukasz R Generation of simulated patient data for training predicted medical outcome analysis engine
EP3864659A1 (en) * 2018-10-12 2021-08-18 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
CN109671499B (zh) * 2018-10-22 2023-06-13 南方医科大学 一种直肠毒性预测***构建方法
EP3912007A4 (en) * 2019-01-10 2022-11-02 Travera LLC IDENTIFICATION OF CANCER THERAPIES
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
US11368890B2 (en) * 2020-06-30 2022-06-21 At&T Intellectual Property I, L.P. Predicting small cell capacity and coverage to facilitate offloading of macrocell capacity
CN115565610B (zh) * 2022-09-29 2024-06-11 四川大学 基于多组学数据的复发转移分析模型建立方法及***
CN115631847B (zh) * 2022-10-19 2023-07-14 哈尔滨工业大学 基于多组学特征的早期肺癌诊断***、存储介质及设备
CN116013528B (zh) * 2023-01-10 2023-11-24 中山大学孙逸仙纪念医院 结合fish检测的膀胱癌术后复发风险预测方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009382A2 (en) * 2010-07-12 2012-01-19 The Regents Of The University Of Colorado Molecular indicators of bladder cancer prognosis and prediction of treatment response
WO2012030840A2 (en) * 2010-08-30 2012-03-08 Myriad Genetics, Inc. Gene signatures for cancer diagnosis and prognosis
WO2013090620A1 (en) 2011-12-13 2013-06-20 Genomedx Biosciences, Inc. Cancer diagnostics using non-coding transcripts
US20140080731A1 (en) * 2012-09-20 2014-03-20 Genomedx Biosciences, Inc. Thyroid cancer diagnostics

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1228370A2 (en) 1999-11-10 2002-08-07 Structural Bioinformatics Inc. Computationally derived protein structures in pharmacogenomics
US7370021B2 (en) 2002-03-15 2008-05-06 Pacific Edge Biotechnology Ltd. Medical applications of adaptive learning systems using gene expression data
US20050170528A1 (en) 2002-10-24 2005-08-04 Mike West Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
US9342657B2 (en) 2003-03-24 2016-05-17 Nien-Chih Wei Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
DK1644858T3 (da) 2003-07-10 2018-01-22 Genomic Health Inc Funktionel beklædning med mindst et yderlag og en indermembran.
US20060195266A1 (en) 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
US20050210015A1 (en) 2004-03-19 2005-09-22 Zhou Xiang S System and method for patient identification for clinical trials using content-based retrieval and learning
US7871769B2 (en) 2004-04-09 2011-01-18 Genomic Health, Inc. Gene expression markers for predicting response to chemotherapy
JP2008532104A (ja) 2004-12-30 2008-08-14 プロベンティス インコーポレーテッド 複数の医療関連アウトカムの予測を行い、インターベンション計画の評価を行い、更に同時にバイオマーカー因果性検証を行うことのできる、予測モデルを生成して適用する方法、そのシステム、及びそのコンピュータ・プログラム製品
US20070128636A1 (en) 2005-12-05 2007-06-07 Baker Joffre B Predictors Of Patient Response To Treatment With EGFR Inhibitors
AU2007325021B2 (en) 2006-11-30 2013-05-09 Navigenics, Inc. Genetic analysis systems and methods
US7899764B2 (en) 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
US20080228699A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US7816084B2 (en) 2007-11-30 2010-10-19 Applied Genomics, Inc. TLE3 as a marker for chemotherapy
US8386401B2 (en) 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
US8484225B1 (en) 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
US20110262921A1 (en) * 2010-04-23 2011-10-27 Sabichi Anita L Test for the Detection of Bladder Cancer
WO2011139345A2 (en) 2010-04-29 2011-11-10 The Regents Of The University Of California Pathway recognition algorithm using data integration on genomic models (paradigm)
US10192641B2 (en) 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
US9646134B2 (en) 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
KR102218512B1 (ko) 2010-05-25 2021-02-19 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
AU2012225666A1 (en) 2011-03-04 2013-09-26 Kew Group, Llc Personalized medical management system, networks, and methods
AU2012267888A1 (en) 2011-06-07 2014-01-30 Caris Mpi, Inc. Molecular profiling for cancer
EP2718720B1 (en) 2011-06-10 2019-02-13 Deutsches Krebsforschungszentrum Prediction of recurrence for bladder cancer by a protein signature in tissue samples
JP5897823B2 (ja) * 2011-06-17 2016-03-30 東レ株式会社 膀胱ガン診断用組成物及び方法
US20140199273A1 (en) 2011-08-05 2014-07-17 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
US9934361B2 (en) 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
JP2015502740A (ja) 2011-10-21 2015-01-29 ネステク ソシエテ アノニム 炎症性腸疾患の診断を改善するための方法
EP2644705A1 (en) 2012-03-30 2013-10-02 RWTH Aachen Biomarker for bladder cancer
US9767526B2 (en) 2012-05-11 2017-09-19 Health Meta Llc Clinical trials subject identification system
EP2669682B1 (en) 2012-05-31 2017-04-19 Heinrich-Heine-Universität Düsseldorf Novel prognostic and predictive biomarkers (tumor markers) for human breast cancer
EP3471103A1 (en) 2012-10-09 2019-04-17 Five3 Genomics, LLC Systems and methods for learning and identification of regulatory interactions in biological pathways
US20140143188A1 (en) 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
WO2014152395A1 (en) 2013-03-15 2014-09-25 The Cleveland Clinic Foundation Self-evolving predictive model
EP3564958A1 (en) 2013-05-28 2019-11-06 Five3 Genomics, LLC Paradigm drug response networks
WO2015106341A1 (en) * 2014-01-17 2015-07-23 Ontario Institute For Cancer Research (Oicr) Biopsy-driven genomic signature for prostate cancer prognosis
KR102116485B1 (ko) 2015-01-20 2020-05-28 난토믹스, 엘엘씨 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들
KR101974769B1 (ko) 2015-03-03 2019-05-02 난토믹스, 엘엘씨 앙상블-기반 연구 추천 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009382A2 (en) * 2010-07-12 2012-01-19 The Regents Of The University Of Colorado Molecular indicators of bladder cancer prognosis and prediction of treatment response
WO2012030840A2 (en) * 2010-08-30 2012-03-08 Myriad Genetics, Inc. Gene signatures for cancer diagnosis and prognosis
WO2013090620A1 (en) 2011-12-13 2013-06-20 Genomedx Biosciences, Inc. Cancer diagnostics using non-coding transcripts
US20140080731A1 (en) * 2012-09-20 2014-03-20 Genomedx Biosciences, Inc. Thyroid cancer diagnostics
WO2014043803A1 (en) * 2012-09-20 2014-03-27 Genomedx Biosciences, Inc. Thyroid cancer diagnostics

Also Published As

Publication number Publication date
KR20180010176A (ko) 2018-01-30
WO2016118527A1 (en) 2016-07-28
CN107548498A (zh) 2018-01-05
JP2018507470A (ja) 2018-03-15
AU2016209478B2 (en) 2019-03-07
IL253550A0 (en) 2017-09-28
US20180004905A1 (en) 2018-01-04
CA2974199A1 (en) 2016-07-28
IL253550B (en) 2020-05-31
EP3248127A1 (en) 2017-11-29
US11101038B2 (en) 2021-08-24
AU2016209478A1 (en) 2017-08-10
AU2019203295A1 (en) 2019-05-30
EP3248127A4 (en) 2018-08-08

Similar Documents

Publication Publication Date Title
KR102116485B1 (ko) 고분화 방광암의 화학요법에 대한 반응 예측을 위한 시스템들 및 방법들
Meiring et al. Optimal intensive care outcome prediction over time using machine learning
JP6609355B2 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
AU2017202808B2 (en) Paradigm drug response networks
Assefa et al. Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data
JP2020501240A (ja) 汎がんゲノムにおけるdnaアクセシビリティを予測するための方法及びシステム
US20180039732A1 (en) Dasatinib response prediction models and methods therefor
Hossain et al. Application of skew-normal distribution for detecting differential expression to microRNA data
Shi et al. The partitioned LASSO-patternsearch algorithm with application to gene expression data
Vidyasagar Probabilistic methods in cancer biology
Kusonmano et al. Effects of pooling samples on the performance of classification algorithms: a comparative study
Putri et al. A deep-genetic algorithm (deep-GA) approach for high-dimensional nonlinear parabolic partial differential equations
Qiu Imputation and Predictive Modeling with Biomedical Multi-Scale Data
Jarmulski et al. Interpretable Survival Gradient Boosting Models with Bagged Trees Base Learners
Elmarakeby Deep Learning for Biological Problems
Braaten Artificial intelligence applied to medical genetics
Haddon Evaluation of Some Statistical Methods for the Identification of Differentially Expressed Genes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right