KR20110058789A - 체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템 - Google Patents

체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20110058789A
KR20110058789A KR1020117004992A KR20117004992A KR20110058789A KR 20110058789 A KR20110058789 A KR 20110058789A KR 1020117004992 A KR1020117004992 A KR 1020117004992A KR 20117004992 A KR20117004992 A KR 20117004992A KR 20110058789 A KR20110058789 A KR 20110058789A
Authority
KR
South Korea
Prior art keywords
protein
proteins
secreted
classifier
feature
Prior art date
Application number
KR1020117004992A
Other languages
English (en)
Inventor
주안 퀴
데이빗 푸엣
잉 슈
Original Assignee
유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드 filed Critical 유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드
Publication of KR20110058789A publication Critical patent/KR20110058789A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 체액으로의 단백질 분비를 예측하기 위한 방법 및 시스템에 관한 것이다. 구체예에서, 방법은 수집된 단백질의 분비 성질을 포함하는 특징 세트를 이용하여 상기 특징 세트에 기초하여 생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 분류기를 훈련시킨다. 또 다른 방법은 훈련된 분류기 및 수신된 단백질 서열의 확인된 특징을 이용하여 단백질 서열이 생체액으로 분비되는 확률을 결정한다. 구체예에서, 시스템은 단백질의 생체액으로의 분비를 예측한다. 이 시스템은 수집된 단백질의 성질을 포함하는 단백질 특징 세트를 구축하고, 생체액으로 분비될 것 같은 단백질의 특징을 예측하기 위해 분류기를 훈련시키고, 단백질 서열을 수신하고, 수신된 단백질 서열을 분비 단백질로서 확인하도록 구성된 구성요소를 포함한다.

Description

체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템{METHODS AND SYSTEMS FOR PREDICTING PROTEINS THAT CAN BE SECRETED INTO BODILY FLUIDS}
연방정부 지원 연구 및 개발에 관한 진술
본 발명의 개발 과정에서 실시된 일부 연구는 국립 과학 재단(National Science Foundation)이 수여하는 NSF/ITR-IIS-0407204의 미국 정부 지원금을 이용하였다. 따라서, 미국 정부는 본 발명에 대한 특정한 권리를 가진다.
발명의 분야
본 발명은 일반적으로 인간 단백질의 컴퓨터 분석, 더욱 구체적으로는 혈액과 같은 체액으로의 단백질 분비를 예측하는 것에 관한 것이다.
유전자 및 단백질 발현의 변경은 조직이나 장기의 생리적 상태에 관한 중요한 단서를 제공한다. 악성 변형 과정에서, 종양 세포의 유전자 변화는 자가분비(autocrine) 및 측분비(paracrine) 신호전달망을 파괴하여, 암세포 외부로 분비될 수 있는 성장 인자, 사이토킨 및 호르몬과 같은 일부 종류의 단백질의 과발현을 유도할 수 있다(Hanahan and Weinberg, 2000; Sporn and Roberts, 1985). 이들 및 다른 분비된 단백질은 복합 분비 경로를 통해 타액, 혈액, 소변, 뇌척수(척수)액, 정액, 질액, 안구액, 또는 다른 체액으로 들어간다.
각종 암 피검체에 대한 게놈 연구 결과 일관되게 과발현되는 다수의 유전자가 확인되었으며, 이들 유전자들 중 일부는 분비 단백질을 코딩한다(Buckhaults et al., 2001; Welsh et al., 2003; Welsh et al., 2001). 예를 들어, 프로스타신 및 오스테오폰틴 유전자는 난소암에서 발현 수준이 상승되는 반면에, MIC1 유전자는 결장직장암, 유방암 및 전립선암에서 과발현된다. 건강한 개체와 비교하여 이들 암을 보유하는 환자의 혈청에서는 이들 분비성 단백질의 풍부성이 증가하는 것으로 검출되었다(Kim et al., 2002; Mok et al., 2001; Welsh et al., 2003). 일부 분비 단백질은 암의 상이한 발생 단계와 관련된 혈청에서 농도 증가 수준이 달라지는 것으로 확인되었는데, 이는 이들 단백질이 암의 유형 및 단계 모두의 마커로서 사용가능함을 제시한다(Huang et al., 2006).
단백질이 체액으로 분비될 가능성이 있는지를 정확하게 예측하는 것과 관련하여 곤란한 점과 문제점이 있다. 이들 곤란한 점 중 하나는 다수의 단백질 서열 및 생체액 샘플을 분석 및 분류해야 한다는 것이다.
데이터 분류는 데이터 항목에 대한 클래스를 결정 또는 예측하기 위해 실시되는 일반적인 작업이다. 전형적인 선형 분류기는 수집된 데이터 항목 그룹을 조사하는데, 여기서 각 데이터 항목은 2개의 클래스 중 하나에 속하며, 새로운 데이터 항목이 어떤 클래스에 있는지를 결정하기 위해서, 수집된 데이터 항목의 성질을 이용하여 분류기를 "훈련(train)"시킨다. 하나의 전통적인 분류기는 서포트 벡터 머신(SVM: support vector machine)이다. SVM을 이용하여, 데이터 항목을 p-차원 벡터(p 수 리스트)로 나타내고, SVM을 이용하여 그러한 데이터 항목이 p-1-차원 분리경계면(hyperplane)으로 분리될 수 있는지를 결정한다. SVM의 사용은 데이터 분류 및 회귀 분석을 위해 현재 이용가능한 기술이다. 세포 밖으로 분비될 수 있는 단백질에 대한 일부 연구가 있지만, 혈액 또는 소변과 같은 특정 체액으로 분비될 수 있는 단백질을 예측하기 위한 현재 이용가능한 방법은 없다. 체액으로 들어갈 수 있는 단백질을 예측하기 위해서 적절한 도구로서 세포외 분비 단백질에 대해 고안된 예측 프로그램을 이용하면 신뢰할 만한 예측 결과를 제공하지 못한다. 따라서, 일부 단백질 특징을 이용하여, 체액으로 들어갈 수 있는 단백질과 그럴 수 없는 단백질을 구별하도록 분류기를 훈련시키는 방법 및 시스템이 필요하다. 또한, 단백질의 체액으로의 분비를 정확하게 예측할 수 있도록 분류기의 성능을 최적화하기 위해서 특징 선별을 실시하는 방법 및 시스템이 필요하다.
암 및 다른 질병을 진단하기 위해서, 암과 같은 이병 조직에서 비정상적으로 높게 발현되는 유전자로부터 유래한 단백질이 체액으로 분비될 수 있는지 것에 관한 정확한 예측이 이루어져야 한다. 이러한 문제 해결과 관련된 곤란점은 세포 밖으로 단백질이 분비된 후에 하류 위치에 대한 현재의 이해가 매우 제한되어 있고, 현재의 지식이 단백질의 체액으로의 분비에 관한 유용한 힌트를 제공하기에 충분하지 않다는 점이다. 따라서, 어떤 인간 단백질이 체액으로 분비될 것 같은지를 예측하는 데이터 분류법이 필요하다.
인간 혈청 프로테옴은 알부민, 면역글로불린, 트랜스페린, 헵토글로빈 및 리포단백질과 같은 매우 풍부한 단백질뿐 아니라, 이병 또는 정상의, 상이한 조직으로부터 분비되거나, 또는 인체를 통해서 세포로부터 누출되는 단백질 및 펩티드의 매우 복잡한 혼합물이다(Adkins et al., 2002; Schrader and Schulz-Knappe, 2001). 인간 혈청 프로테옴을 이용한 작업시 도전 과제는 순환하는 천연 혈액 단백질 대부분이 해당하는 추정 단백질보다 더욱 풍부한 규모 범위로 존재한다는 것이다. 따라서, 선험적으로 혈액 중에서 찾고자 하는 단백질 또는 단백질 특징을 알지 못하면서, 수천 또는 가능하게는 더욱 많은 천연 혈액 단백질 중에서 그러한 분비 단백질과, 혈액 중에서 상대적 풍부성 증가를 실험적으로 검출하기는 매우 어렵다. 따라서, 암 조직에서 비정상적으로 높게 발현되고 체액으로 분비될 수 있는 단백질을 예측할 수 있어서, 인간 혈청과 같은 체액의 표적화된 프로테옴 작업에 대한 표적 리스트를 제공하고 체액에서 마커 단백질의 확인을 더욱 현실적으로 해결할 수 있는 신규한 컴퓨터 기반의 접근법을 사용한 방법 및 시스템이 필요하다.
진핵세포 및 원핵세포에서 세포외 환경으로 또는 세포 표면으로 분비될 수 있는 단백질을 예측하는 다수의 연구가 실시되었으며, 몇몇 공개 예측 서버를 이용할 수 있다(Guda, 2006; Horton et al., 2007; Menne et al., 2000; Nair and Rost, 2005). 이들 방법의 대부분은 단백질의 세포내 위치화(subcellular localization)에 대한 일반적인 이해를 바탕으로 개발되었다 --- 대부분의 단백질의 위치화는 부위 특이적 흡수, 보유 및 수송을 가능하게 하는 짧은 (신호) 펩티드 또는 모티프에 의해 유도되는 일련의 분류 사건을 통해서 실시된다(Doudna and Batey, 2004; Tjalsma et al., 2000). 아미노산 조성, 단백질 도메인의 동시발생 및 주석달린(annotated) 단백질 기능과 같은 정보를 바탕으로 하여, 각종 통계학적 학습법을 이용하여 이들 프로그램을 개발하였다(Guda, 2006; Mott et al., 2002).
이전 연구는 세포 밖으로 단백질이 분비되는지 여부에 관한 것이지만, 이들 연구는 단백질이 궁극적으로 어디에 도달하는지를 예측하는 것에는 관심이 없었다. 이전의 연구는 체액으로 분비된 단백질의 발현이 각종 병리학적 상태와 상호관련이 있는지를 결정할 수 있지만, 분비된 단백질이 물리적 및 화학적 성질, 아미노산 서열 및 구조적 특징 측면에서 공통점을 갖는지를 결정하는 방법을 포함하지 않는다. 전형적인 방법은 단백질 특징에 기초하여 단백질이 체액으로 분비될 확률을 계산하지 않았다. 그렇지만, 이전의 프로테옴 연구로부터 유래한, 이들 계산 확률은 병리학적 상태의 진단을 보조하는데 유용할 것이다. 따라서, 병리학적 상태의 진단을 보조하기 위해서 체액 중 단백질의 존재 확률을 계산하는 방법 및 시스템이 필요하다.
체액으로 분비되는 단백질을 예측하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품이 개시된다. 본 발명의 구체예에 의해 제공되는 체액으로의 단백질 분비의 신뢰할 만한 예측으로 더욱 시기 적절하고 정확하게 암과 같은 병리학적 상태를 진단할 수 있게 될 것이다. 본 발명의 구체예에서, 체액은 타액, 혈액, 소변, 척수액, 정액, 질액, 양수, 치은열구액, 및 안구액을 포함하나, 이에 한정되는 것은 아니다. 일 구체예에서, 한 방법은 암과 같은 이병 인간 조직에서 비정상적으로 높게 발현되는 유전자로부터 유래한 어떤 단백질이 체액으로 분비될 수 있는지를 예측하는데, 이는 추적 프로테옴 연구를 위한 가능한 마커 단백질을 제시한다. 또 다른 구체예에서, 혈액 분비 단백질 예측((BSPP) 서버는 암과 같이 이병 인간 조직에서 비정상적으로 발현되는 유전자 유래의 어떤 단백질이 혈류로 분비될 수 있는지를 예측하기 위한 컴퓨터 구현 방법을 실시하는데, 이는 추적 혈청 프로테옴 연구를 위한 가능한 마커 단백질을 제시한다.
본 발명의 일 구체예에서, 비제한적인 예로서 단백질 분비에 대한 관련성을 보여주는 신호 펩티드, 막관통 도메인, 글리코실화 부위, 무질서 영역, 2차 구조적 정보, 소수성 및 극성 척도를 포함하는 하나 이상의 단백질 서열의 단백질 특징 리스트가 확인된다. 혈류로의 단백질 분비를 예측하기 위해 이들 특징을 사용하여 서포트 벡터 머신(SVM) 기반의 분류기를 훈련시킬 수 있다.
본 발명을 예시하기 위해서, 먼저 본 발명을 단백질이 혈류로 분비되는지 여부를 예측하는데 적용한 다음, 소변으로의 분비를 예측하는데 별도로 적용하였다. 그러나, 본 발명은 단백질이 비제한적인 예로서 타액, 척수액, 정액, 질액 및 안구액과 같은 다른 체액으로 분비되는지를 예측하기 위한 개발 도구 및 시스템에 더욱 광범위하게 적용되는 것으로 이해된다.
도 1은 본 발명의 구체예에 따라서, 분류기를 훈련시키고 체액으로의 단백질 분비를 예측하기 위한 예시적인 프로세스를 설명하는 플로우챠트를 도시한다.
도 2는 본 발명의 구체예에 따라서, 305개 양성 단백질 샘플 및 26,962개 음성 단백질 샘플의 분석으로부터 얻은 P 값(정확한 분류 확률)과 R 값(신뢰 스코어) 사이의 통계적 관계를 도시한다.
도 3은 본 발명의 구체예에 따라, 혈류로 분비될 수 있는 단백질을 예측하기 위해서 복수의 단백질 서열이 제공될 수 있는 예시적인 그래픽 사용자 인터페이스(GUI)를 예시한다.
도 4는 본 발명의 구체예에 따라서, 예시적인 GUI에서 분류하고자 하는 수신된 단백질 서열을 나타낸다.
도 5는 본 발명의 구체예에 따라서, 예시적인 GUI 내에서 표시되는 단백질 서열에 대한 음성 분류 결과를 나타낸다.
도 6은 본 발명의 구체예에 따라서, 예시적인 GUI 내에서 표시되는 단백질 서열에 대한 양성 분류 결과를 나타낸다.
도 7은 본 발명의 구체예에 따라서, 단백질이 체액으로 분비될 수 있는지를 예측하기 위해 시스템 구성요소를 구현하는데 유용한 예시적인 컴퓨터 시스템을 도시한다.
이하, 본 발명을 첨부된 도면을 참조하여 설명할 것이다. 이 도면에서, 일반적으로 유사한 도면 부호는 동일하거나 또는 기능적으로 유사한 부재를 나타낸다. 또한, 일반적으로 도면 부호의 최좌측 숫자(들)는 도면 부호가 제일 먼저 나타내는 도면을 표시한다.
본 발명은 단백질이 생체액, 비제한적 예로서 타액, 혈액, 소변, 척수액, 정액, 질액 및 안구액과 같은 생체액으로 분비되는지를 예측하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품에 관한 것이다. 본 발명은 하나 이상의 단백질 서열을 수신하고 수신된 단백질 서열의 특징을 분석하여 단백질이 체액으로 분비될 수 있는 확률을 결정하는 시스템, 방법 및 컴퓨터 프로그램 제품 구체예를 포함한다. 본 발명의 구체예는 사용자가 복수의 단백질 서열을 제공하고 복수의 서열을 분석하여 이들 서열에 의해 나타나는 단백질이 혈류로 분비되는 지를 예측하는 그래픽 사용자 인터페이스(GUI)를 포함한다.
본 명세서는 사용자가 제공하는 단백질 서열 및 사용자가 입력하는 단백질 서열을 개시하지만, 사용자는 사람, 컴퓨터 프로그램, 소프트웨어 어플리케이션, 소프테웨어 에이전트, 매크로 등일 수 있다. 따라서, 특별히 언급된 바 없다면, 본원에 사용된 바와 같은 용어 "사용자"는 반드시 인간이여야 하는 것은 아니다.
본 명세서는 본 발명의 특징을 포함하는 하나 이상의 구체예를 개시한다. 개시된 구체예(들)은 단지 본 발명을 예시하는 것이다. 본 발명의 범위는 개시된 구체예(들)에 한정되는 것은 아니다. 본 발명은 여기에 수록된 특허청구범위에 의해 한정된다.
"일 구체예", "본 발명의 구체예", "구체예", "예시적 구체예" 등으로 명세서 내에 개시된 구체예(들) 및 언급 내용들은 개시된 구체예(들)가 특별한 특징, 구조 또는 특성을 포함할 수 있음을 나타내지만, 모든 구체예들이 특별한 특징, 구조 또는 특성을 반드시 포함해야 하는 것은 아니다. 또한, 그러한 구절은 반드시 동일한 구체예를 언급하는 것은 아니다. 또한, 특별한 특징, 구조 또는 특성이 구체예들과 관련하여 개시된 경우, 명백하게 개시되어 있는지 여부와 무관하게 다른 구체예들과 관련하여 그러한 특징, 구조 또는 특성을 실시하는 것은 당업자의 지식 범위 내인 것으로 이해된다.
본원에 개시된 단수 항목의 개시는 단일 항목 또는 복수 항목을 의미할 수 있다. 예를 들어, 특징, 단백질, 체액 또는 분류기의 개시는 단일 특징, 단백질, 체액 또는 분류기를 의미할 수 있다. 대안적으로, 특징, 단백질, 체액 또는 분류기의 개시는 복수의 특징, 단백질, 체액 또는 분류기를 의미할 수 있다. 따라서, 본원에 사용된 바와 같은 단수의 표현은 단수 또는 복수일 수 있다. 유사하게, 복수 항목을 언급하거나 개시한 것은 단수 항목을 의미하는 것일 수 있다.
명세서는 단백질의 체액으로의 분비를 예측하는 일반적인 방법을 개시한다. 단백질의 혈류 및 소변으로의 분비를 예측하는 특정 예시적 구체예들이 본 명세서에 제공된다. 그러나, 본원에 제시된 교시내용 및 안내에 기초하여, 본원에 개시된 방법을 용이하게 채용하여, 비제한적인 예로서 타액, 척수액, 정액, 질액, 양수, 치은열구액 및 안구액과 같은 다른 체액으로의 단백질의 분비를 예측하는 것은 당업자의 지식 범위 내이다.
본 발명의 구체예들은 하드웨어, 펌웨어, 소프트웨어, 또는 이의 임의의 조합에서 구현할 수 있다. 또한, 본 발명의 구체예들은, 하나 이상의 프로세서에 의해 판독 및 실행될 수 있는 기계 판독가능 매체에 저장된 명령대로 구현될 수 있다. 기계 판독가능 매체는 기계(예, 컴퓨터 장치)로 판독가능한 형태로 정보를 저장 또는 전송하기 위한 임의의 메카니즘을 포함할 수 있다. 예를 들어, 기계 판독 매체는 읽기 전용 기억장치(ROM); 랜던 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래쉬 메모리 소자; 전파 신호의 전기적, 광학적, 음향적 또는 기타 형태(예, 캐리어 웨이브, 적외선 신호, 디지털 신호 등) 등을 포함할 수 있다. 또한, 펌웨어, 소프트웨어, 루틴(routines), 명령어는 특정 작용의 실행으로서 본원에 개시될 수 있다. 그러나, 그러한 개시내용은 단지 편의를 위한 것이며, 실제로 그러한 작용은 컴퓨터 장치, 프로세서, 컨트럴러, 또는 펌웨어, 소프트웨어, 루틴, 명령어 등을 실행하는 다른 장치로부터 생긴 것일 수 있음을 이해해야 한다.
분류기 훈련 방법
데이터 분류 방법은 각 데이터 요소의 제공된 특징값에 기초하여, 주어진 데이터 세트의 각 테이터 요소가 기정한 어떤 클래스에 속하는지를 결정하고자 하는 일반적인 부류의 컴퓨터 방법을 나타낸다.
각종 감독 학습 방법, 예컨대 서포트 벡터 머신(SVM), 인공 신경망(ANN), 의사결정 트리, 회귀 모델 및 다른 알고리즘이 데이터 분류 및 회귀 모델을 위해 널리 구현되어 왔다. 기지 데이터(훈련 데이터 세트 형태의 지식)를 기초로 하여, 감독 학습법은 컴퓨터가 복합 패턴을 인식하고 분류기를 향상시키는 것을 자동으로 학습하도록 하여, 정보처리(intelligent) 결정을 하고 미지 데이터 클래스(독립 세트)를 예측하는데 사용할 수 있다.
기계 학습 기반의 분류기를, 기계 감지, 의학 진단, 바이오인포메틱스, 두뇌-컴퓨터 인터페이스, DNA 서열 분류 및 컴퓨터 시각에서의 대상 인식과 같은 각종 분야에 적용하여 왔다. 학습 기반의 분류기는 일부 생물학적 문제를 해결하는데 매우 효과적인 것으로 판명되었다. 본원에 사용된 바와 같이, 분류는 알려진 클래스 내의 수집 데이터점 사이의 공통 특징을 발견하여 데이터점을 상이한 클래스로 분리하기 위한 학습 과정이다. 신경망, 회귀 분석 또는 다른 기법을 이용하여 분류를 실시할 수 있다. 분류기는 데이터 분류를 실시하기 위한 방법, 알고리즘, 컴퓨터 프로그램 또는 시스템이다. 분류기의 한 종류는 서포트 벡터 머신(SVM)이다. 전형적인 SVM은 결정 경계를 한정하는 결정 분리경계면의 개념을 기초로 한다. 결정 분리경계면은 상이한 클래스 구성원을 가지는 대상 세트를 분리하는 것이다. 예를 들어, 수집된 대상은 클래스 1 또는 클래스 2에 속할 수 있으며, SVM과 같은 분류기를 사용하여 분류하고자 하는 임의의 새로운 대상의 클래스(예, 1 또는 2)를 결정(즉, 예측)할 수 있다. 전형적인 SVM은 상이한 클래스 라벨 케이스를 분리하는 다차원 공간 내의 분리경계면을 구축하여 분류 작업을 실시하는 주요한 분류기 방법이다. SVM은 회귀 및 분류 작업을 모두 지원하며, 복수의 연속 및 카테고리 변수를 취급할 수 있다. 본 발명의 구체예에서, SVM 기반의 분류기는 체액으로 분비되거나 또는 분비되지 않는 단백질 서열의 클래스를 예측하도록 훈련된다.
하기 섹션에서, 본 발명의 구현의 예시적인 구체예는 방법의 단계를 참조하여 제시되어 있다. 하기 논의된 구현은 단백질의 혈액으로의 분비를 예측하는 것에 관한 것이다. 본 발명의 구체적인 구현을 상이한 세트의 수집된 단백질에 적용하는 방법에 관한 설명이 후술된다.
일 구체예에서, 분비 단백질로 주석이 달린 인간 단백질을 기존의 단백질 데이터베이스, 예컨대 Swiss-Prot 및 분비 단백질 데이터베이스(SPD) 데이터베이스로부터 수집하고, 이전 연구에 의해 혈액에서 실험적으로 검출된 단백질을 선택한다. 문헌[Chen et al.(2005)]은 웹 기반의 SPD를 개시한다. 도 1은 분류기를 훈련시키기 위한 예시적 방법(100)을 예시하는 플로우챠트를 도시한다. 일부 성질 또는 단백질 특징은 수집된 단백질 그룹의 특성을 규명하는데 중요하지만, 개별적으로 필터로서 사용되는 경우 효과적이 아닐 수 있다. 방법(100)은 이들 성질을 함께 고려하여 실험적으로 대신에 컴퓨터에 의해 중요성을 평가한다.
제시된 예에서, 방법(100)은 분류기를 훈련시킬 수 있는 단계를 예시한다. 방법(100)의 단계들이 반드시 제시된 순서로 일어나는 것은 아님에 주의한다.
단계(103)에서, 이 프로세스는 "양성" 데이터 세트로서의 단백질 세트의 선별로 개시된다. 구체예에서, 단계(103)는 혈류로 분비되는 것으로 알려진 단백질, 즉 혈액으로 분비되는 단백질을 수집하는 것을 포함한다. 본 발명의 다른 구체예에서, 이 단계는 비제한적인 예로서 타액, 소변, 척수액, 정액, 질액, 양수, 치은열구액 및 안구액과 같은 다른 체액으로 분비되는 것으로 알려진 단백질을 수집하는 것을 포함한다. 각각 단계(103) 및 단계 (105)에서 선택된 양성 및 음성 데이터 세트는, 단계(111 내지 115)(후술)에서 분류기를 훈련시킬 때 통계학적으로 일관되고 신뢰할만한 결과를 산출할 수 있도록 충분히 커야 한다. 일반적으로 양성 및 음성 단백질 세트가 더 큰 것이 바람직하다.
하나의 구현예에서, 단계(103)에서 분비 단백질로서 주석이 달린 총 1,620개 인간 단백질을 Swiss-Prot 단백질 데이터베이스 및 분비 단백질 데이터베이스(SPD)로부터 수집하고(Chen et al., 2005), 이전 연구에 의해 실험적으로 혈액 중에서 검출된 단백질을 선택한다. 이것은, 총 ~16,000 단백질로 이루어진, 플라즈마 프로테옴 프로젝트(Plasma Proteome Project)(PPP)에 의해 컴파일된 기지의 혈청 단백질 데이터 세트(Omenn et al., 2005)와, 다른 혈청 프로테옴 연구에 의해 형성된 몇몇 추가의 데이터 세트(Adkins et al., 2002; Pieper et al., 2003)에 대해 1,620 단백질을 조사하여 실시한다. 1,620개의 단백질 중 305개는 2개 이상의 펩티드가 ~16,000개 단백질과 일치하였으므로, 이들 305개의 단백질은 혈액으로 분비되는 것으로 간주한다 - 이는 질량 분석 데이터를 기초로 한 단백질 동정의 일반적 관례이다. 단계(103)에서 선택된 양성 데이터 세트의 질을 확인하기 위해서, 구체예에서는, 2개의 기준(분비 및 혈청/혈장 검출)에 부합하는 이들 305개 단백질을 양성 데이터 세트로서 선택하고, 이들은 세포 손상의 결과로서 혈액으로 나오는 단백질(예, 심근경색 후에 혈장으로 방출되는 심장 마이오글로빈)을 포함하지 않는다.
단계(105)에서, 단계(103)에서 선택되지 않은 다른 클래스 및 단백질 패밀리의 대표적인 단백질을 '음성' 데이터 세트로서 선택한다. 구체예에서, 이 단계는 비-혈액 분비 단백질을 수집하는 것을 포함한다. 대안적인 구체예에서, 단계(105)는 비제한적인 예로서 타액, 소변, 척수, 정액, 질액, 양수, 치은열구액 및 안구액과 같은 다른 체액으로 분비되지 않는 것으로 알려진 단백질을 수집하는 것을 포함한다.
본 발명의 구체예에서, 단백질의 음성 데이터세트는, 분비 경로와 무관한 단백질 및 순환계에 관여하지 않는 분비 단백질을 둘다 포함하는, 비-혈액 분비된 단백질의 대표 단백질을 선택하여 단계(105)에서 형성한다. 일 구체예에서, 이 단계는 음성 세트로서 이전에 언급한 혈액 분비 단백질을 포함하지 않는 각 단백질 패밀리(Pfam) 데이터베이스(Bateman et al., 2002)의 대표를 선택하는 것을 포함한다.
일부 구체예에서, 최종의 독립적인 평가 단계(하기의 단계(121))를 위한 비-중복 데이터 세트를 얻기 위해서, BLAST(Basic Local Alignment Search Tool)(Altschul et al., 1997)를 사용하여 컷오프로서 10%, 20% 또는 30% 서열 동일성을 이용하여 중복 단백질을 제거한다. 상기 구체예에서, 컷오프로서 20% 서열 동일성을 사용하면 56개의 양성 및 13,176개의 음성 단백질이 형성된다. 남은 249개의 양성 및 13,246개의 음성 단백질을, 하기 절차를 이용하여 각각 별도의 훈련 및 시험 세트로 나눈다. 구체예에 따르면, 단계(103)에서 선택되는 양성 세트의 단백질은, 계층적 군집법(Jardine and Sibson, 1968)을 이용하여, 유클리드 거리에 의해 측정되는 선택된 특징의 유사성에 기초하여 군집으로 나누는데, 이는 하기 단계(109)(특징 선별)를 참조하여 이하에 상세히 개시될 것이다. 일 구체예에서, 각 군집에 대해서 최대 군집내 거리와 최소 군집내 거리 사이의 비율 범위를 0.27 내지 0.51로 하여 151개의 군집을 얻는다. 각 군집으로부터 하나의 대표적인 단백질을 무작위로 선택하여 단계(103)에서 양성 훈련 세트를 형성한다. 음성 훈련 세트를 단계(105)에서 유사하게 선택한다. 특징 공간에 넓게 분포되고 충분히 다양하도록 하는 방식으로 훈련 세트를 선택한다. 남은 단백질을 테스트 세트로서 사용한다. 이 프로세스를 반복하여 하기 개시된 단계(111)에서 분류기를 훈련시키기 위한 5개의 상이한 데이터 세트를 구축하며, 이는 데이터 형성 전략의 안정성을 평가하는데 이용될 수 있다.
단계(103) 및 단계(105)를 병렬로 또는 순차적으로 실시할 수 있다. 각각 단계(103) 및 단계(105)에서 양성 및 음성 데이터 세트를 선택한 후에, 이 방법을 단계(109)로 진행시킨다.
특징 구축
단계(109)에서, 양성 및 음성 데이터 세트의 단백질과 관련된 특징을 맵핑한다. 구체예에서, 단계(109)는 양성 및 음성 데이터 세트의 단백질을 분석하여, 비제한적인 예로서 하기 표 1에 제시된 특징과 같은 단백질 특징을 맵핑하는 것을 포함한다. 표 1에서, 괄호 안의 수는 각 성질의 백터 차원을 나타낸다. 예를 들어, 다차원을 가지는 성질 또는 특징을 다차원 벡터로 표시할 수 있다. 예를 들어, 단백질의 극성을 21-차원 벡터 범위 또는 연속체로서 표시할 수 있으며, 표 1에서는 "극성(21)"으로 나타낸다. 단백질 특징은 상이한 체액에 대해 다를 수 있는 것으로 이해된다. 따라서, 표 1에 제시된 특징은 상이한 생체액에 대해 다를 수 있다. 단백질 크기, 아미노산 조성, 디펩티드 조성, 2차 구조, 도메인, 모티프, 용해도, 소수성, 표준화된 반데르발스 부피, 극성, 편극성, 전하, 표면 장력 및 용매 접근도와 같은 특징을 단계(103) 및 단계(105)에서 선택된 양성 및 음성 단백질 클래스에 대해 맵핑한다. 표 1에 제시된 단백질 특징은 대개 4개의 카테고리로 그룹을 나눌 수 있다: (i) 일반적인 서열 특징, 예컨대 아미노산 조성, 서열 길이 및 디펩티드 조성(Bhasin and Raghava, 2004; Reczko and Bohr, 1994); (ii) 물리화학적 성질, 예컨대 용해도, 무질서 영역(disordered region), 소수성, 표준화된 반데르발스 부피, 극성, 편극성 및 전하, (iii) 구조적 성질, 예컨대 2차 구조 정보, 용매 접근도 및 회전 반경, 및 (iv) 도메인/모티프, 예컨대 신호 펩티드, 막관통 도메인 및 트윈-아르기닌 신호 펩티드 모티프(TAF). 초기 목록에는 총 25개의 성질이 포함되며, 각 단백질 서열에 대해 1,521-차원 특징 벡터가 생긴다. 각각의 포함된 성질에 대하여, 성질을 대표하는 특징 벡터에서 이를 코딩하기 위해서 상이한 정보량이 필요하다. 예를 들어, 아미노산 조성 및 디펩티드 조성은 각각 20-차원 및 400-차원 특징 벡터로서 표시된다. 2차 구조 정보 예측(SSCP) 프로그램에 의한 알파-나선 정보, 베타-가닥 정보, 코일 정보 및 할당된 클래스를 포함하는, 2차 구조 정보의 특징 벡터는 4차원 벡터이다(Eisenhaber et al, 1996). 물리화학적 성질의 인코딩은 소수성 특징 벡터의 예에 의해 예시되어 있다: 아미노산은 소수성(C,V,L,I,M,F,W), 중성(G,A,S,T,P,H,Y), 및 극성(R,K,E,D,Q,N) 그룹으로 나눌 수 있다. 3가지 디스크립터인 조성(C), 전이(transition)(T) 및 분포(D)를 이용하여 전체 조성을 나타내는데, C는 특정기(예, 소수성기)의 아미노산의 수를 단백질 서열 중의 아미노산의 총수로 나눈 것이고(Cai et al, 2003; Cui et al, 2007; Dubchak et al, 1995); T는 단백질 서열을 따라서 아미노산기를 변화시키는 상대적 빈도수이며; D는 처음 특정 기의 아미노산의 25%, 50%, 75% 및 100%가 각각 위치하는 사슬 길이를 나타낸다. 전체적으로, 21개 성분을 이용하여 이들 3가지 디스크립터를 나타낸다: C에 대해 3, T에 대해 3, 및 D에 대해 15. 이들 절차를 따라서, 총 1,521 특징 성분을 이용하여 단백질의 특징 벡터를 구축한다.
[표 1] 혈액 분비 단백질 예측을 위한 초기 특징 리스트
Figure pct00001

일 구체예에서, 단계(109)는, 가능하게는 체액으로 분비되거나 또는 분비되지 않는 단백질의 분류에 관련된 단백질 서열 및 2차 구조에 기초하여 산정된 다수의 특징을 조사하는 것을 포함한다. 일부 특징은 단백질 분비에 관련된 것으로 알려져 있기 때문에 포함되는 반면, 다른 특징은 분류 문제의 통계학적 관련성으로 인하여 포함된다. 예를 들어, 신호 펩티드 및 막관통 도메인은 세포외 분비 단백질의 예측에 중요한 인자인 것으로 알려져 있다. 막관통 부분은 혈장막에 단백질을 고정하는 작용을 하며, 세포 표면에서 분해되어 세포외 성분이 가용성이 되게 한다. 지금까지 원핵세포에서만 관찰되는, 트윈-아르기닌(TAT) 신호 펩티드는 잘 연구된 Sec-의존성 전좌 경로와 무관하게 단백질을 주변세포질 구획 또는 세포외 환경으로 방출시키는데 사용된다(Bendtsen et al., 2005; Taylor et al., 2006). 이 모티프 정보는 폴딩 단백질의 인간 세포막을 통한 수송과 관련이 있을 수 있는지를 조사하는 연구에 포함된다. 또한, 모세관 구조는 특정 크기 이하의 단백질만이 그 벽을 통과하여 확산되어 혈류로 들어갈 수 있도록 결정하는 것으로 알려져 있다. 예를 들어, 반감기가 짧은 펩티드 호르몬을 제외하고 핼액 단백질은, 혈액 내 체류를 위해서, 신장 여과 컷오프인 45 kDa보다 크고, 직경이 최대 400 nm(동일한 종양 조건 하에서)인 모세관 누출 크기보다 작지 않아야 한다(Anderson and Anderson, 2002; Brown and Giaccia, 1998). 따라서, 단백질 크기 및 형상에 관한 정보가 초기 특징 리스트에 포함된다. 또다른 중요한 특징은 글리코실화 부위이다. 중요한 종양 바이오마커, 예컨대 전립선 특이적 항원(PSA) 및 난소암 마커 CA125를 비롯한 대부분의 혈액 분비 단백질이 글리코실화되는 것으로 관찰되었다(Bosques et ah, 2006). 구체예에서, 암과 같은 병리학적 상태의 진단을 보조하기 위해서, 단계(109)에서 제2의 특징 세트를 구축한다. 이 구체예에 따르면, 제2 특징 세트는, 암의 종류와 관련이 있는 것으로 알려진 종양과 같이, 하나 이상의 병리학적 상태에 기인하여 생체액으로 분비되는 것으로 알려진 단백질의 성질을 포함한다.
본 발명의 일 구체예에 따르면, 단계(109)에서, 문헌(Cui, 2007)에서 리뷰된 바와 같이, 혈액 분비되는 단백질의 예측과 관련될 수 있는, 단백질 기능 예측 및 단백질-단백질 상호작용 예측과 같은 각종 단백질 분류 연구에 광범위하게 사용되는 단백질 서열, 2차 구조, 및 물리화학적 성질에서 유도되는, 복수의 일반적인 특징이 초기 특징 리스트에 포함된다. 표 1은 상기 논의한 특징을 요약한다. 단계(111)과 관련하여 하기 섹션에 제시된 특징 선택 알고리즘을 이용하여 이들 특징의 분류 문제와의 실제 관련성을 평가한다.
단계(109)에서 단백질 특징을 맵핑한 후에, 이 방법을 단계(111)로 진행시킨다.
분류 및 특징 선택
단계(111)에서는, 단계(103) 및 단계(105)에서 선택된 양성 및 음성 단백질 클래스의 각 특징을 인식하기 위해서 분류기를 훈련시킨다. 단계(111)에서는, 단계(109)에서 형성된 특징 맵핑을 이용하여 분류기를 훈련시킨다. 구체예에서, 이 단계는 가우스 커늘(Gaussian kernel)(Platt, 1999; Keerthi, 2001)을 사용하여 변형 서포트 벡터 머신(SVM) 분류기를 훈련시켜 양성 훈련 데이터와 음성 훈련 데이터를 구분하는 것을 포함한다. 전형적인 SVM을, 단백질 기능 예측(Cui, 2007), 단백질-단백질 상호작용 예측(Ben-Hur and Noble, 2005), 및 단백질 세포내 위치 예측(Su et al, 2007)과 같은 데이터 발굴 및 바이오인포메틱스에서의 광범위한 패턴 인식 문제에 적용하였다.
본 발명의 구체예에 따르면, 특수화된 변형 SVM 기반의 분류기를 사용하여 생체액으로의 단백질 분비 확률을 효과적으로 계산한다. 가우스 반경 기반 함수 커늘은 선형 및 다항 커늘과 같은 SVM에서 사용되는 다른 더욱 전형적인 커늘보다 성능이 양호하다(Ben-Hur and Noble, 2005; Burbidge et al, 2001; Su et al, 2007). 따라서, 구체예에서, 가우스 커늘 SVM은 단계(111)에서 분류기를 훈련시키는데 이용된다. 본 발명의 구체예에 따르면, 변형 SVM으로의 입력물은 훈련 세트의 각 단백질에 대한 상기 1,521개 특징을 포함할 수 있으며, 분류기의 출력물은 입력 단백질을 혈액 분비 또는 비-혈액 분비로 할당한다. 출력물 독립 평가 세트를 이용하여 전체 데이터 세트에 대한 전체 단백질 할당의 정확성을 추정한다. 예측 감도 SE = TP/(TP+FN), 예측 특이성 SP = TN/(TN+FP), 전체 예측 정확성 Q=(TP+TN)/N, 정밀도 = TP/(TP+FP), 곡선하면적(AUC)(Graham, 2002) 및 매튜 상관 계수(Matthews correlation coefficient)(MCC)
Figure pct00002
를 사용하여 분류 성능을 측정한다. 여기서, TP, TN, FP, 및 FN은 각각 진양성, 진음성, 가양성 및 가음성의 수이고, N = TP + FN + TN + FP는 훈련 세트의 단백질 총수이다. 신뢰성 스코어인 R-값을 이용하여 다음과 같이 각 예측에 대한 신뢰성을 평가한다.
Figure pct00003
여기서, d는 특징 공간의 표적 단백질의 위치와 SVM 훈련을 통해 유도된 최적의 분리경계면 사이의 거리이다. R-값과 분류 정확성(정확한 분류 확률) 사이의 강한 상관관계가 있다(Hua and Sun, 2001).
도 2는 본 발명의 구체예에 따라서, 단백질의 305개 양성 샘플 및 26,962개 음성 샘플의 분석으로부터 유도된, R-값(신뢰성 스코어) 및 P-값(정확한 분류 확률) 사이의 통계학적 상관성을 예시한다. 도 2에 예시한 바와 같이, P-값(224)은, R-값(226)과 305개 양성 단백질 및 26,962개 음성 단백질의 분석에 기초한 실제 분류 정확성 사이의 통계학적 상관성(222)으로부터 유도된, 예상되는 분류 정확성을 나타내기 위해 도입된다. 도 2에 도시된 P-값(224)은 R-값(226)과 305개 양성 단백질 샘플 및 26,962개 음성 단백질 샘플의 분석에 기초한 실제 분류 정확성 사이의 통계학적 상관성으로부터 유도된 예상되는 분류 정확성(정확한 분류 확률)이다. 도 2에 도시된 R-값(226)은 SVM과 같은 분류기의 정확성을 추정하기 위한 스코어링 함수에 의해 계산된다.
일 구체예에서, 단계(112) 및 단계(113)에서는 단계(111)에서 초기에 훈련된 각 분류기의 성능에 기초하여, 반복 특징 제거(RFE)라고 하는 특징 선택 프로세스(Tang et al, 2007)를 이용하여 분류 목표와 무관하거나 또는 무시할만한 특징을 제거한다.
단계(112)에서, 맵핑된 특징, 즉 단계(109)에서 구축된 특징이 정확하고 관련성이 있는지를 결정한다. 특징의 정확성 및 관련성을 후술한다. 만약 그렇다면, 이 방법(100)을 단계(115)로 진행시킨다. 만약 그렇지 않다면, 방법(100)을 최소한의 관련 특징이 제거되는 단계(113)으로 진행시킨다.
일 구체예에서, 단백질 특징의 중요성 또는 관련성은 특징과 관계된 분류 정확성을 검사하여 단계(112)에서 결정한다. 예를 들어, 하기와 같이 정의되는 Moreau-Broto 자기상관 디스크립터가 아미노산의 소수성 지수에 기초하여 막 단백질의 예측에 유용한 것으로 보고되고 있다:
Figure pct00004
문헌[Feng and Zhang(2000)]은 아미노산의 소수성 지수에 기초하여 막 단백질 종류를 예측하는 한가지 메카니즘을 개시한다. 그러나, 본 발명의 일 구체예는 일부 특징이 분류 정확성에 기여하지 않는다는 것을 보여준다. 예를 들어, 상기 정의된 Moreau-Broto 자기상관 디스크립터(여기서 d는 자기상관의 시차(lag)이고, P i P i+d 는 각각 위치 ii + d에서의 아미노산의 소수성임)를 이용하여, 아미노산의 소수성이 정확한 특징인 것으로 밝혀지지 않았다. 따라서, 단계(113)에서 초기 특징 리스트로부터 RFE 절차를 통해 이를 제거한다.
RFE 절차에 의해 선택되는 바와 같은 혈액 분비 단백질을 특성화하는데 중요한 단백질 특징은 하기 표 2에 제시되어 있다. 표 2에서, 단백질 특징 설명 후의 수는 특징을 나타내는 상응하는 벡터의 마지막 차원을 나타낸다. 예를 들어 "전하 분포 15"는 단백질 전하 분포를 나타내는 벡터의 15번째 차원을 나타낸다. 또한, "전하 분포 15"는 단백질에 대한 전하 값의 분포가 적어도 15차원을 가지는 다차원 벡터에 의해 표시됨을 추가로 나타낸다. 상이한 생체액에 대한 단백질 특징 및 상응하는 벡터는 다를 수 있음이 이해된다. 예를 들어, 전하 분포는 일부 혈액 이외의 생체액에서 10차원 벡터에 의해서만 표시될 수 있다. 마찬가지로, 표 2에 제시된 순위는 단계(103) 및 단계(105)에서 상이한 양성 및 음성 단백질 세트의 선택에 따라서 달라질 수 있다.
단계(113)에서, 단계(111)에서 결정된 상대적 정확성 및 관련성에 기초하여 최소의 중요한 특징을 제거한다. 본 발명의 구체예에 따라서, 단계(112) 및 단계(113)에서 공통 스코어링법과 유전자 순위 일관성 평가에 기초하여 무관한 특징을 반복적으로 제거한다. 문헌[Tang et al.(2007)]에는 이를 실시하는 한가지 방법이 개시되어 있다. 물론, 다른 방법도 존재하며 실시할 수 있다. 단계(113)에서 특징을 제거한 후에, 단계(111)의 또 다른 반복(14)을 실시하여, 현재 감소된 특징 세트를 이용하여 분류기를 재훈련시킬 수 있다. 구체적으로, 각 반복 단계(112) 및 단계(113)에서, 무작위로 샘플링된 훈련 데이터에 기초하여 RFE로 제시된 최저 스코어(최소 순위)를 가지는 특징을 특징 리스트로부터 제거한다. 본질적으로 다수결법을 이용하여 무작위하게 선택된 상이한 샘플의 가능한 차이를 극복한다. 반복 단계(112) 내지 단계(114)의 반복 과정을, 분류 성능을 잃지 않고 다루기 쉬운 감소된 특징 세트가 얻어질 때까지 계속하여, 단계(115)에서 훈련된 분류기를 형성한다. 반복 단계(112) 내지 단계(114)의 목표는 정확한 분류를 실시할 수 있도록 초기 특징 세트를 최소 특징 세트로 줄이는 것이다.
[표 2] RFE 방법에 의해 선택되는 혈액 분비 단백질을 특성화하는데 중요한 특징
Figure pct00005
* 더욱 상세한 설명에 대해서는 특징 구축 섹션을 참조한다. 예를 들어, "전하 분포 15"는 전하 분포를 나타내는 15차원 벡터의 마지막 차원을 나타낸다.
예시적인 훈련된 서포트 벡터 머신(SVM) 구체예
단계(115)에서, 일 구체예에서 서포트 벡터 머신(SVM) 분류기의 훈련된 버젼은, 각각 단계(103) 및 단계(105)로부터 얻은 제공된 양성 및 음성 훈련 세트에 기초하여 1,521개 단백질 특징의 초기 리스트를 이용하여 생성한다. 최상의 전통적인 분류기의 성능은 47개 양성 및 3,296개 음성 샘플을 함유하는 독립적 평가 세트를 사용하여 상기 정의한 바와 같은 전체 정확성으로 측정한다. 전통적인 분류기의 예측 성능은 오로지 대략 40% 정확도이며, 이는 명백하게 바람직하지 않은 결과이다. 이러한 낮은 정확도는, 전통적인 분류기가 SVM 분류기와 같은 분류기에 대한 분류기 훈련을 복잡하게 하고 분류와 무관한 다수의 단백질을 사용한다는 점에 대부분 기인한다. 또한, 여러 파라미터를 포함하는 거대 분류기에 의한 데이터의 오버피팅(over-fitting)이 부정확성의 또 다른 원인일 수 있다. 따라서, 분류기의 성능을 최적화하기 위해 특징 선택을 실시하여 관련성이 더 적은 특징 일부를 제거하는 것이 바람직하다. 본 발명의 구체예에서, SVM 분류기의 변형 버젼인 훈련된 SVM 기반의 분류기를 생성하여 단백질 클래스의 특징을 인식하여, 분류기 성능을 향상시킨다.
구체예에서, 단계(109) 내지 단계(111)에 대하여 상기 요약한 특징 선택 방법을 이용하여, 총 85개 특징을 선별하며, 이는 변형 SVM 분류기의 교차 검증 성능을 향상시킨다(Tang et al, 2007). 교차 검증 성능 향상은 하기 표 3에 제시되어 있다. 하기 특징은 분류를 위한 가장 중요한 단백질 특징 중에서 발견된다. 이들 단백질 특징은, 상위 20개 특징으로 평가되는 막관통 도메인, 전하, TatP 모티프, 용해도, 극성, 신호 펩티드, 소수성, O-결합 글리코실화 모티프 및 2차 구조 정보을 포함하나, 이에 한정되는 것은 아니다. 이러한 관찰 결과는, 예측에 있어서 상위 3개 특징으로 평가되는 TatP 모티프가 단계(121)에서 생성되는 예측 결과에 실질적으로 기여하는 것으로 밝혀진 것 외에는, 분비 단백질의 일반적인 이해 내용과 일치하는데, 여기서, TatP는 원핵세포에서 주변세포질 구획 또는 세포외 환경으로 단백질을 내보내는 데 사용되는 것으로 알려져 있다(Bendtsen et al, 2005; Taylor et al, 2006). 이는 진핵세포에서 단백질 분비와 TatP 모티프를 연결하는 신규한 발견을 나타낸다.
구체예에서, 85개 선택된 단백질 특징을 기초로 하여, 5개의 신규한 SVM 기반의 분류기를 단계(111)에서 훈련시켜 단계(115)에서 훈련된 분류기를 형성한다. 이후, 동일한 독립적 평가 세트에 대해 감소된 특징 리스트를 이용하여 이들 훈련된 SVM 기반의 분류기의 성능을 시험한다. 하기 표 5에 제시된 바와 같이, 이들 5개의 분류기에 의한 성능 수준은 일반적으로 일관되며, 혈액 분비 단백질에 대해 87.2% 내지 93.7%이고 혈액 이외의 분비 단백질에 대해 98.2% 내지 98.6%이다. 성능 예측의 정확성, 매튜 상관 계수(MCC) 및 수신자 작동 특성 면적(AUC) 값의 평균값은 각각 44.6%, 0.63, 및 0.94이다. 표 3에 제시된 바와 같이, AUC 값은 초기 성능 측정값과 일치한다. 흥미롭게도, 정확도 및 MCC는 비교적 낮은 것으로 보인다. MCC 값은 비교 평가 세트에 따라서 실질적으로 계속 변할 수 있으며, 이것은 알려진 일반적인 문제이다. 예를 들어, 이 문제는 문헌[Klee and Sosa (2007) 및 Smialowski et al.(2007)]에 개시되어 있다. 비교적 낮은 정확성 및 MCC 값은 양성 및 음성 평가 세트 사이의 크기 비대칭에 부분적으로 기인하는데, 이는 시스템 성능의 과소평가를 유발한다. 구체예에서, 이것은 양성 세트의 크기를 증가시켜 향상시킬 수 있다. 하기 표 3에 제시된 바와 같이, 특이성을 높게 유지하면서, 이전에 알려지지 않은 가능한 많은 혈액 분비 단백질이 포함될 수 있도록 최상 감도를 가지는 분류기를 선택한다.
[표 3] 훈련, 시험 및 독립적 평가 세트에 있어서 혈액 분비 단백질 및 비혈액 분비 단백질의 예측에 대한 분류기의 성능 통계학
Figure pct00006
단백질 세포외 분비 예측을 위한 가장 많이 인용되는 전통적인 방법인 WolF PSORT(Horton et al, 2007)을 동일한 평가 세트에 적용하면, 0.37의 MCC 값과 81.0% 예측 정확성이 얻어진다. 이는, WolF PSORT를 포함하는 전통적인 단백질 분비 예측 방법이 세포외 분비 및 혈류로의 분비 둘다가 고려되는 문제를 해결하기 위해 고안된 것이 아니기 때문에 놀라운 일이 아니다.
일부 구체예에서, 단계(115)에서 생성된 훈련된 분류기는 Swiss-Prot 데이터베이스에서 모든 인간 단백질에 대한 스크리닝 시험을 통해 추가로 평가되며, 이는 거대 데이터 세트에 적용시 예측 성능을 더욱 현실적으로 추정할 수 있게 한다. 이 예시적 구체예에서, 20,832개 인간 단백질을 수집한다. 이 중 1,563개를 분비 단백질로 주석을 달고 추가의 ~750개 단백질은 신호 펩티드 및 주석 달린 세포내 위치를 기초로 분비와 관련이 있는 것으로 간주된다(Welsh et al., 2003). 하기 표 4에 제시된 바와 같이, 단계(115)에서 생성된 훈련된 분류기는 20,832개의 19.5%인 4,063개 단백질을 혈액 분비 단백질로서 예측하는데, 이는 분비 단백질 및 혈액 단백질의 총(추정 및 보고된) 수와 대개 일치한다(Welsh et al., 2003). 이들 모든 결과가 시사하는 바는, 249개 양성 및 13,244개 음성 단백질의 초기 세트가 전체 단백질 공간을 통해 관련 단백질을 양호하게 나타낸다는 것이다.
[표 4] 혈액 분비 단백질에 대한 Swiss-Prot에서의 모든 인간 단백질의 스크리닝 결과
Figure pct00007
상기 시험 이외에, 각종 질병으로 인해 인간 혈액에서 차등 발현되는 240종의 단백질 리스트를 공개된 프로테옴 연구의 광범위한 문헌 조사에 의해 컴파일할 수 있다. 이들 연구는 14종의 인간 조직, 예컨대 췌장, 난소, 흑색종, 폐, 전립선, 위, 간, 결장, 비인두, 신장, 자궁경부, 뇌, 유방 및 전립선에서의 다발성 암을 포괄한다. 240개 단백질 중에서, 122개는 305개 혈액 분비 단백질의 최초 컬렉션에 포함되지 않으며, 이의 명칭은 표 6에 제시되어 있다. 이들 122개 단백질이 혈액 분비 단백질의 초기 컬렉션에 포함되지 않는 주요 이유는 다음과 같다: (1) Swiss-Prot에서의 이들 단백질의 주석 오류, 및 (2) 초기 단백질 리스트를 수집한 프로테옴 연구에 의한 이들의 검출 실패. 각 연구에 제시된 바와 같이, 이들 모든 122개 단백질은 정상 조직과 종양 조직을 식별하거나 또는 특정 암의 상이한 발생 단계를 구별하기 위해 특정 암의 혈액내 유효 바이오마커로서 사용될 수 있다. 예를 들어, 이 방법이 몇몇 그룹에 의해 사용되었다: 유방암에 대해서는 열충격 단백질 베타-1를 사용한 Rui et al. (2003), 흑색종에 대해서 캅텝신 D를 사용한 Pardo et al.(2007), 신장암에 대해서 L-락테이트 데히드로게나제를 사용한 Unwin et al (2003) 및 전립선 암에 대해서 전립선 특이적 항원(PSA)을 사용한 Bradford et al (2006). 122개 중 97개(79.5%) 이상의 단백질이 정확하게 예측되며, 남은 25개 단백질은 공개된 문헌과 불일치하는 예측 결과를 나타낸다(이들 122개 단백질의 명칭은 표 4에 제시되어 있다). 단백질의 다른 생체액으로의 분비를 예측하기 위한 최소 정확도는 75% 이상의 정확도이고, 바람직하게는 80%를 초과하며, 혈액 및 소변에 대하여 본원에 개시된 정확도 이하의 범위이다.
분류기를 단계(115)에서 생성한 후에, 이 방법을 단계(119)로 진행시킨다.
단계(119)에서, 하나 이상의 단백질 서열을 수신한다. 구체예에서, 복수의 사용자 입력 단백질 서열을 이 단계에서 수신할 수 있다. 본 발명의 구체예에 따르면, 생체액으로부터 수집한 단백질에 상응하는 단백질 서열을 단계(119)에서 FASTA 포맷으로 수신한다. FASTA 포맷의 단백질 서열은 단일 라인 설명으로 시작하여, 서열 데이터 라인이 후속된다. FASTA 포맷은 뉴클레오티드 서열 또는 펩티드 서열을 나타내는 텍스트 기반의 포맷으로서, 한문자 코드를 사용하여 염기쌍 또는 아미노산을 나타낸다. FASTA 포맷에서는 단백질 서열 앞에 서열명과 코멘트를 달 수 있다. 설명 라인은 제1 컬럼에서 초과(">") 기호에 의해 서열 데이터와 구별한다. FASTA-포맷 서열은 통상적으로 80 문자 길이보다 짧은 텍스트 라인으로 이루어진다.
본 발명의 다른 구체예에서, 생체액으로부터 수집한 단백질에 상응하는 단백질 서열은, 비제한적인 예로서 알파벳 문자만 포함하는 "미처리(raw)" 텍스트 포맷을 포함하는 다른 공지된 포맷으로 수신한다. 본 발명의 구체예에 따르면, 미처리 텍스트 포맷의 수신된 단백질 서열에 있어서 임의의 화이트 스페이스, 예컨대 여백, 캐리지 리턴, 또는 TAB 문자는 무시된다.
구체예에서, 단계(119)의 하나 이상의 단백질 서열을, 기지의 단백질 서열 포맷과의 순응도를 검사하기 위해 파스(parse)할 수 있다. 유효 단백질 서열이 수신된 경우에는, 이 방법을 단계(120)으로 진행한다.
단계(120)에서, 수신된 단백질 서열에 대한 벡터를 형성한다. 각 단백질 서열을 실수 벡터로 제시한다. 따라서, 범주 속성이 있는 경우에는 단계(120)의 수 데이터로 전환시킨다. 이 단계에서, 단백질 속성 스케일링을 또한 실시한다. 단계(121)에서 훈련된 분류기를 적용하기 전에 속성 스케일링을 실시하여 더 큰 수치 범위의 속성이 더 작은 수치 범위의 속성을 지배하지 않도록 한다. 단계(120)에서의 스케일링의 또 다른 이유는 단계(121)의 분비 확률 계산 과정에서 수치적 곤란을 피하기 위한 것이다. 분류기의 커늘 값은 일반적으로 특징 벡터의 내적에 따라 달라지기 때문에, (즉, 선형 커늘 및 다항 커늘) 거대 속성값은 수치 문제를 일으킬 수 있다. 벡터 형성 및 스케일링 후에, 방법(100)을 단계(121)에서 계속 진행한다.
단계(121)에서는, 단계(115)에서 생성된 훈련된 분류기를 사용하여 단계(119)에서 수신된 단백질 서열에 상응하는 단백질이 분비 단백질일 확률을 결정(즉, 클래스를 예측)한다.
하기 섹션에서는 단계(121)에서 실시된 예측의 몇몇 예시적인 구체예를 제공한다. 98개 분비 단백질 및 6,601개 비-분비 인간 단백질을 포함하는 거대 시험 세트를 사용한 훈련된 분류기의 한 구현예에 있어서, 분류기는 ~90% 예측 감도 및 ~98% 예측 특이성을 실현한다. 감도는 진양성과 가음성의 수에 대한 진양성의 수의 비율이다. 특이성은 진양성과 가양성의 수에 대한 진양성의 수의 비율이다. 몇몇 추가의 데이터 세트를 사용하여 분류기의 성능을 추가로 평가할 수 있다. 각종 암으로 인하여 인간 혈액에서 비정상적으로 높은 풍부도로 발견되는 122개 단백질 세트를 사용한 훈련된 분류기의 구현예에 있어서, 분류기 기반의 컴퓨터 프로그램은 62가지를 혈액 분비 단백질로서 예측한다. 마이크로어레이 유전자 발현 연구를 통해 검출된 위암 및 폐암 조직에서 비정상적으로 높게 발현되는 유전자에 이 프로그램을 적용하면 각각 13개 및 31개 단백질이 혈액 분비되는 것으로 예측되는데, 이는 각각 2종의 암에 대한 유효 바이오마커로서 작용할 수 있음을 나타내는 것이다. 본 발명의 일부 구현예는 방법(100)이 질병 바이오마커 발견을 위해 게놈 및 프로테옴 연구를 결부시키는 매우 유용한 정보를 제공할 수 있음을 입증한다.
본 발명의 일 구현예에 있어서, 문헌에 보고된 바와 같은 관련 증거를 이용하여 개발한 모델을 부분적으로 기반으로 하는 122개 이상의 단백질에서 예측을 실시한다. 문헌으로부터 얻은 지원 증거를 이용한 정확한 예측 중에서, 종양 괴사 인자, 테나신, C-C 모티프 케모카인 3 및 인슐린 유사 성장 인자 결합 단백질 7이 단계(121)에서 암 환자의 혈청 중에서 상승된 유전자 발현 수준으로 검출되며, 이를 Swiss-Prot 및 SPD 데이터베이스에서 분비 단백질로 주석을 단다. 웹 기반의 SPD는 문헌[Chen et al. (2005)]에 개시되어 있다. 일부 막 단백질, 예컨대 칼신테닌-1, 면역글로불린 알파쇄 C, 및 간세포 성장 인자 수용체가 단계(122)에서 분비 단백질로 예측되지만, 이들 예측은 공개된 문헌에서는 단지 부분적 지원 증거를 가지는 것으로 간주될 수 있는데, 그 이유는 이들 단백질이 분비 또는 다른 수단, 예컨대 막 관련 단백질의 단백 분해에 의해 세포 밖에서 발견된다는 증거가 있기 때문이다. 이 단계에서의 일부 예측은 또한 주석 달린 단백질 기능에 의해 부분적으로 지지될 수 있다. 예를 들어, 트롬보스폰딘 1 전구체는 세포 대 세포 및 세포 대 매트릭스 상호작용을 매개하는 부착성 당단백질로서 개시되어 있으므로, 세포 밖에서 기능하는 것으로 예상된다. 일 구체예에서, 분비 단백질로 주석 달려 있지만, 분비에 대한 관련성을 보여주는 임의의 증거 없이 비-혈액 분비 또는 혈액 분비 단백질로 예측되는 단백질, 예컨대 프로필린-1 및 카본산 안하이드라제 1은 "문헌과 일치하지 않는 것"으로 간주된다.
본 발명의 일 구체예에서, SVM 기반의 분류기는, 마이크로어레이 유전자 발현 실험에 의해 검출되는 비정상적으로 높게 발현되는 유전자가 그 단백질을 혈류로 분비시키는지 여부를 예측하기 위해서 단계(111) 동안 추가로 훈련시킨다. 암과 같은 각종 병리학적 상태 환자에서 비정상적으로 높은 발현 수준을 나타내는 다수의 유전자가 연구에서 확인되었다. 이러한 지식을 갖추고, SVM 기반의 분류기를 단계(121)에서 사용하여 일부 단백질이 환자의 혈류로 방출될 확률을 계산한 것을 기초로 각종 암을 진단할 수 있다. 구체예에서, 암과 같은 병리학적 상태를 진단하기 위해서, 단계(111)에서, 상기 개시된 단계(109)에서 구축된 하나 이상의 병리학적 상태에 상응하는 제2 특징 세트를 이용할 수 있다. 표 7에 제시된 바와 같이, 각각 위암 및 폐암에 대한 연구로부터 57종 유전자 중 총 26종이 정상의 비암성 세포와 비교하여 상향 및 하향 조절된 것을 포함하는 비정상적 발현 수준을 나타내는 것으로 확인되었다. 위암에 대한 연구는 문헌[Kim et al. (2002)]에 개시되어 있고, 폐암에 대한 연구는 문헌[Lo et al. (2007)]에 개시되어 있다. 예를 들어, 문헌[Lo et al. (2007)]의 도 4(B)는 정상 조직과 비교하여 편평 세포 암종(SqCC)에서 유전자 발현 변경의 계층적 군집화를 예시한다. 문헌[Lo et al. (2007)]에 예시된 바와 같이, 유전자들은 암 진단용 또는 상이한 암 단계를 구별하기 위한 유효 마커로서 확인되었다. 본 발명의 일 구체예에서, 코딩된 단백질이 혈액 분비되는 것으로 예측되고 따라서 상응하는 암에 대한 바이오마커로서 작용할 가능성이 있는지를 조사하기 위해서 문헌[Lo et al. (2007)]의 표 2에 제시된 각 유전자에 대해 분류기를 실행한다. 예측 결과는 각각 26종 및 57종 단백질 중 13종 및 31종 단백질이 혈류로 분비될 수 있다는 것을 보여준다. 예를 들어, 보체 인자 D는 CFD 유전자에 의해 코딩된다. 위암 세포에 의한 인자 D 분비의 정량적 분석에 따르면(Kitano and Kitamura, 2002), 위 조직에서 분비하는 인자 D는 혈액 순환시 인자 D 수준에 기여하는 것으로 생각되는데, 이는 예측과 일치한다. 또 다른 예는 위암 환자에서 발현 상승되는 유전자 MATE1에 의해 코딩되는 다약물 독소 유출성 단백질 2이다. 이것은 테트라에틸렌암모늄(TEA), 1-메틸-4-페닐피리디늄(MPP), 시메티딘 및 강시클로비르에 대한 용질 수송자로서, 소변 및 담즙으로 독성 유기 양이온(OC)을 직접 수송한다(Otsuka et al., 2005). MATE 패밀리 구성원이 혈관 내피 세포를 포함하는 각종 조직 세포 표면에서 관찰된다. 예를 들어, 문헌[Pardo et al. (2007)]은 혈청 중 gp100 및 카텝신 D의 확인과 포도막 흑색종 분비단백질(secretome)로부터 바이오마커의 발견을 개시한다. 따라서, 혈액 분비되는 이들 단백질 예측은 이전 연구와 일치한다.
구체예에 따르면, 상기 제시된 복수의 데이터 세트에 대한 결과를 기초로 하여, SVM 기반의 분류기에 의해 단계(121)에서 생성된 예측의 전체 예측 정확성은 79.5% 내지 98.1% 범위이며, 독립적 평가 시험과 특별한 혈액 단백질 시험에 대해서 기지의 혈액 분비 단백질의 80% 이상이 정확하게 예측된다. 독립적 음성 평가 시험으로부터, 가양성율은 오분류된 비-혈액 분비 단백질의 적당한 비율인 ~10%인 것으로 확인되며, 이는 낮은 정확도와 관련된 의구심을 경감시키는데 도움이 된다. 단계(121)에서 생성된 예측에 대한 예측 정확성은 상이한 데이터 세트에서 양호한 일관도를 나타낸다.
몇몇 인자가 예측 정확성에 영향을 줄 수 있다는 점에 주목해야 한다. 하나의 인자는 SVM 기반의 분류기를 훈련시키기 위해 사용되는 단백질 샘플의 다양성이다. 체액 분비 단백질의 모든 가능한 종류가 훈련 세트에서 적당하게 제시되는 것은 아닐 수 있다. 예를 들어, 관련 단백질의 정확한 분리, 검출 및 확인에 대한 프로테옴 기술에 있어서의 현재 제약이 상대적으로 덜 풍부한(혈청중 ng/ml 이하) 일부 단백질이 매우 풍부한 천연 혈액 단백질(혈청중 mg/ml 초과)의 존재 하에서는 검출되지 않는 이유를 설명한다. 이러한 분명한 차이는 혈중 풍부성이 낮은 단백질에 초점을 맞춘 추가의 암 연구를 통해서 확인된 더욱 많은 단백질 축적으로 극복할 수 있다. 또 다른 가능한 문제는 단백질 분비 메카니즘이 단계(115)에서 생성된 훈련된 분류기에서 사용된 구조적 및 물리화학적 디스크립터에 의해 충분히 표시되지 않을 수 있다는 것이다. 추가의 더욱 유익한 디스크립터(특징)를 단계(109) 및 단계(114)의 반복을 통해서 맵핑하여 이 문제를 개선할 수 있다. 단계(121)에서 단백질 클래스를 예측한 후에, 예측에 상응하는 출력 서열을 형성하고 이 방법을 단계(123)에서 계속 진행한다.
단계(123)에서, 단계(121)에서 형성된 출력 서열에 기초하여, R-값 및 P-값이 제시되고 예측 결과가 반송된다. 일 구체예에 따르면, R-값, P-값 및 예측 결과가 도 6 및 7에 도시된 그래픽 사용자 인터페이스(GUI)(300)와 같은 그래픽 사용자 인터페이스(GUI)에 제시되며, 이는 하기에 상세히 설명된다. 다른 구체예에서, 예측 결과는 GUI에서 챠트, 표, 프린트 출력, 이메일 알림, 음성메일 메시지로서 또는 아이콘(즉, 적색 그래픽 아이콘은 음성 결과를 녹색 아이콘은 양성 결과를 나타낸다)으로서 표시될 수 있다. 본 발명의 일 구체예에서, 예측 결과는 상응하는 R-값 및 P-값 없이 만들어진 자체작동형 모드로 표시될 수 있다. 단계(123)에서 결과가 표시된 후에, 방법(100)은 종료된다.
상기한 방법(100)의 단계들의 설명이 상기 논의에 기초하여 단백질의 혈류로의 분비를 예측하는 것과 관련된 구체예들을 논의하고 있지만, 방법(100)의 단계들은 비제한적인 예로서 타액, 소변, 척수액, 정액, 질액, 양수, 치은열구액 및 안구액과 같은 추가의 체액에 적용될 수 있는 것으로 이해된다. 특히, 상기 단계(103) 내지 단계(123)를 채용하여 혈액 이외의 다른 체액으로의 단백질의 분비를 예측할 수 있다. 양성의 분비된 클래스의 단백질을 선택하는 단계; 음성 세트에 대한 대표적인 단백질을 선택하는 단계; 단백질 특징들을 맵핑하여 특징 세트를 구축하는 단계; 분류기를 훈려하여 단백질 클래스의 특징을 인식하는 단계; 맵핑된 특징의 정확성 및 관련성을 결정하는 단계; 최소 중요 특징을 제거하여 분류기를 재훈련시키는 단계; 단백질 서열을 수신하는 단계; 벡터 형성 및 스케일링 단계; 수신된 단백질 서열에 대한 클래스를 예측하는 단계; 및 수신된 단백질 서열에 대한 예측 결과를 반송하는 단계를 혈액 이외의 다른 생체액의 분비를 예측하는 방법으로 쉽게 개조할 수 있다. 방법(100)을 소변에 대한 단백질 분석에 적용하는 예시적인 구현예가 하기 섹션에 제시되어 있다.
[표 5] 혈액 분비 단백질 및 비-혈액 분비 단백질 독립 평가 세트의 예측에 대한 5종 분류기의 성능 통계학
Figure pct00008
*시그마: 커늘 폭; C: 훈련 오차와 경계값 사이에서 상쇄되는 벌점 파라미터. 각 분류기는 0.05 내지 1000의 파라미터 시그마의 스캐닝을 통해 최상의 감도를 기초로 하여 얻는다.
[표 6] SVM 예측의 상태 및 차등 발현되는 혈청 단백질 목록. + 기호 및 - 기호는 단백질이 각각 혈액 분비 단백질 및 비-혈액 분비 단백질로서 예측됨을 나타낸다. 결과는 4개 클래스 중 하나로 그 범주를 나눈다. C(일치), 문헌에 주석달린 혈액 분비 단백질이 정확하게 예측되고; PC(부분 일치), 혈액 분비되는지 또는 그렇지 않은지를 나타내는 일부 증거를 가지는 단백질이 정확하게 예측되며; NC(불일치), 예측 결과가 주석과 일치하지 않는다.
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
Figure pct00019
[표 7] 차등 발현되는 유전자(정상 세포와 비교하여 암 세포에서 상향 조절 및 하향 조절되는 유전자 모두)에 의해 코딩되는 단백질 목록과 SVM 예측 상태. 기호 + 및 -는 각각 단백질이 혈액 분비 및 비-혈액 분비로 예측됨을 나타낸다(R: R-값, P: P-값).
Figure pct00020
Figure pct00021

Figure pct00022
Figure pct00023

소변에 대한 단백질 분석 방법의 예시적인 구현예
하기 섹션에서는 소변 분석에 적합한 방법(100)의 구현예를 설명한다. 간결하게 하기 위해서, 상기 설명과 비교하여 구체예 특이적인 차이만을 하기에 설명한다.
신장을 통한 혈액 여과로 소변이 형성되기 때문에, 혈액 중 일부 단백질이 신장을 통과하여 소변으로 배출될 수 있다. 그 결과, 소변 단백질은 신장 및 비뇨생식기의 병태를 반영할 뿐 아니라, 신장으로부터 떨어져 있는 다른 장기의 병태도 반영한다(Barratt and Topham, 2007). 상기 개시된 방법(100)을 소변에 적용하여 이병 조직의 어떤 단백질이 소변으로 배출될 수 있는지를 예측하기 위해 분류기를 훈련시켰다. 방법(100)을 소변에 적용하면 이병 조직에서 비정상 발현되는 것으로 검출되는 단백질과 소변의 유효 단백질/펩티드 마커의 상관관계를 얻을 수 있으며, 이는 소변 샘플에 대해 각종 프로테옴 기술을 사용하여 검사할 수 있다.
상기 논의된 구현예에서와 같이, 소변 분석에 대한 구현예를 단계(103) 및 단계(105)로 개시한다.
단계(103)에서, 소변 샘플에서 발견되는 단백질 세트는 양성 분비 세트로서 수집된다. 방법(100)의 구현시, 소변 샘플에서 확인되는 1,500 단백질 세트를 사용하였다. 이들 1,500 단백질은 문헌[Adachi et al. (2006)]에 논의되어 있다. 구체예에서, 단계(103)는 양성 세트에 대부분의 비뇨기 프로테옴 연구에서 실험적으로 인증된 비뇨기 단백질을 포함시키는 것을 포함한다.
이전 소변 프로테옴 연구에서 양성 세트로서 확인된 단백질을 사용하여, SVM 기반의 분류기를, 단백질 특성과 관련된 특징값을 이용하여 음성 데이터세트로부터 양성 데이터세트를 분리하는데 사용하였다.
단계(105)에서, 또 다른 단백질 세트를 음성 세트용으로 수집한다. 단계(105)에서 수집된 대표적인 음성 세트는 소변으로 분비되지 않는 것으로 생각되는 단백질을 포함한다. 구체예에서, 단계(105)는 양성 훈련 데이터 세트 단백질이 속하지 않는 Pfam 패밀리로부터 형성된 단백질 목록을 수집한다. 그 결과, 2,627개 단백질 및 2,148개 단백질을 각각 훈련 및 시험 세트를 위해 형성하였다.
상기 논의된 바와 같이, 단계(109)를 실시하여 각 단계(103) 및 단계(105)에서 선택된 음성 세트를 양성 세트와 양호하게 구별할 수 있는 비뇨기 단백질의 단백질 특징을 맵핑한다. 구체예에서, 단백질이 혈액으로부터 소변으로 어떻게 배출되는지에 관한 일반적인 지식은 단계(109)에서 실시되는 특징 맵핑에 있어서 유용한 안내를 제공한다. 구체예에서, 승인 ID를 가지는 Swiss-Prot 데이터베이스로부터의 1,313종 단백질을 이용하여 단계(109)를 실시한다. 또 다른 구체예에서, 3개 비뇨기 프로테옴 연구에서 얻은 데이터(Pieper et al, 2004; Castagna et al, 2005; Wang et al, 2006)를 단계(109)에서 이용하여 460종의 비중첩 단백질(즉, 양성 세트 또는 음성 세트에 존재하지만, 양쪽 세트 둘다에는 존재하지 않는 단백질)을 얻는다.
일 구체예에서, 단계(109)는 Swiss-Prot 데이터베이스로부터 얻은 특징을 검색하는 것을 포함한다. 방법(100)의 일 구현예에 있어서, 18개 특징을 나타내는 243개 특징값을 이 단계에서 수집한다. 18개 특징을 나타내는 243개 특징값은 혈액에 대해 발견되는 특징과 다르며, 소변 관련 특징은 구역 내에서 계산되고 상기 표 1에 제시된 것과 유사한 외부 도구 및 자원을 이용하여 예측하였다. 243개 특징값은 하기 표 8에 제시되어 있다. 상기 개시한 바와 같이, 단계(109)는 각 특징값에 대한 계산을 실시하여 그 순위를 결정하는 것을 포함한다. 비뇨기 단백질에 대해 순위를 매긴 단백질 특징이 하기 표 11에 제시되어 있다.
[표 8] 소변 관련 특징에 대한 243개의 단백질 특징값
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
단계(111)에서, 일반적으로 상기 개시한 바와 같이, 소변으로 분비되는 단백질 클래스를 인식하도록 분류기를 훈련시킨다. 일 구현예에 있어서, 방사형 기저 함수(RBF) 커늘 SVM 분류기를 단계(111)에서 사용하여 비-비뇨기 단백질에 대한 비뇨기 단백질을 분류하도록 분류기를 훈련시킬 수 있다. 구현예에 있어서, 이 단계에서 주석 및 시각화를 위해 데이터베이스로 기능적 강화 분석을, 배출 단백질로 예측되는 480종에 대해 실시할 수 있으며, 인간 단백질을 이용하여 기능적 주석 군집화 분석을 실시할 수 있다. 이 그룹에 대한 전체 강화 스코어는 각 군집화를 위한 EASE 소프트웨어 어플리케이션으로부터의 강화 점수로 측정하였다. 이들 단계를 실시하기 위한 메카니즘은 문헌[Dennis et al. (2003) 및 Huang et al. (2009)]에 개시되어 있다.
일 구현예에서, 단계(111)에서 분류기를 훈련시키는데 사용되는 배출된 단백질의 가장 중요한 특징은 신호 펩티드의 존재이다. 본원에서 사용되는 바와 같이, 신호 펩티드는 나중에 분해될 수 있는 단백질 상에서의 임의의 N-말단 아미노산을 의미한다. 다른 관련 특징은 2차 구조를 포함한다. 또한, 알파 정보의 백분율과 같이 2차 구조를 나타내는 몇몇 특징 값이 관련이 있었다.
단계(111)는 또한 KO-기반의 주석 시스템(KOBAS)과 함께 KEGG 오솔로지(KO) 기반의 주석 시스템의 사용을 포함할 수 있다. 이를 실현하는 메카니즘은 문헌[Mao et al. (2005) 및 Wu et al. (2006)]에 개시되어 있다. 이 방법은 배출된 것으로 예측되는 단백질에 대해 통계학적으로 강화된 경로 및 불충분하게 나타나는 경로를 발견하여 분류기를 훈련시키려는 것이다. KOBAS 시스템은 서열 세트를 취하여 BLAST 유사성을 기초로 KEGG 오솔로지 항으로 주석을 단다. 주석을 단 KO 항을 모든 인간 단백질에 대해 비교할 수 있다. 조성 백분율의 2배 이상의 변화가 생기면, 이 경로는 강화되거나 또는 불충분하게 나타나는 것으로 간주된다. 소변의 경우, 배출 단백질의 상위 랭킹 특징에는 단백질 전하가 있다. 따라서, 어떤 단백질이 신장에서 사구체벽을 통과하여 소변으로 필터링되는지를 결정하는 인자로서 단백질의 전하를 인식하도록 분류기를 훈련시킬 수 있다. 그러나, 일 구현예에서, 분자 크기는 단백질의 소변으로의 분비에 대해 무관한 특징인 것으로 확인되었다. 그 이유는 혈중 단백질이 추가로 분해되기 전에 이미 부분 형태로 존재할 수 있기 때문이다. 또한, 소변에서 발견되는 대부분의 단백질은 심하게 분해된다(Osicka et al, 1997). 전체 단백질은 주로 크기나 형상으로 인해 여과될 수 없는 반면, 단백질 단편은 족세포 틈을 통해 통과하는 문제를 가지지 않을 것이다. 따라서, 전체 단백질의 분자 크기는 단백질의 배출 상태를 예측하는데 중요하지 않은 인자인 것으로 확인되었다.
일 구체예에서, 2개의 분류기를 하기 표 9에 제시된 바와 같이, 단계(111)에서 훈련시킨다. 모델 1 예측은 고 특이성 및 저 감도이지만, 모델 2는 성능 균형을 나타낸다. 데이터세트 수의 불균형으로 인하여 정확도(표 9에서는 ACC로 주석을 담)는 모델의 성능을 결정하는 최상의 척도가 아닐 수 있다. 따라서, 표 9에 제시된 바와 같이, 매튜 상관 계수(MCC)를 이원 분류 품질 척도로서 사용한다. 하기 표 9에 표시된 바와 같이, 이들 2 분류기에 의한 성능도는 일반적으로 일치하며, 85.7% 내지 94.9% 범위이다.
[표 9] 훈련 및 독립 세트에서 2개 분류기의 성능 통계학
Figure pct00033
그 다음 대조군을 단계(112)로 진행시킨다.
상기 논의한 바와 같이, 분류 성능을 손상시키지 않고, 관리가능한 감소된 특징 세트가 얻어질 때까지 단계(112) 내지 단계(114)를 반복하여, 단계(115)에서 재훈련된 분류기를 생성한다. 구체예에서, 방사성 기저 함수(RBF) 커늘 SVM 분류기를 사용하여 비-비뇨기 단백질에 대해 비뇨기 단백질을 분류하도록 분류기를 훈련시킬 수 있다. 하기 표 10에 제시된 바와 같이, 방법(100)의 구현예에 있어서, 최대 예측 정확성은 RBF 커늘 SVM 분류기를 훈련시키는데 74개 단백질 특징이 사용되는 경우 얻어졌다. 이들 74개 단백질 특징은 하기 표 11에 제시되어 있다.
표 10은 단계(109)에서 선택된 특징에 기초한 분류기(단계(111)에서 개발한 모델)의 성능을 나타낸다. 표 10에 제시된 바와 같이, 본 발명의 소변 구현예에 대한 예측 정확도는, 53∼77개의 단백질 특징이 사용된 경우 80.4% 내지 81.29%이며, 표 11에 제시된 74개 단백질 특징이 사용된 경우 81.29%의 최대 정확도가 얻어진다.
[표 10] 특징 선택. 최적의 파라미터로 선택된 특징에 기초한 예측 정확성
Figure pct00034
[표 11] 소변 분비 단백질의 특성규명에 중요한 특징
Figure pct00035
Figure pct00036
Figure pct00037

상기 논의된 바와 같이, 하나 이상의 단백질 서열을 단계(119)에서 수신하고 단계(120)에서 벡터 형성 및 스케일링 후에, 하나 이상의 단백질의 클래스를 단계(121)에서 예측한다. 일 구현예에 있어서, 표 9에 제시되고 상기 개시된 모델(1)을 이용하여 위암 환자 샘플과 정상 샘플 사이의 발현 수준 변화를 보여주는 2,048개 단백질에 대해 소변으로 분비될 수 있는 단백질을 예측하였다. 일 구현예에 있어서, 위암 환자의 조직 샘플과 정상 조직 샘플로부터 애피매트릭스 휴먼 엑손 어레이(Affymetrix Human exon array) 1.0에서 17,812개 유전자를 비교하여 2,048개 단백질을 선택하였다. 훈련된 분류기를 사용하여, 2,048개 단백질 중에서 480개 단백질이 소변으로 분비되는 것으로 예측되었다. 예측된 분비 단백질의 경우, 최대 11개 단백질에 대해서는 신뢰 수준이 98% 이상이다. 이 신뢰 수준에서 가양성율 가능성은 0.02%보다 낮으므로, 이들 단백질은 소변으로 분비될 가능성이 높다. 408개 단백질 중에서 총 203개 단백질이 92% 이상의 신뢰도로 소변으로 분비되며 가양성율은 0.7% 미만이다. 단계(121)에서 소변으로 배출되는 것으로 이 모델에 의해 예측된 것들과 같은 단백질은 소변에서 추가의 바이오마커 연구를 위한 후보이다.
사용자 인터페이스를 이용한 예시적인 단백질 분석
도 3 내지 도 6은 본 발명의 구체예에 따른 그래픽 사용자 인터페이스(GUI)를 예시한다. 도 3 내지 도 6에 도시된 GUI는 도 1의 구체예를 참조하여 개시된다. 그러나, GUI는 예시적 구체예에 한정되지 않는다. 예를 들어, GUI는 도 1 및 도 3을 참조하여 상기 단계(119)에 개시된 바와 같이, 단백질 서열을 수신하도록 사용되는 사용자 인터페이스일 수 있다. 도 3 내지 도 6에 도시된 예시적 구체예에서 GUI(300)는 인터넷 브로우저 인터페이스로서 제시되어 있지만, GUI(300)는 이동 장치의 디스플레이, 컴퓨터 단말기, 서버 콘솔 또는 컴퓨터 장치의 다른 디스플레이에서 실행하도록 쉽게 개조할 수 있다. 도 3 내지 도 6은 GUI(300)가 혈액 분비 단백질 예측(BSPP) 서버에 대한 인터페이스로서 제시되어 있는 것을 예시한다. 그러나, 본 발명의 구체예에서, GUI(300)는 다른 체액에서의 단백질 분비를 예측하는데 사용될 수 있다.
도 3 내지 도 6을 통해서, 작동 개시, 단백질 서열 입력 및 분석을 위한 복수 단백질 서열 보내기/업로드를 위해 사용되는 각종 명령부를 포함하는 유사한 디스플레이가 제시되어 있다. 간결하게 나타내기 위해서, 이전 또는 후속 도면과 비교하여 도면에서 나타나는 차이만을 이하 설명한다.
도 3 및 도 4는 예시적인 GUI(300)를 나타내며, 여기서 본 발명의 구체예에 따라서, 사용자는 명령부(302)로 복수의 단백질 서열을 입력하여 어떤 단백질들이 혈류로 분비될 수 있는지를 예측할 수 있다. 구체예에서, 단백질 분석 시스템은 GUI(300)를 포함하며, GUI(300)의 각 부분 중에서 사용자가 데이터를 선택 및 입력할 수 있도록 구성된 입력 장치(도시되지 않음)를 또한 포함한다. 예를 들어, 디스플레이에서 표시되는 각 명령부(302, 304 및 306) 내에 그리고 그 사이에서 GUI(300) 상의 포인터 또는 커서를 이동시켜, 사용자가 시스템에 의해 분석하고자 하는 하나 이상의 단백질 서열을 입력 또는 보내기할 수 있다. 구체예에서, 디스플레이는 도 7에 도시된 컴퓨터 디스플레이(730)일 수 있으며, GUI(300)는 디스플레이 인터페이스(702)를 표시할 수 있다. 본 발명의 구체예들에 따르면, 입력 장치는, 예를 들어 키보드, 위치 지정 도구, 트랙볼, 터치 패드, 조이 스틱, 음성 기동 제어 시스템, 터치 스크린 또는 사용자와 GUI(300) 사이의 상호작용을 제공하는데 사용되는 다른 입력 장치일 수 있으나, 이에 한정되는 것은 아니다.
도 3은 본 발명의 구체예에 따라서 FASTA 또는 미처리 텍스트 포맷으로 단백질 서열을 명령부(302)로 입력할 수 있는 방법을 예시한다. 이 입력은 도 1과 관련하여 상기 개시된 방법(100)의 단계(119)에서 단백질 서열이 수신되는 한가지 방법이다. 도 3은 또한 사용자가 명령부(204)를 사용하여 복수의 단백질 서열을 업로드할 수 있는 방법을 도시한다. 도 3에 예시된 예시적 구체예에서, 명령부(304)를 사용하여 최대 5가지 단백질 서열을 업로드할 수 있다. 그러나, GUI(300)가 5가지 이상의 단백질 서열을 수용할 수 있도록 개조하는 것은 관련 업계의 숙련자들의 지식 내에서 수월하다는 것을 이해할 것이다. 대안적으로, 검색(browse) 버튼(306)을 사용하여 하나 이상의 위치에 저장된 단백질 서열을 검색할 수 있다. 구체예에서, 검색 버튼(306)을 사용하여 윈도우(307)를 시작하여 사용자가 하나 이상의 단백질 서열 파일을 조사할 수 있도록 한다. 윈도우(307)를 사용하여 파일 저장 위치를 조사하여, 사용자가 도 7에 도시된 컴퓨터 시스템(700)의 메모리(708 또는 710)와 같은 복수의 위치에 저장된 단백질 서열을 업로드할 수 있다. 명령부(302, 304) 및/또는 윈도우(307)를 사용하여 목적 단백질 서열이 입력 또는 업로드되면, 보내기 버튼(310)을 선택하여 분석을 위해 서열을 보낼 수 있다. 사용자가 명령부(302 및/또는 304)로부터 임의의 입력을 삭제하기를 원하는 경우에는, 서열 리셋 버튼(308)을 선택할 수 있다.
도 4는 명령부(302)에서 수신된 단백질 서열(412)을 도시한다. 보내기 버튼(310)을 선택하여 분석을 위해 단일 단백질 서열(412)을 보낼 수 있다.
도 5는 수신된 단백질 서열(412)에 대한 해당 단백질 식별자(ID)(514), R-값(518) 및 P-값(520)과 함께 음성 분류 결과(516)를 도시한다. 도 2를 참조하여 상기 논의된 바와 같이, 본 발명의 구체예에 따라서 양성 및 음성 단백질 샘플의 분석으로부터 유도되는 R-값(518)과 P-값(520) 사이에는 통계적 관계가 있다. 도 5에 제공된 예에서, 단백질 서열(412)은 혈액으로 분비되는 것으로 예측되지 않는다. 구체예에서, 음성 분류 결과(516)는 도 1을 참조하여 상기 논의된 바와 같이, 훈련된 분류기를 사용하여 단계(121)에서 계산된 확률에 기초하여 예측한다.
도 6은 수신된 단백질 서열(412)에 대한 해당 단백질 식별자(ID)(514), R-값(518) 및 P-값(520)과 함께 양성 분류 결과(616)를 도시한다. 도 2 및 도 5를 참조하여 상기 개시된 바와 같이, 양성 및 음성 단백질 샘플의 분석으로부터 유도되는 R-값(518)과 P-값(520) 사이에는 통계적 관계가 있다. 도 6에 제공된 예에서, 수신된 단백질 서열은 혈액으로 분비되는 것으로 예측된다. 구체예에서, 양성 분류 결과(616)는 도 1을 참조하여 상기 논의된 바와 같이, 훈련된 분류기를 사용하여 단계(121)에서 계산된 확률에 기초하여 예측한다.
예시적 컴퓨터 시스템 구현
본 발명의 각종 측면은 소프트웨어, 펌웨어, 하드웨어 또는 이의 조합으로 구현할 수 있다. 도 7은 본 발명 또는 이의 일부를 컴퓨터 판독가능한 코드로 구현할 수 있는 예시적 컴퓨터 시스템(700)을 예시한다. 예를 들어, 도 1의 플로우챠트에 의해 예시되는 방법(100)과 도 3 내지 도 6에 도시된 GUI(100)를 컴퓨터 시스템(700)에서 구현할 수 있다. 본 발명의 각종 구체예들은 이 예시적 컴퓨터 시스템(700)과 관련하여 개시된다. 이 개시내용을 읽은 후에, 다른 컴퓨터 시스템 및/또는 컴퓨터 구조를 사용하여 본 발명을 구현하는 방법이 관련 분야의 숙련자들에게는 명백할 것이다.
컴퓨터 시스템(700)은 프로세서(704)와 같은 하나 이상의 프로세서를 포함한다. 프로세서(704)는 특수 목적 또는 일반 목적의 프로세서일 수 있다. 프로세서(704)를 통신 인프라스트럭쳐(706)(예, 버스 또는 네트워크)에 접속시킨다.
컴퓨터 시스템(700)은 또한 주기억장치(708), 바람직하게는 램(RAM; random access memory)을 포함하며, 보조기억장치(710)를 또한 포함할 수 있다. 보조기억장치(710)는, 예를 들어 하드 디스크 드라이브(712), 착탈식 저장 드라이브(714), 플래쉬 메모리, 메모리 스틱 및/또는 임의의 유사한 비소멸성 저장 메카니즘을 포함할 수 있다. 착탈식 저장 드라이브(714)는 플로피 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 플래쉬 메모리 등을 포함할 수 있다. 착탈식 저장 드라이브(714)는 잘 알려진 방식으로 착탈식 저장 유닛(718)으로부터 불러오고/거나, 여기에 기록한다. 착탈식 저장 유닛(718)은 착탈식 저장 드라이브(714)에 의해 불러와져 기록되는 플로피 디스크, 자기 테이프, 광디스크 등을 포함할 수 있다. 착탈식 저장 유닛(718)은 컴퓨터 소프트웨어 및/또는 데이터가 저장된 컴퓨터 사용가능한 저장 매체를 포함한다.
대안적인 구현예에서, 보조기억장치(710)는 컴퓨터 프로그램 또는 다른 명령어가 컴퓨터 시스템(700)에 로딩되도록 하는 다른 유사한 수단을 포함할 수 있다. 그러한 수단은, 예를 들어 착탈식 저장 유닛(722) 및 인터페이스(720)를 포함할 수 있다. 그러한 수단의 예는 프로그램 카트리지 및 카트리지 인터페이스(예, 비디오 게임 장치에서 확인되는 것들), 착탈식 메모리 칩(예, EPROM 또는 PROM) 및 연결된 소켓과, 착탈식 저장 유닛(722)으로부터 컴퓨터 시스템(700)으로 소프트웨어 및 데이터를 전송하는 다른 착탈식 저장 유닛(722) 및 인터페이스(720)를 포함할 수 있다.
컴퓨터 시스템(700)은 또한 통신 인터페이스(724)를 포함할 수 있다. 통신 인터페이스(724)는 컴퓨터 시스템(700)과 외부 장치간에 소프트웨어 및 데이터가 전송되게 한다. 통신 인터페이스(724)는 모뎀, 네트워크 인터페이스(예, 이더넷 카드), 통신 포트, PCMCIA 슬롯 및 카드 등을 포함할 수 있다. 통신 인터페이스(724)를 통해 전송되는 소프트웨어 및 데이터는 통신 인터페이스(724)가 수신할 수 있는 전자, 전자기, 광학 또는 다른 신호일 수 있는 신호의 형태로 존재한다. 이들 신호를 통신 경로(726)를 통해 통신 인터페이스(724)에 제공한다. 통신 경로(726)는 신호를 보내며, 와이어 또는 케이블, 광섬유, 전화선, 휴대폰 링크, RF 링크 또는 다른 통신 채널을 사용하여 구현될 수 있다.
이 문헌에서, 용어 "컴퓨터 프로그램 매체" 및 "컴퓨터 사용가능한 매체"는 일반적으로 착탈식 저장 유닛(718), 착탈식 저장 유닛(722) 및 하드 디스크 드라이브(712) 내에 설치된 하드 디스크와 같은 매체를 나타내기 위해 사용된다. 통신 경로(726)로 보내지는 신호는 또한 본원에 개시된 로직을 구체화할 수 있다. 컴퓨터 프로그램 매체 및 컴퓨터 사용가능한 매체는 또한 메모리, 예컨대 주기억장치(708) 및 보조기억장치(710)를 의미하며, 이들은 메모리 반도체(예, DRAM 등)일 수 있다. 이들 컴퓨터 프로그램 제품은 컴퓨터 시스템(700)에 소프트웨어를 제공하는 수단이다.
컴퓨터 프로그램(컴퓨터 제어 로직이라고도 함)을 주기억장치(708) 및/또는 보조기억장치(710)에 저장한다. 컴퓨터 프로그램을 통신 인터페이스(724)를 통해 수신할 수 있다. 그러한 컴퓨터 프로그램은 실행되는 경우 컴퓨터 시스템(700)이 본원에 개시된 바와 같이 본 발명을 구현할 수 있게 한다. 특히, 컴퓨터 프로그램은 실행되는 경우 프로세서(704)가 본 발명의 프로세서, 예컨대 상기 논의된 도 1의 플로우챠트에 의해 예시된 방법(100)의 단계와 같이, 본 발명의 프로세스를 구현할 수 있게 한다. 따라서, 그러한 컴퓨터 프로그램은 컴퓨터 시스템(700)의 제어기에 해당한다. 소프트웨어를 사용하여 본 발명을 구현하는 경우, 소프트웨어를 컴퓨터 프로그램 제품에 저장하고 착탈식 저장 드라이브(714), 인터페이스(720), 하드 디스크 드라이브(712) 또는 통신 인터페이스(724)를 사용하여 컴퓨터 시스템(700)에 로딩할 수 있다.
본 발명은 임의의 컴퓨터 사용가능한 매체 상에 저장된 소프트웨어를 포함하는 컴퓨터 프로그램 제품에 관한 것이다. 그러한 소프트웨어는, 하나 이상의 데이터 프로세스 장치에서 구현시 데이터 처리 장치(들)가 본원에 개시된 바와 같이 작동되도록 한다. 본 발명의 구체예들은 지금 알려져 있거나 또는 미래에 알려질 임의의 컴퓨터 사용가능한 또는 판독가능한 매체를 이용한다. 컴퓨터 사용가능한 매체의 예는 주 저장 장치(예, 임의 형태의 램), 보조 저장 장치(예, 하드 드라이브, 플로피 디스크, CD ROMS, ZIP 디스크, 데이프, 자기 저장 장치, 광학 저장 장치, MEMS, 나노기술 저장 장치 등) 및 통신 매체(예, 유선 및 무선 통신망, 근거리 통신망, 원거리 통신망, 인터넷 등)를 포함하나, 이에 한정되는 것은 아니다.
결론
개요 및 요약서 부분은 아니지만 상세한 설명 부분은 특허청구범위의 해석을 위해 이용되는 것이다. 개요 및 요약서는 발명자(들)에 의해 고려되는 바와 같은 전부는 아니지만 하나 이상의 본 발명의 예시적인 구체예를 설명할 수 있으며, 따라서 본 발명 및 하기 특허청구범위를 어떤 방식으로도 제한하려는 것은 아니다.
본 발명은 특정 기능와 그 관계의 구현을 예시하는 기능 빌딩 블록을 이용하여 상기에 개시하였다. 이들 기능 빌딩 블록의 경계는 설명의 편의를 위해 본원에서 임의로 정의되어 있다. 특정 기능과 이의 관계가 적절하게 실시되는 한 대안의 경계가 정의될 수 있다.
상기 특정 구체예들의 설명은 본 발명의 일반적인 성질을 충분히 밝혀서, 본 발명의 일반적인 개념을 벗어나지 않고 지나친 실험 없이, 당업자가 지식을 적용하여 각종 용도에 대해서 특정 구체예를 쉽게 변형 및/또는 개조할 수 있다. 따라서, 본원에 제시된 교시 및 안내에 기초한 그러한 개조예 및 변형예는 개시된 구체예들의 등가물의 의미 및 범위 내에 있는 것이다. 교시 및 안내를 고려하여 당업자가 본 명세서의 용어 또는 표현을 해석할 수 있도록, 본원의 표현 또는 용어는 제한이 아니라 설명의 목적으로 제시되는 것이다.
본 발명의 폭 및 범위는 상기 개시한 임의의 예시적인 구체예들에 의해 한정되지 않으며, 하기 특허청구범위 및 그 등가물에 따라서만 정의되어야 한다.
하기 참조 문헌은 그 전문이 참고로 포함된다:
Figure pct00038
Figure pct00039
Figure pct00040
Figure pct00041
Figure pct00042
Figure pct00043

Claims (28)

  1. 하나 이상의 단백질 서열을 수신하는 단계;
    수신된 하나 이상의 단백질 서열의 특징을 확인하는 단계; 및
    훈련된 분류기와 확인된 특징을 이용하여, 상기 수신된 하나 이상의 단백질 서열이 생체액으로 분비될 확률을 결정하는 단계로서, 상기 훈련된 분류기는 수집된 단백질 성질을 포함하는 단백질 특징 세트에 액세스하고, 상기 성질은 생체액으로 분비되는 것으로 알려진 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 단계를 포함하는, 단백질의 생체액으로의 분비를 예측하는 방법.
  2. 제1항에 있어서, 상기 결정 단계 이전에,
    수집된 단백질의 분비 성질을 포함하는 특징 세트를 구축하는 단계로서, 상기 분비 성질은 분비 단백질의 양성 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 단계; 및
    특징 세트에 기초하여, 생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 분류기를 훈련시키는 단계를 더 포함하는 예측 방법.
  3. 제2항에 있어서,
    하나 이상의 병리학적 상태로 인해 생체액으로 분비되는 것으로 알려진 단백질 성질을 포함하는 제2 특징 세트를 구축하는 단계;
    제2 특징 세트를 기초로, 병리 관련 단백질을 인식하도록 분류기를 훈련시키는 단계;
    훈련된 분류기를 사용하여, 병리 관련 단백질이 수신된 하나 이상의 단백질 서열 중에 존재하는지를 결정하는 단계
    를 더 포함하는 예측 방법.
  4. 제3항에 있어서, 상기 하나 이상의 병리학적 상태가 위암, 췌장암, 폐암, 난소암, 간암, 대장암, 결장직장암, 유방암, 비인두암, 신장암, 자궁경부암, 뇌암, 방광암, 신암 및 전립선암과, 흑색종 및 편평세포암종을 포함하는 예측 방법.
  5. 제1항에 있어서, 상기 수집된 단백질이 단백질 데이터베이스로부터 수집되는 예측 방법.
  6. 제5항에 있어서, 상기 단백질 데이터베이스는 스위스-프롯(Swiss-Prot) 및 분비 단백질 데이터베이스(SPD) 데이터베이스를 포함하는 예측 방법.
  7. 제1항에 있어서, 상기 수신된 하나 이상의 단백질 서열은 FASTA 포맷인 예측 방법.
  8. 제1항에 있어서, 상기 단백질은 인간 단백질인 예측 방법.
  9. 제2항에 있어서, 상기 구축 단계 이전에,
    생체액에 대해 공지된 분비 단백질을 기초로 양성의 분비 단백질 세트를 형성하는 단계; 및
    생체액에 대해 공지된 비-분비 단백질을 기초로 음성의 비-분비 단백질 세트를 형성하는 단계를 포함하는 예측 방법.
  10. 제9항에 있어서, 상기 생체액는 혈액이고, 양성의 분비 단백질 세트를 형성하는 단계는 하나 이상의 비천연 혈액 단백질을 선택하는 것을 포함하는 예측 방법.
  11. 제10항에 있어서, 상기 음성의 비-분비 단백질 세트를 형성하는 단계는 양성의 분비 단백질 세트와 중복되지 않는 거대 단백질 데이터 세트로부터 비-혈액 분비성 단백질을 선택하는 것을 포함하는 예측 방법.
  12. 제11항에 있어서, 상기 거대 단백질 데이터 세트는 단백질 패밀리(Pfam) 데이터베이스인 예측 방법.
  13. 제2항에 있어서, 상기 분비 성질은
    일반 서열 특징;
    물리화학적 성질;
    구조 성질; 및
    도메인 및 모티프를 포함하는 예측 방법.
  14. 제13항에 있어서, 상기 일반 서열 특징은
    아미노산 조성;
    서열 길이;
    디펩티드 조성;
    서열 순서;
    표준화된 모로-브로토(Moreau-Broto) 자기상관; 및
    기어리(Geary) 자기상관을 포함하는 예측 방법.
  15. 제13항에 있어서, 상기 물리화학적 성질은
    소수성;
    표준화된 반데르발스 부피;
    극성;
    편극성;
    전하;
    2차 구조;
    용매 접근도;
    용해도;
    언폴딩성;
    무질서 영역;
    전체 전하; 및
    소수성을 포함하는 예측 방법.
  16. 제13항에 있어서, 상기 구조 성질은
    2차 구조 정보; 및
    형상을 포함하는 예측 방법.
  17. 제13항에 있어서, 상기 도메인 및 모티프는
    신호 펩티드;
    막관통 도메인;
    글리코실화; 및
    트윈-아르기닌 신호 펩티드 모티프(TAT)를 포함하는 예측 방법.
  18. 제1항에 있어서, 상기 생체액는 타액, 혈액, 소변, 척수액, 정액, 질액, 양수, 치은열구액 또는 안구액 중 하나 이상인 예측 방법.
  19. 제2항에 있어서, 상기 특징 세트의 구축 단계는 BLAST(Basic Local Alignment Search Tool)를 사용하여 과잉 단백질을 제거하는 것을 포함하는 예측 방법.
  20. 제2항에 있어서, 상기 분류기의 훈련 단계는 단백질 분비를 예측하도록 서포트 벡터 머신(SVM) 기반의 분류기를 훈련시키는 것을 포함하는 예측 방법.
  21. 제2항에 있어서, 상기 특징 세트의 구축 단계는 훈련된 분류기의 성능에 기초하여 특징 세트로부터 하나 이상의 특징을 제거하여 특징 세트를 업데이트시킴으로써, 업데이트된 특징 세트를 생성하는 것을 더 포함하는 예측 방법.
  22. 제2항에 있어서, 상기 특징 세트의 구축 단계는 반복 특징 제거(RFE)를 사용하여 선택된 특징으로부터 특징을 제거하여 특징 세트를 업데이트시킴으로써, 업데이트된 특징 세트를 생성하는 것을 더 포함하는 예측 방법.
  23. 제21항 또는 제22항에 있어서, 상기 분류기의 훈련 단계는 업데이트된 특징 세트를 사용하여 분류기를 훈련시키는 것을 더 포함하는 예측 방법.
  24. 단백질의 생체액으로의 분비를 예측하는 컴퓨터 구현 방법으로서,
    하나 이상의 컴퓨터에 의해 수집된 단백질의 분비 성질을 포함하는 특징 세트를 구축하는 단계로서, 상기 분비 성질은 분비된 단백질의 양성 단백질 세트에 존재하는 단백질 특징에 해당하는 단계;
    상기 특징 세트를 기초로, 생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 분류기를 훈련시키는 단계;
    하나 이상의 단백질 서열을 수신하는 단계;
    수신된 하나 이상의 단백질 서열의 특징을 확인하는 단계; 및
    상기 분류기와 상기 확인된 특징을 이용하여, 하나 이상의 컴퓨터에 의해 수신된 하나 이상의 단백질이 생체액으로 분비될 확률을 산정하는 단계
    를 포함하는 컴퓨터 구현 방법.
  25. 단백질의 생체액으로의 분비를 예측하기 위한 시스템으로서,
    수집된 단백질의 분비 성질을 포함하는 특징 세트를 구축하도록 구성된 특징 수집기로서, 상기 분비 성질은 분비된 단백질의 양성 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 수집기;
    생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 상기 특징 세트를 기초로 분류기를 훈련시키도록 작동가능한 훈련기;
    입력 장치를 통해서 하나 이상의 단백질 서열을 수신하도록 구성된 수신기;
    상기 분류기를 사용하여 수신된 하나 이상의 단백질 서열이 생체액으로 분비될 확률을 산정하도록 구성된 예측기; 및
    예측기에 의해 산정된 확률을 표시하도록 구성된 출력 장치
    를 포함하는 예측 시스템.
  26. 프로세서가 생체액으로의 단백질의 분비를 예측할 수 있도록 하기 위한 컴퓨터 프로그램 로직이 기록된 컴퓨터 사용가능한 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 로직은
    수집된 단백질의 분비 성질을 포함하는 특징 세트를 구축하도록 구성된 특징 구축 모듈로서, 상기 분비 성질은 분비된 단백질의 양성 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 특징 구축 모듈;
    생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 상기 특징 세트를 기초로 분류기를 훈련시키도록 구성된 훈련 모듈;
    하나 이상의 단백질 서열을 수신하도록 구성된 수신기;
    상기 분류기를 사용하여 수신된 하나 이상의 단백질 서열이 생체액으로 분비되는 확률을 산정하도록 구성된 예측 모듈; 및
    예측 모듈이 산정한 확률을 제시하도록 구성된 디스플레이 모듈을 포함하는 컴퓨터 프로그램 제품.
  27. 컴퓨터 장치에 의해 실행되면 컴퓨터 장치가 단백질의 생체액으로의 분비를 예측하는 방법을 실시하도록 하는 컴퓨터 실행가능 명령이 저장된 유형(tangible)의 컴퓨터 판독가능한 매체로서, 상기 방법은
    하나 이상의 단백질 서열을 수신하는 단계;
    수신된 하나 이상의 단백질 서열의 특징을 확인하는 단계; 및
    훈련된 분류기 및 확인된 특징을 이용하여, 수신된 하나 이상의 단백질 서열이 생체액으로 분비되는 확률을 결정하는 단계로서, 상기 훈련된 분류기는 수집된 단백질의 성질을 포함하는 단백질 특징 세트에 액세스하고, 상기 성질은 생체액으로 분비되는 것으로 알려진 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 단계를 포함하는 유형의 컴퓨터 판독가능한 매체.
  28. 제27항에 있어서, 상기 방법은 상기 결정 단계 이전에,
    수집된 단백질의 분비 성질을 포함하는 특징 세트를 구축하는 단계로서, 상기 분비 성질은 분비된 단백질의 양성 단백질 세트에 존재하는 단백질 특징에 해당하는 것인 단계; 및
    특징 세트에 기초하여, 생체액으로 분비될 것 같은 단백질에 해당하는 단백질 특징을 인식하도록 분류기를 훈련시키는 단계를 더 포함하는 유형의 컴퓨터 판독가능한 매체.
KR1020117004992A 2008-08-08 2009-08-10 체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템 KR20110058789A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13604308P 2008-08-08 2008-08-08
US61/136,043 2008-08-08

Publications (1)

Publication Number Publication Date
KR20110058789A true KR20110058789A (ko) 2011-06-01

Family

ID=41664007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117004992A KR20110058789A (ko) 2008-08-08 2009-08-10 체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템

Country Status (4)

Country Link
US (1) US20110224913A1 (ko)
KR (1) KR20110058789A (ko)
CN (1) CN102177434B (ko)
WO (1) WO2010017559A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011226740A1 (en) * 2010-03-08 2012-10-04 National Ict Australia Limited Performance evaluation of a classifier
US20140244548A1 (en) * 2013-02-22 2014-08-28 Nvidia Corporation System, method, and computer program product for classification of silicon wafers using radial support vector machines to process ring oscillator parametric data
US9189750B1 (en) * 2013-03-15 2015-11-17 The Mathworks, Inc. Methods and systems for sequential feature selection based on significance testing
US9652722B1 (en) * 2013-12-05 2017-05-16 The Mathworks, Inc. Methods and systems for robust supervised machine learning
CN104951667B (zh) * 2014-03-28 2018-04-17 国际商业机器公司 一种用于分析蛋白质序列的性质的方法和装置
EP3227684B1 (en) 2014-12-03 2019-10-02 Isoplexis Corporation Analysis and screening of cell secretion profiles
JP6401297B2 (ja) * 2014-12-25 2018-10-10 株式会社日立製作所 インスリン分泌能分析装置、当該装置を備えるインスリン分泌能分析システム及びインスリン分泌能分析方法
EP4009246A1 (en) * 2015-09-30 2022-06-08 Just, Inc. Systems and methods for identifying entities that have a target property
KR101809599B1 (ko) * 2016-02-04 2017-12-15 연세대학교 산학협력단 약물과 단백질 간 관계 분석 방법 및 장치
GB201607521D0 (en) * 2016-04-29 2016-06-15 Oncolmmunity As Method
CN109964126B (zh) * 2016-09-12 2022-12-27 伊索普莱克西斯公司 用于细胞治疗法和其他免疫治疗法的多重分析的***和方法
DK3538891T3 (da) 2016-11-11 2022-03-28 Isoplexis Corp Sammensætninger og fremgangsmåder til samtidig genomisk, transkriptomisk og proteomisk analyse af enkeltceller
FR3058812B1 (fr) * 2016-11-14 2020-03-27 Institut National De La Recherche Agronomique Methode de prediction de la reconnaissance croisee de cibles par des anticorps differents
WO2018098372A1 (en) 2016-11-22 2018-05-31 IsoPlexis Corporation Systems, devices and methods for cell capture and methods of manufacture thereof
EP3676393A4 (en) 2017-09-01 2021-10-13 Venn Biosciences Corporation IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR DIAGNOSIS AND MONITORING OF TREATMENT
US11398297B2 (en) * 2018-10-11 2022-07-26 Chun-Chieh Chang Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN110364222B (zh) * 2019-07-22 2022-10-11 信阳师范学院 基于动态建模的阿尔兹海默症分泌蛋白质数据处理方法
CN110827923B (zh) * 2019-11-06 2021-03-02 吉林大学 基于卷积神经网络的***蛋白质的预测方法
US11941497B2 (en) * 2020-09-30 2024-03-26 Alteryx, Inc. System and method of operationalizing automated feature engineering
US11704312B2 (en) * 2021-08-19 2023-07-18 Microsoft Technology Licensing, Llc Conjunctive filtering with embedding models
CN113838520B (zh) * 2021-09-27 2024-03-29 电子科技大学长三角研究院(衢州) 一种iii型分泌***效应蛋白识别方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59509941D1 (de) * 1994-02-11 2002-01-24 Qiagen Gmbh Verfahren zur trennung von doppelstrang/einzelstrangnukleinsäurestrukturen
CA2402606A1 (en) * 2000-03-10 2001-09-13 Daiichi Pharmaceutical Co., Ltd. Method for predicting protein-protein interactions
US20030013099A1 (en) * 2001-03-19 2003-01-16 Lasek Amy K. W. Genes regulated by DNA methylation in colon tumors
US20030224386A1 (en) * 2001-12-19 2003-12-04 Millennium Pharmaceuticals, Inc. Compositions, kits, and methods for identification, assessment, prevention, and therapy of rheumatoid arthritis
GB0204387D0 (en) * 2002-02-26 2002-04-10 Secr Defence Screening process
US8163896B1 (en) * 2002-11-14 2012-04-24 Rosetta Genomics Ltd. Bioinformatically detectable group of novel regulatory genes and uses thereof
US20070092888A1 (en) * 2003-09-23 2007-04-26 Cornelius Diamond Diagnostic markers of hypertension and methods of use thereof
US20060195266A1 (en) * 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
US20060078913A1 (en) * 2004-07-16 2006-04-13 Macina Roberto A Compositions, splice variants and methods relating to cancer specific genes and proteins
JP4174775B2 (ja) * 2005-03-31 2008-11-05 株式会社インテックシステム研究所 生命情報解析装置、生命情報解析方法および生命情報解析プログラム

Also Published As

Publication number Publication date
CN102177434B (zh) 2014-04-02
CN102177434A (zh) 2011-09-07
US20110224913A1 (en) 2011-09-15
WO2010017559A1 (en) 2010-02-11

Similar Documents

Publication Publication Date Title
KR20110058789A (ko) 체액으로 분비될 수 있는 단백질을 예측하기 위한 방법 및 시스템
Heumos et al. Best practices for single-cell analysis across modalities
Käll et al. A combined transmembrane topology and signal peptide prediction method
CN113160887B (zh) 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
JP5464503B2 (ja) 医療分析システム
Tang et al. Computational advances of tumor marker selection and sample classification in cancer proteomics
US20090138251A1 (en) Bioinformatics research and analysis system and methods associated therewith
Liu Identifying network-based biomarkers of complex diseases from high-throughput data
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
WO2007041820A2 (en) A method for identifying protein patterns in mass spectrometry
US20170059581A1 (en) Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles
Wang et al. Subtype dependent biomarker identification and tumor classification from gene expression profiles
CN115128285B (zh) 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、***
De Grandi et al. Highly Elevated Plasma γ‐Glutamyltransferase Elevations: A Trait Caused by γ‐Glutamyltransferase 1 Transmembrane Mutations
Galligan et al. Greedy feature selection for glycan chromatography data with the generalized Dirichlet distribution
KR20240110613A (ko) 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법
CN115862838A (zh) 一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用
US20220044762A1 (en) Methods of assessing breast cancer using machine learning systems
Min et al. An integrated approach to blood-based cancer diagnosis and biomarker discovery
KR20230064172A (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
KR20220160805A (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
Bolón-Canedo et al. Feature selection in DNA microarray classification
CN113388683A (zh) 与肺癌预后相关的生物标志物及其应用
US20240212146A1 (en) Method and apparatus for analyzing pathological slide images
Nguyen Combining machine learning and reference-free transcriptome analysis for the identification of prostate cancer signatures

Legal Events

Date Code Title Description
E902 Notification of reason for refusal