KR20190005034A - 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 - Google Patents

액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 Download PDF

Info

Publication number
KR20190005034A
KR20190005034A KR1020170085558A KR20170085558A KR20190005034A KR 20190005034 A KR20190005034 A KR 20190005034A KR 1020170085558 A KR1020170085558 A KR 1020170085558A KR 20170085558 A KR20170085558 A KR 20170085558A KR 20190005034 A KR20190005034 A KR 20190005034A
Authority
KR
South Korea
Prior art keywords
label
substance
spectrum
mass spectrometry
peptide
Prior art date
Application number
KR1020170085558A
Other languages
English (en)
Other versions
KR101958900B1 (ko
Inventor
김빛내리
김종서
정교원
최연
Original Assignee
서울대학교산학협력단
기초과학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 기초과학연구원 filed Critical 서울대학교산학협력단
Priority to KR1020170085558A priority Critical patent/KR101958900B1/ko
Publication of KR20190005034A publication Critical patent/KR20190005034A/ko
Application granted granted Critical
Publication of KR101958900B1 publication Critical patent/KR101958900B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/58Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • G01N2030/8809Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
    • G01N2030/8813Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials
    • G01N2030/8831Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials involving peptides or proteins
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2458/00Labels used in chemical analysis of biological material
    • G01N2458/15Non-radioactive isotope labels, e.g. for detection by mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2560/00Chemical aspects of mass spectrometric analysis of biological material

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Cell Biology (AREA)
  • Microbiology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

시료의 정량 분석 장치는, 제1 라벨(label) 물질이 부착된 제1 물질, 및 상기 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함하는 시료의 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry) 스펙트럼을 수신하도록 구성된 스펙트럼 인식부; 상기 스펙트럼 인식부에 수신된 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼(Peptide Spectrum Match; PSM)을 추출하며, 상기 제1 라벨 물질의 PSM을 이용하여 상기 제1 물질의 템플릿(template)을 특정하고, 상기 제1 라벨 물질과 상기 제2 라벨 물질의 예측된 리텐션 시간(Retention Time; RT) 편이(shift)를 산출하며, 상기 예측된 RT 편이를 이용하여 상기 제2 물질의 템플릿을 특정하고, 상기 제1 물질과 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질과 상기 제2 물질의 신호를 재구성함으로써 상기 시료의 펩타이드 수준 정량 분석을 수행하도록 구성된 PSM 분석부를 포함한다. 상기 시료의 정량 분석 장치에 의하면, 라벨 물질에서 수소(H)의 중수소(2H, 또는 D(Deuterium)) 치환 등에 의하여 발생하는 리텐션 시간의 편이를 기계 학습을 적용하여 정확하고 효율적으로 예측할 수 있다.

Description

액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법{APPARATUS AND METHOD FOR QUANTIFICATION ANALYSIS OF SAMPLE USING LIQUID CHROMATOGRAPH-MASS SPECTROMETRY}
실시예들은 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)에 있어서 시료의 정량(quantification) 분석 장치 및 방법에 관한 것으로, 보다 상세하게는, LC-MS 분석에 있어서 라벨(label) 물질의 사용으로 인하여 발생하는 리텐션 시간(retention time)의 편이(shift)를 예측하고 이를 통해 질량이 인접한 라벨 물질들의 신호를 정확하게 분리하여 정량 측정의 다중성(multiplexity)을 향상시키는 기술에 대한 것이다.
액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)은, 타겟 물질을 액체 상태에서 컬럼(column) 등에 통과시킴으로써 성분별로 분리하고, 각 성분들을 이온화한 후 질량 분석을 통해 질량 대 전하비가 상이한 물질들을 분리하는 기술로서, 단백질의 정량(identification) 등에 이용될 수 있다. LC-MS에서 질량 분석을 위한 이온화 과정이 탠덤(tandem) 방식으로 이루어지는 경우에는 LC-MS/MS로 지칭한다.
LC-MS/MS 기법 중에는, 질량 대 전하비를 알고 있는 라벨(label) 물질을 타겟 물질에 미리 결합시키고, 질량 분석 결과 얻어진 스펙트럼에서 라벨 물질의 스펙트럼을 특정함으로써 라벨로 표시된 타겟 물질의 정량을 수행하는 방법이 있다. 이때, 라벨로 사용되는 물질이 이온화된 정도에 따라 상기 정량 기법은 전구체(precursor)에 해당하는 모분자 기반의 라벨을 이용한(MS1-based) 정량 기법 및 모분자로부터 더 세분화된 조각 분자 기반의 라벨을 이용한(MS2-based) 정량 기법으로 구분될 수 있다.
도 1은 모분자 기반의 라벨을 이용한(MS1-based) 정량 기법을 설명하기 위한 개념도이다.
도 1을 참조하면, 검출하고자 하는 상이한 종료의 타겟 물질(11, 12)에 각각 상이한 종류의 라벨 물질(110, 120)을 부착한다. 이러한 타겟 물질(11, 12)이 포함된 시료를 LC-MS/MS 방식으로 분석하게 되면, LC에 의한 리텐션 시간(retention time), 조각 이온의 질량 대 전하비(m/z) 및 이온 신호의 세기(intensity)를 각 축으로 하는 3차원 공간 내에서 조각 이온에 해당하는 그래프(1100, 1200)가 얻어진다. 이때 라벨 물질(110, 120)의 질량 대 전하비를 이용하여 각 그래프에 해당하는 타겟 물질(11, 12)을 특정할 수 있고, 따라서 시료의 정량이 가능하다.
그런데, 라벨 물질은 원자량이 미세하게 상이한 동위원소(isotope)를 포함할 수 있으므로, 실제 질량 분석 스펙트럼은 도 2에 도시된 것과 같은 형태를 갖는다.
도 2를 참조하면, 라벨 물질(110)의 질량 분석 스펙트럼은 질량 대 전하비가 미세하게 상이한 복수의 그래프(1101-1103)를 포함하며, 라벨 물질(120)의 질량 분석 스펙트럼은 질량 대 전하비가 미세하게 상이한 복수의 그래프(1201-1203)를 포함한다. 이처럼 질량 분석 스펙트럼이 질량 대 전하비의 일정 영역에 걸쳐 분포하기 때문에, 명확한 구별을 위해 라벨 물질(110, 120) 상호 간의 질량차가 일정 수준 이상, 예컨대, 6 달톤(Da) 이상인 물질을 이용하는 것이 일반적이다.
예를 들어, "Stable-Isotope Dimethyl Labeling for Quantitative Proteomics" (Jue-Liang Hsu 외 공저, Anal. Chem., 2003, 75 (24), pp 6843-6852)의 제목을 가지는 논문은 탄소(C), 질소(N) 및 수소(H)로 이루어진 펩타이드(peptide) 형태의 라벨 물질에서 하나 이상의 수소 원자를 중수소(2H, 또는 D(Deuterium))로 치환함으로써 라벨 물질들 사이의 질량차를 원하는 형태로 조절하는 정량 기법을 개시한다. 이때, 도 2에 도시된 것과 같이 사용된 라벨 물질들 간의 질량차에 의하여 라벨링 폭(labeling width)이 정의되는데, 라벨링 폭이 좁을수록 정량 측정의 다중성(multiplexity)을 증가시킬 수 있다.
그러나, 라벨 물질들 간의 질량차를 줄이고자 할 경우 질량 대 전하비가 인접한 그래프들이 중첩되어 버릴 수 있고, 이는 정량 측정의 다중성에 대한 제한으로 작용한다. 도 3a는 질량차가 작은 라벨 물질들을 사용할 경우 발생하는 스펙트럼의 중첩을 나타내는 그래프로서, 질량차가 2Da인 세 종류의 라벨 물질이 사용되며 시료는 질량차가 1Da인 세 종류의 동위원소를 포함하는 경우를 나타낸다.
도 3a에서 상이한 색상으로 도시된 그래프는 각각 상이한 종류의 라벨 물질에 대응되는 질량 분석 스펙트럼을 나타내는 것으로서, 그래프(301-303)는 기본 펩타이드 물질로 된 라벨의 질량 분석 스펙트럼을 나타내며, 그래프(311-313)는 기본 라벨 물질에서 2개의 수소 원자가 중수소로 치환된 라벨 물질의 질량 분석 스펙트럼을 나타내고, 그래프(321-323)는 기본 라벨 물질에서 4개의 수소 원자가 중수소로 치환된 라벨 물질의 질량 분석 스펙트럼을 나타낸다. 도시되는 것과 같이, 각 스펙트럼의 질량 대 전하비(m/z)가 인접하여 서로 상이한 라벨 물질에 해당하는 두 그래프(303, 311 및 313, 312)가 서로 중첩되어 버리는 것을 알 수 있다.
위와 같은 문제를 해결하기 위하여 해상도를 수십 배로 높인 분석 장비들이 사용될 수 있으나, 이는 지나친 비용이 소요되어 효율적이지 못하며, 해상도는 증가되더라도 측정 신호의 세기가 감소되는 문제가 있다.
또한, 수소를 중수소로 치환하여 생성된 라벨 물질은 치환 전의 물질과 비교할 때 LC에서의 리텐션 시간에 약간의 편이(shift)가 발생하는 문제가 있다. 도 3b는 수소가 중수소로 치환된 라벨 물질을 사용할 경우 발생하는 리텐션 시간 편이를 나타내는 그래프이다. 도 3b에 도시된 것과 같이, 수소가 중수소로 치환되면서 각 라벨 물질은 LC에서의 리텐션 시간에 약간의 편이(shift)가 발생하는데, 이로 인하여 라벨 물질에 대응되는 질량 분석 스펙트럼을 검출할 수 없거나 질량 분석 스펙트럼의 신호가 세기가 부정확하게 검출될 수 있다.
예컨대, 질량 분석 스펙트럼의 그래프(302)상에서 특정 질량 대 전하비를 가지는 라벨 물질(30)을 특정하였다고 하면, 실험자는 사용된 라벨 물질들 사이의 질량차를 미리 알고 있으므로, 특정된 라벨 물질(30)로부터 해당 질량차만큼 질량 대 전하비가 증가한 그래프의 영역에서 다른 라벨 물질의 스펙트럼을 찾고자 할 것이다. 그러나, 리텐션 시간의 편이로 인하여 그래프(311-313)는 예측된 영역에 비해 리텐션 시간에 해당하는 축 상의 일 방향으로 편이되어 위치하므로, 그래프(311-313)의 신호 세기가 부정확하게 측정되거나, 또는 그래프(311-313)의 검출 자체가 이루어지지 않을 수 있는 문제점이 있다.
도 3c 및 3d는 서로 상이한 라벨 물질에 대응되는 스펙트럼이 리텐션 시간 편이를 가지고 서로 중첩된 것을 나타내는 그래프로서, 라벨 물질들의 질량이 2Da씩 증가하며 4개의 동위원소가 포함된 경우를 나타낸다.
도 3c에 도시된 것과 같이, 각각 상이한 라벨 물질에 해당하는 그래프(301-304), 그래프(311-314) 및 그래프(321-324) 사이에 리텐션 시간의 편이가 발생하였다. 또한, 서로 상이한 물질에 해당하는 그래프(303, 304) 및 그래프(311, 312)가 서로 중첩되었으며, 마찬가지로 서로 상이한 물질에 해당하는 그래프(313, 314) 및 그래프(321, 322)가 서로 중첩되었다. 서로 중첩된 그래프들은 도 3d에 도시된 그래프(331, 332) 및 그래프(333, 334)와 같은 형태로 검출되며, 이러한 형태의 그래프를 통해서는 각 물질에 해당하는 신호를 특정하는 것이 불가능하다.
도 3e는 위와 같은 한계를 가지는 종래의 단백질 정량 도구를 이용한 정량 분석 과정을 나타내는 개념도이다.
도 3e를 참조하면, 점선으로 도시된 사각형(341-347)은 질량차를 가지는 라벨 물질로 표시된 시료의 질량 스펙트럼 쌍을 나타내며, 실선으로 도시된 사각형(351, 352)는 종래의 정량 도구를 통해 실제 검출되는 스펙트럼 쌍을 나타낸다. 도시되는 것과 같이, 사각형(351)을 제외한 많은 스펙트럼들은 리텐션 시간의 편이 및 그래프의 중첩으로 인해 스펙트럼 쌍 자체가 발견되지 않았다. 한편, 사각형(352)의 경우에는 리텐션 시간의 편이로 인하여 본래의 스펙트럼 쌍이 아닌 다른 물질의 스펙트럼과 쌍을 이루는 것으로 잘못 검출되었다.
"Stable-Isotope Dimethyl Labeling for Quantitative Proteomics", Jue-Liang Hsu 외 공저, Anal. Chem., 2003, 75 (24), pp 6843-6852
상술한 바와 같은 문제점을 해결하기 위하여, 본 발명의 일 측면에 따르면, 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)에 있어서 라벨(label) 물질에서 수소(H)의 중수소(2H, 또는 D(Deuterium)) 치환에 의하여 발생하는 리텐션 시간(retention time)의 편이(shift)를 예측하고 이를 통해 질량이 인접한 물질들의 신호를 정확하게 분리할 수 있는 시료의 정량 분석 장치 및 방법과, 상기 방법을 실행하기 위한 컴퓨터 프로그램을 제공할 수 있다.
일 실시예에 따른 시료의 정량 분석 장치는, 제1 라벨(label) 물질이 부착된 제1 물질, 및 상기 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함하는 시료의 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS) 스펙트럼을 수신하도록 구성된 스펙트럼 인식부; 상기 스펙트럼 인식부에 수신된 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼(Peptide Spectrum Match; PSM)을 추출하며, 상기 제1 라벨 물질의 PSM을 이용하여 상기 제1 물질의 템플릿(template)을 특정하고, 상기 제1 라벨 물질과 상기 제2 라벨 물질의 예측된 리텐션 시간(Retention Time; RT) 편이(shift)를 산출하며, 상기 예측된 RT 편이를 이용하여 상기 제2 물질의 템플릿을 특정하고, 상기 제1 물질과 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질과 상기 제2 물질의 신호를 재구성함으로써 상기 시료의 PSM 수준 정량 분석을 수행하도록 구성된 PSM 분석부를 포함한다.
일 실시예에 따른 시료의 정량 분석 장치는, 하나 이상의 물질에 대한 상기 펩타이드 정합 스펙트럼 수준 정량 분석 결과를 이용하여 상기 시료의 단백질 수준 정량 분석을 수행하도록 구성된 단백질 분석부를 더 포함한다.
일 실시예에서, 상기 PSM 분석부는 상기 예측된 RT 편이를 산출하는 RT 편이 예측부를 포함한다. 상기 RT 편이 예측부는, 상기 질량 분석 스펙트럼으로부터 미리 결정된 하나 이상의 특징(feature)을 추출하도록 구성된 특징 추출부; 및 질량 분석 스펙트럼의 훈련 세트(training set)를 입력값으로 이용한 기계 학습(machine learning)을 통해 얻어진 규칙에 상기 하나 이상의 특징을 적용하도록 구성된 기계 학습부를 포함한다.
일 실시예에서, 상기 하나 이상의 특징은, 상기 제2 라벨 물질에 치환된 중수소의 개수, 상기 질량 분석 스펙트럼의 정규화된 RT, 상기 제1 라벨 물질의 펩타이드 서열 길이, 상기 제2 물질에서 상기 제2 라벨 물질이 표지된 위치의 비율 또는 상기 질량 분석 스펙트럼의 정규화된 피크 폭 중 하나 이상을 포함한다.
일 실시예에서, 상기 PSM 분석부는, 제1 라벨 물질에 대응되는 PSM으로부터얻어진 정규분포 곡선과 상기 제1 물질을 구성하는 원소들의 미리 알려진 동위원소 분포 프로파일을 이용하여 상기 제1 물질의 템플릿을 특정하도록 구성된 동위원소 분리부를 포함한다.
일 실시예에서, 상기 PSM 분석부는, 상기 제1 물질의 템플릿 및 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질 및 상기 제2 물질의 상대량을 산출함으로써 상기 시료의 액체 크로마토그래프 질량 분석 스펙트럼을 상기 제1 물질의 신호 및 상기 제2 물질의 신호로 재구성하도록 구성된 재구성부를 포함한다.
일 실시예에 따른 정량 분석 방법은, 정량 분석 장치가, 제1 라벨 물질이 부착된 제1 물질, 및 상기 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함하는 시료의 LC-MS 스펙트럼을 수신하는 단계; 상기 정량 분석 장치가, 상기 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질과 상기 제2 라벨 물질의 예측된 RT 편이를 산출하는 단계; 상기 정량 분석 장치가, 상기 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼을 추출하는 단계; 상기 정량 분석 장치가, 추출된 상기 제1 라벨 물질의 펩타이드 정합 스펙트럼을 이용하여 상기 제1 물질의 템플릿을 특정하는 단계; 상기 정량 분석 장치가, 상기 제1 물질의 템플릿 및 상기 예측된 RT 편이를 이용하여 상기 제2 물질의 템플릿을 특정하는 단계; 상기 정량 분석 장치가, 상기 제1 물질과 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질과 상기 제2 물질의 신호를 재구성하는 단계; 및 상기 정량 분석 장치가, 재구성된 상기 제1 물질 및 상기 제2 물질의 신호를 이용하여 상기 시료의 PSM 수준 정량 분석을 수행하는 단계를 포함한다.
일 실시예에 따른 정량 분석 방법은, 상기 정량 분석 장치가, 하나 이상의 물질에 대한 상기 PSM 수준 정량 분석 결과를 이용하여 상기 시료의 단백질 수준 분석을 수행하는 단계를 더 포함한다.
일 실시예에서, 상기 제1 라벨 물질은 탄소, 질소 및 수소를 포함하는 펩타이드이며, 상기 제2 라벨 물질은 상기 제1 라벨 물질의 하나 이상의 수소(H)를 중수소(2H, 또는 D(Deuterium))로 치환한 펩타이드이다.
일 실시예에서, 상기 제2 라벨 물질은, 치환된 중수소의 개수에 따라 상기 제1 라벨 물질의 질량으로부터 순차적으로 질량이 증가하는 5개 이상의 펩타이드를 포함한다.
일 실시예에서, 상기 예측된 RT 편이를 산출하는 단계는, 상기 질량 분석 스펙트럼으로부터 미리 결정된 하나 이상의 특징을 추출하는 단계; 및 질량 분석 스펙트럼의 훈련 세트를 입력값으로 이용한 기계 학습을 통해 얻어진 규칙에 상기 하나 이상의 특징을 적용함으로써 상기 예측된 RT 편이를 산출하는 단계를 포함한다.
일 실시예에서, 상기 하나 이상의 특징은, 상기 제2 라벨 물질에 치환된 중수소의 개수, 상기 질량 분석 스펙트럼의 정규화된 RT, 상기 제1 라벨 물질의 펩타이드 서열 길이, 상기 제2 물질에서 상기 제2 라벨 물질이 표지된 위치의 비율 또는 상기 질량 분석 스펙트럼의 정규화된 피크 폭 중 하나 이상을 포함한다.
일 실시예에서, 상기 제1 물질의 템플릿을 특정하는 단계는, 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼으로부터 얻어진 정규분포 곡선과 상기 제1 물질을 구성하는 원소들의 미리 알려진 동위원소 분포를 이용하여 상기 제1 물질의 템플릿을 특정하는 단계를 포함한다.
일 실시예에서, 상기 제1 물질과 상기 제2 물질의 신호를 재구성하는 단계는, 상기 제1 물질의 템플릿 및 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질 및 상기 제2 물질의 상대량을 산출하는 단계를 포함한다.
일 실시예에 따른 컴퓨터 프로그램은, 하드웨어와 결합되어 전술한 실시예들에 따른 시료의 정량 분석 방법을 실행하기 위한 것으로서, 컴퓨터로 판독 가능한 매체에 저장될 수 있다.
본 발명의 일 측면에 따른 시료의 정량 분석 장치 및 방법에 의하면, 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)에 있어서, 라벨(label) 물질에서 수소(H)의 중수소(2H, 또는 D(Deuterium)) 치환에 의하여 발생하는 리텐션 시간(retention time)의 편이(shift)를 기계 학습(machine learning)을 적용하여 효율적으로 예측할 수 있고, 그 결과 중수소 원자를 라벨 물질의 생성에 사용할 수 있어 사용 가능한 라벨 물질의 종류를 늘릴 수 있다.
또한, 본 발명의 일 측면에 따른 시료의 정량 분석 장치 및 방법에 의하면, 펩타이드 정합 스펙트럼(Peptide Spectrum Match; PSM)을 이용하여 특정된 템플릿(template)으로부터 리텐션 시간 편이 예측을 통해 각 물질의 신호를 재구성함으로써 질량차가 예를 들어 4달톤(Da), 또는 심지어 2달톤(Da) 정도로 질량이 인접한 라벨 물질들을 사용하더라도 각 물질의 신호를 정확하게 분리하는 것이 가능하므로, 분해능을 높이기 위한 고가의 장비를 사용하지 않고도 정량 측정의 다중성(multiplexity)을 향상시킬 수 있는 이점이 있다.
도 1은 모분자 기반의 라벨(label)을 이용한(MS1-based) 정량 기법을 설명하기 위한 개념도이다.
도 2는 동위원소(isotope)를 포함하는 라벨 물질을 이용하여 얻어진 질량 분석 스펙트럼의 그래프이다.
도 3a는 질량차가 작은 라벨 물질들을 사용할 경우 발생하는 스펙트럼의 중첩을 나타내는 그래프이다.
도 3b는 수소(H)가 중수소(2H, 또는 D(Deuterium))로 치환된 라벨 물질을 사용할 경우 발생하는 리텐션 시간 편이(retention time shift)를 나타내는 그래프이다.
도 3c 및 3d는 서로 상이한 물질에 대응되는 스펙트럼이 리텐션 시간 편이를 가지고 서로 중첩된 것을 나타내는 그래프이다.
도 3e는 종래의 단백질 정량 도구를 이용한 정량 분석 과정을 나타내는 개념도이다.
도 4는 일 실시예에 따른 시료의 정량 분석 장치의 블록도이다.
도 5a는 질량 분석 스펙트럼에 대한 로그정규 피팅(log-normal fitting)을 나타내는 그래프이다.
도 5b는 예측된 리텐션 시간 편이를 이용하여 다른 라벨 물질의 질량 분석 스펙트럼을 특정하는 과정을 나타내는 그래프이다.
도 6a 내지 6c는 일 실시예에 따라 질량 분석 스펙트럼을 라벨 물질 별로 분리하여 정량을 수행하는 과정을 나타내는 그래프이다.
도 7은 리텐션 시간의 정규화(normalization) 과정을 나타내는 그래프이다.
도 8은 정규화된 리텐션 시간을 나타내는 그래프이다.
도 9는 동일한 펩타이드(peptide)와 동일한 라벨 물질에 대한 반복 실험에서 리텐션 시간 편이의 경향성을 나타내는 그래프이다.
도 10은 리텐션 시간 편이를 라벨 물질에 치환된 중수소의 개수에 대하여 나타내는 그래프이다.
도 11은 리텐션 시간 편이를 정규화된 리텐션 시간에 대하여 나타내는 그래프이다.
도 12는 리텐션 시간 편이를 펩타이드 서열 길이에 대하여 나타내는 그래프이다.
도 13은 리텐션 시간 편이를 라벨로 표시된 아미노산 비율에 대하여 나타내는 그래프이다.
도 14는 리텐션 시간을 질량 분석 스펙트럼의 피크 폭에 대하여 나타내는 그래프이다.
도 15는 다양한 회귀(regression) 모델에 따른 오차를 나타내는 그래프이다.
도 16a 및 16b는 회귀 모델 중 서포트 벡터 회귀(Support Vector Regression; SVR)를 설명하기 위한 도면이다.
도 17a 및 17b는 회귀 모델로 SVR을 사용하였을 경우의 성능을 나타내는 그래프이다.
도 18은 일 실시예에 따른 시료의 정량 분석 방법을 사용할 경우 라벨 물질로 활용될 수 있는 예시적인 펩타이드들을 나타낸다.
도 19a 내지 19h는 라벨로 표시된 단백질의 비율에 따른 일 실시예에 의한 정량 결과를 이론값과 비교하여 나타내는 그래프이다.
도 20a 및 20b는 라벨로 표시된 단백질의 비율에 따른 일 실시예에 의한 정량 결과를 종래 기술에 의한 정량 결과와 비교하여 나타내는 그래프이다.
도 21은 일 실시예에 따른 시료의 정량 분석 방법의 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다.
또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 보다 상세하게 설명하기로 한다.
도 4는 일 실시예에 따른 시료의 정량 분석 장치의 블록도이다.
도 4를 참조하면, 본 실시예에 따른 시료의 정량 분석 장치는 스펙트럼 인식부(41)와, 펩타이드 정합 스펙트럼(Peptide Spectrum Match; PSM) 분석부(42)를 포함한다. 일 실시예에서, 시료의 정량 분석 장치는 단백질 분석부(43)를 더 포함한다. 실시예에 따른 시료의 정량 분석 장치는 전적으로 하드웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 즉, 시료의 정량 분석 장치 및 이에 포함된 각 부(unit)는, 특정 형식 및 내용의 데이터를 저장하거나 전자통신 방식으로 주고받기 위한 장치 및 이에 관련된 소프트웨어를 통칭할 수 있다. 하드웨어는 CPU 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 하드웨어에 의해 구동되는 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.
또한, 본 명세서에서 시료의 정량 분석 장치를 구성하는 각 부(41-43)는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 즉, 도 1에서 시료의 정량 분석 장치의 각 부는 서로 구분되는 별개의 블록으로 도시되었으나, 이는 시료의 정량 분석 장치를 이에 의해 실행되는 동작에 의해 기능적으로 구분한 것이다. 실시예에 따라서는 전술한 각 부 중 일부 또는 전부가 동일한 하나의 장치 내에 집적화될 수 있으며, 또는 하나 이상의 부가 다른 부와 물리적으로 구분되는 별개의 장치로 구현될 수도 있다. 예컨대, 각각의 부는 분산 컴퓨팅 환경 하에서 서로 통신 가능하게 연결된 컴포넌트들일 수도 있다.
스펙트럼 인식부(41)는, 리텐션 시간(Retention Time; RT)의 편이(shift)를 예측하고자 하는 시료의 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS) 스펙트럼을 수신하도록 구성된다. 이때 시료는 서로 질량이 상이한 둘 이상의 라벨 물질로 표시된다. 예컨대, 시료는 제1 라벨 물질이 부착된 제1 물질, 및 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함할 수 있다. 이때, 제1 및 제2 물질은 단백질일 수 있으며, 이에 표시되는 제1 및 제2 라벨 물질은 소정의 조성을 가지는 펩타이드(peptide)일 수 있다.
일 실시예에서, 스펙트럼 인식부(41)는 질량 분석 스펙트럼으로부터 펩타이드에 해당하는 PSM을 인식한다. 인식은 MS/MS 스펙트럼을 단백질 서열 데이터베이스의 펩타이드와 대조하는 MS-GF+ 방식으로 이루어질 수 있으나, 이에 한정되는 것은 아니다. 인식된 PSM은 펩타이드 서열에 대응되는 것일 뿐만 아니라 이에 표지된 라벨 물질에도 대응된다.
PSM 분석부(42)는, 스펙트럼 인식부(41)에 의하여 인식된 PSM을 대상으로 한 분석을 수행하여, 특정 라벨 물질(예컨대, 제1 라벨 물질)이 부착된 물질(예컨대, 제1 물질)의 신호에 대한 로그정규 피팅(log-normal fitting)을 통해 로그정규 분포를 가지는 확률 밀도 함수를 얻고, 얻어진 확률 밀도 함수에 해당 물질의 동위원소 분포 프로파일을 곱하여 해당 물질의 템플릿(template)을 특정하며, PSM이 인식된 라벨 물질과 질량차를 가지는 다른 라벨 물질(예컨대, 제2 라벨 물질)의 신호에서 발생하는 RT 편이를 예측하며, 전술한 제1 물질의 템플릿 및 예측된 RT 편이를 기반으로 다른 라벨 물질이 부착된 물질(예컨대, 제2 물질)의 템플릿을 특정하여, 특정된 템플릿들을 기반으로 각 물질의 신호를 재구성하는 PSM 수준의 정량 분석을 수행한다.
따라서, 본 명세서에서 템플릿이란, 각 물질에 해당하는 질량 대 전하비(m/z)에서 얻어지는 해당 물질의 신호 형상을 해당 물질의 동위원소 분포 프로파일을 고려하여 미리 결정한 것을 지칭한다. 실제 측정된 질량 분석 스펙트럼의 신호가 각 물질의 템플릿에 대하여 가지는 비율에 의하여 시료에서 각 물질이 차지하는 상대량을 산출할 수 있다.
구체적으로는, LC-MS/MS에 의하여 얻어지는 신호는 질량 대 전하비(m/z) 및 RT 값에 대한 세기를 가지며, 이 세기는 해당 m/z를 가지는 용리(elute)된 이온의 해당 RT에서의 합산된 존재량을 나타낸다. 용리된 특정 이온에 대하여 얻어지는 신호는 특정 m/z에서 RT 축 상의 한정된 구간에서 RT 축을 따라 종 형태의 피크를 형성하며, 이 피크 아래의 면적이 해당 이온의 존재량에 비례한다. 이때, 본 발명의 실시예들에 따라 라벨 물질의 신호를 재구성하는 과정에 대하여 설명한다.
이온의 전하 상태는 동일하며, 제1 물질에 해당하는 신호를 P1이라고 하고 제2 물질에 해당하는 신호를 P2라고 한다. 이때, P1이 m/z가 1001, RT 범위가 3 내지 6이며, P2가 m/z가 1005, RT 범위가 1 내지 4인 것으로 가정한다. 이때, 해당 펩타이드가 3개의 동위원소를 가지며 그 비율이 1:r1:r2 라고 하면, 제1 물질의 동위원소들의 군집 신호인 템플릿 행렬은 하기 수학식 1로 나타낼 수 있으며, 제2 물질의 동위원소들의 군집 신호인 템플릿 행렬은 하기 수학식 2로 나타낼 수 있다.
[수학식 1]
Figure pat00001
[수학식 2]
Figure pat00002
상기 수학식 1 및 수학식 2의 각 행렬에서 i번째 행은 m/z 값 (i+1000)에 대응되며, j번째 열은 RT에 대응된다. 또한, 상기 수학식 1의 xt 및 상기 수학식 2의 yt는 대상 신호의 전체 신호 세기가 1일 때 해당 m/z 및 RT에서의 단동위(monoisotopic) 신호 세기를 나타낸다. 이때, 제1 및 제2 물질의 신호를 포함하는 전체 신호는 하기 수학식 3과 같이 정의될 수 있으며, q1 및 q2는 해당 m/z를 가지는 신호의 전체 세기를 나타낸다.
[수학식 3]
Figure pat00003
PSM 분석부(42)는, 라벨 물질의 PSM을 이용한 로그정규 피팅을 통하여 라벨 물질이 부착된 물질의 신호를 로그정규 분포를 가지는 확률 밀도 함수로 재구성하고, 확률 밀도 함수에 해당 물질의 동위원소 분포 프로파일을 곱하여 상기 수학식 3의템플릿 T1 및 T2 각각을 얻을 수 있다. 본 명세서에서, 로그정규 분포를 가지는 확률 밀도 함수는 간단히 정규분포 곡선으로도 지칭된다.
도 5a는 질량 분석 스펙트럼에 대한 로그정규 피팅을 나타내는 그래프이다.
도 5a를 참조하면, 분석 대상 PSM은 하나 이상의 그래프(500-506)로 이루어진 것으로 가정한다. PSM 분석부(42)는 로그정규 피팅을 위하여 라벨 물질에 해당하는 PSM이 탐지된 그래프(500)로부터 신호 세기의 정점(apex)을 탐지한다. 정점은 라벨 물질에 대응되는 신호가 특정된 RT로부터 신호 세기가 증가하는 방향으로 탐색한 결과 첫 번째 발생되는 신호 세기의 변곡점으로 결정되며, 이 정점을 이용하여 로그정규 피팅을 수행함으로써 수학식 1 및 수학식 3의 T1의 성분 xt 및 이의 RT 범위가 결정될 수 있다.
구체적으로, 그래프(500)에 해당하는 입력 값이 RT축 상의 각 위치에서의 이온 신호 세기 값을 각 성분으로 가지는 벡터 (z0; z1; ... ; zp; ... )이며, p가 세기의 정점에 해당하는 RT 값이라고 하면, RT축 상의 위치 x에서의 확률 밀도 함수는 lnN(x; μ; σ2)로 정의될 수 있다. 여기서, μ는 위치 파라미터로서 임의의 양수이며, σ는 스케일(scale) 파라미터이다. 이때, e > p 이며 신호 세기 ze ≤ zp/10 인 가장 작은 RT에 해당하는 e와, s < p 이며 신호 세기 zs ≥ zp/100 인 가장 큰 RT에 해당하는 s 사이에서 입력 값을 추출하고, s 와 e 사이의 RT 값 t에 대하여 하기 수학식 4와 같이 함수를 정의할 수 있다. 이는 μ 값에 관계 없이 s 로부터 시작하며 p에서 정점을 가지는 로그정규 분포를 가지는 확률 밀도 함수이며, μ 값에 의해 커브의 형태가 결정된다.
[수학식 4]
Figure pat00004
이때, PSM 분석부(42)는 μ 값을 변화시켜 가면서 벡터 (zs; zs + 1; ... ; ze -1; ze) 및 벡터 (fμ(zs); fμ(zs+1); ... ; fμ(ze-1); fμ(ze))(510-513으로 도시됨) 사이의 코사인(cosine) 값을 결정하고, 코사인 값이 가장 큰 μ의 값을 결정한다. 코사인 값이 가장 큰 μ 값을 대입한 벡터 (fμ(zs); fμ(zs+1); ... ; fμ(ze-1); fμ(ze))가 그래프(500)에 대응되는 정규분포 함수로서 출력된다.
한편, 라벨 물질이 탐지되지 않은 그래프(502, 504)에 대해서는 위와 같은 방식으로 로그정규 피팅을 수행할 수 없다. 이 때문에, PSM 분석부(42)는 RT 편이 예측부(421)를 포함하여 제1 라벨 물질과 제2 라벨 물질 사이의 RT 편이의 예측값을 산출하고, 제1 라벨 물질에 피팅된 정규분포 곡선(510)의 정점 위치를 RT 편이의 예측값만큼 이동시키는 것에 의하여 제2 라벨 물질의 신호를 정규분포 곡선으로 재구성한다. 이 과정에 의하여, 수학식 1 및 수학식 2의 T2 의 성분 yt와 이의 RT 범위가 결정될 수 있다.
도 5b는 예측된 RT 편이를 이용하여 다른 라벨 물질의 질량 분석 스펙트럼을 특정하는 과정을 나타내는 그래프이다.
도 5b을 참조하면, PSM 분석부(42)에 의해 그래프(500)에 대응되는 정규분포 함수(600)가 얻어지며, 그래프(500)로부터 라벨 물질에 해당하는 신호가 얻어진 것으로 가정한다. 이때, PSM 분석부(42)는 라벨 물질들 사이의 질량차를 이용하여 다른 라벨 물질의 신호가 얻어질 질량 대 전하비(m/z)를 알 수 있으므로, 다른 라벨 물질에 해당하는 그래프(502, 504)를 결정한다. 또한, PSM 분석부(42)는 RT 편이를 예측하기 위해 추출된 하나 이상의 특징에 기반하여, 각 그래프(502, 504)에 대응되는 RT 편이를 산출한다. 산출된 RT 편이를 이용하여, 각 그래프(502, 504)로부터 전처리와 동일한 피팅 방식으로 각 그래프(502, 504)에 해당하는 정규분포 곡선(620, 640)을 얻을 수 있다. PSM 분석부(42)가 RT 편이를 예측하기 위한 기계 학습(machine learning) 과정에 대해서는 도 5 내지 도 17을 참조하여 후술한다.
도 6a 내지 6c는 일 실시예에 따라 질량 분석 스펙트럼을 라벨 물질별로 분리하여 정량을 수행하는 과정을 나타내는 그래프이다.
도 6a를 참조하면, 도 3d를 참조하여 전술한 것과 같이 상이한 라벨 물질(110, 120, 130)을 이용하여 스펙트럼을 얻은 결과 서로 상이한 라벨 물질에 해당하는 그래프(301, 302) 및 그래프(323, 324)와, 상이한 라벨 물질들의 신호가 중첩된 그래프(331-334)의 형태로 스펙트럼이 얻어지며, 그래프(301)로부터 라벨 물질에 대응되는 신호가 특정되었다고 가정한다. 이때, PSM 분석부(42)에서는 라벨 물질의 신호에 대한 전술한 로그정규 피팅 과정을 통해 해당 물질의 m/z 범위 및 RT 범위를 가지는 도메인(domain)(610)을 결정할 수 있다. m/z 범위는 동위원소에 대한 정보로부터 알 수 있으며, RT 범위는 로그정규 피팅을 통하여 얻어진다.
다음으로, PSM 분석부(42)에서는 RT 편이 예측부(421)에 의하여 산출된 RT 편이 예측값을 이용하여, 신호가 검출된 라벨 물질과 질량차를 가지는 다른 라벨 물질의 신호가 존재할 도메인(620, 630)을 결정하고, 해당 도메인(620, 630)으로부터 신호를 검출할 수 있다. 이때, 각 도메인(620, 630)에서 검출되는 신호는 여전히 상이한 펩타이드들의 신호가 동위원소로 인해 중첩된 형태를 갖는다.
도 6b를 참조하면, 위와 같은 문제를 해결하기 위해, PSM 분석부(42)에서는 동위원소 분포를 반영한 템플릿을 통하여 중첩된 신호를 상이한 펩타이드에 대응되는 신호들(701-704, 801-804, 901-904)로 분리한다. 구체적으로는, PSM 분석부(42)의 동위원소 분리부(422)는 라벨로 표지된 물질의 이온 조성을 통하여 동위원소 분포 프로파일(profile)을 산출한다. 예를 들어, 이온 조성이 C10O30이라고 하면, 알려져 있는 탄소(C)의 동위원소 분포는 n번째 성분이 n번째 동위원소의 분포량을 나타내는 벡터로 표현하면 (0.9893, 0.0107)로 나타낼 수 있고, 산소(O)의 동위원소 분포는 동일한 방식으로 (0.99757, 0.00038, 0.00205)로 나타낼 수 있다.
이때, 이온 조성이 C10O30인 펩타이드의 동위원소 분포를 산출하기 위하여, 동위원소 분리부(422)는 상기 펩타이드가 가상의 원소 α가 40개 있는 것과 동일하다고 보고, α에 대한 동위원소 분포 프로파일은 펩타이드에서 탄소(C)의 동위원소 분포와 산소(O)의 동위원소 분포를 각 원소 비율에 비례적으로 합산하여 하기 수학식 5와 같이 결정할 수 있다.
[수학식 5]
Figure pat00005
다음으로, 펩타이드의 n번째 동위원소의 신호 세기의 비율은, 상기 동위원소 분포 프로파일을 이용한 비순환 방향 그래프(Directed Acyclic Graph; DAG) 알고리즘으로 결정될 수 있다. 구체적으로는, 두 종류의 동위원소가 있는 경우 각 동위원소는 DAG 알고리즘에서 에지(edge) e1 및 e2로 각각 표현되는데, e1은 임의의 n에 대하여 n-1번째 노드(node)와 n번째 노드를 연결하는 것이고, e2는 n-2번째 노드와 n번째 노드를 연결하는 것이다. l1개의 e1과 l2개의 e2로 이루어진 경로를 상정하면, 경로의 세기는 하기 수학식 6의 확률질량함수(probability mass function)로 나타낼 수 있다.
[수학식 6]
Figure pat00006
상기 수학식 6에서 m은 시행 횟수이며, p1, p2, p3는 각 동위원소의 분포 확률로서, 수학식 5에 수학식 6의 결과 및 임의의 시행회수 40회를 대입하면 경로의 세기는 하기 수학식 7과 같이 정의된다.
[수학식 7]
Figure pat00007
수학식 7을 기반으로 DAG의 경로 탐색 알고리즘에 의하여 0번째 노드로부터 n번째 노드까지의 모든 경로를 수집할 수 있으며, 이때 n번째 동위원소의 신호 세기는 위와 같이 수집된 모든 경로의 세기의 합으로 얻어진다. 이 세기는 0번째 세기가 1이 되도록 정규화된다.
도 6c를 참조하면, PSM 분석부(42)의 재구성부(423)는, 전술한 과정에 의하여 RT 편이 예측부(421)에 의하여 산출된 RT 편이 예측값 및 동위원소 분리부(422)에 의하여 동위원소의 세기 분포를 반영하여 특정된 각각의 물질에 대응되는 템플릿을 이용하여 각 물질의 신호를 재구성한다. 구체적으로는, 재구성부(423)는 전술한 수학식 3을 기반으로 측정된 신호 세기와 예측에 의해 산출된 신호 세기 사이의 오차를 최소화하는 각 템플릿에 대한 가중치 q1 및 q2를 산출한다.
예컨대, 측정된 신호 세기를
Figure pat00008
이라 하고 예측값을 적용한 템플릿 신호 행렬을
Figure pat00009
Figure pat00010
라 할 경우, 재구성부(423)는 하기 수학식 8이 최소가 되는 q1 및 q2의 값을 계산할 수 있다. q1 및 q2을 얻기 위한 계산 과정은 통상의 기술자에게 용이하게 이해될 수 있으므로 자세한 설명을 생략한다.
[수학식 8]
Figure pat00011
일 실시예에서, 재구성부(423)는 신호를 재구성하는 과정에서 함께 용리(co-elute)된 다른 이온들로 인한 잡음을 고려할 수 있다. 잡음의 형태 및 위치를 나타내는 행렬을 Cj라 하고 잡음의 양을 wj라 할 경우, 잡음을 고려한 신호는 하기 수학식 9와 같이 나타낼 수 있다. 하기 수학식 9에서 L은 라벨 물질의 개수를 나타낸다.
[수학식 9]
Figure pat00012
수학식 9의 잡음 성분은 라벨로 표지된 펩타이드의 신호를 제외한 다른 부분에서 신호 세기의 정점을 이용한 로그정규 피팅에 의하여 얻어질 수 있으며, 최대 크기가 1이 되도록 정규화된다.
한편, 재구성부(423)가 잡음을 고려하는 경우 하기 수학식 10에 의하여 측정 신호와 재구성된 신호 사이의 차이가 정의될 수 있다.
[수학식 10]
Figure pat00013
이때, 잡음을 제외한 펩타이드 신호 세기는 하기 수학식 11과 같이 정의될 수 있으므로, 신호대잡음비(Signal-to-Noise Ratio; SNR)는 하기 수학식 12와 같이 정의된다. 재구성부(423)는 분석 대상 PSM 중에서 SNR이 미리 설정된 문턱값 미만인 것은 정확성을 위하여 대상에서 제외할 수 있다. 또한, 재구성부(423)는 같은 도메인을 가지는 PSM이 복수 개 있을 경우 스펙트럼 E-값이 가장 낮은 PSM 및/또는 펩타이드 수준 q-값이 가장 낮은 PSM만을 대상으로 할 수도 있다.
[수학식 11]
Figure pat00014
[수학식 12]
Figure pat00015
단백질 분석부(43)는, PSM 분석부(42)에 의하여 얻어진 각 표지된 펩타이드의 상대량(예컨대, q1 및 q2)을 이용하여 단백질 수준에서의 분석을 수행한다. 하나의 PSM은 특정 단백질에 고유하게 정합되는 것일 수도 있고, 또는 여러 단백질이 공유하는 서열로서 어느 단백질로부터 유래하는 것인지 불명확한 것일 수도 있다. 이러한 불명확성을 해소하기 위하여, 단백질 분석부(43)는 시료의 단백질 비율과 이에 정합되는 PSM 비율이 일정할 것이라는 가정 하에 PSM을 선별한다.
구체적으로, PSM과 단백질을 각각 이분 그래프(bipartite graph)의 노드 집합 U 및 V로 나타내고, 노드 사이의 에지를 E로 나타내며, 그래프 G(U, V, E)에서 U에서 속하는 노드 u 및 V에 속하는 노드 v 사이의 에지 (u, v)는 PSM과 단백질이 정합되는 경우에 연결되는 것으로 가정한다. 이때, 노드 u의 신호 세기는 전술한 PSM 분석부(42)의 정량 분석에 의하여 하기 수학식 13과 같이 주어진다.
[수학식 13]
Figure pat00016
단백질 노드 v에 연결된 PSM 노드의 집합을 U(v)라고, 하고, U(v)에 속하는 벡터 qu의 합을 Qv라고 하면, 단백질의 비율과 이에 정합되는 PSM의 비율이 일정하다면 qu 와 Qv는 유사한 방향을 가져야 할 것이다. 단백질 분석부(43)는 이러한 방향의 유사성이 나타나도록 에지들을 선별한다. 단백질 분석부(43)는 벡터 qu 및 벡터 Qv - qu 사이의 코사인(cosine) 값을 계산하며, 이는 qu 와 Qv의 방향이 일치하는 정도에 대응된다.
단백질 분석부(43)는 크기가 1 이상인 U(v)에 대하여 위와 같이 산출된 코사인 값이 미리 설정된 문턱값(예컨대, 0.8) 미만인 에지들은 제거함으로써 U(v)를 갱신하고, 이를 기초로 Qv를 갱신한다. 이상의 과정은 모든 단백질 노드 v에 대하여 반복 수행됨으로써, 부정확하거나 특이값에 해당하는 PSM에 해당하는 노드를 제외할 수 있다. 이상의 과정은 단백질별 가지치기(per-protein-pruning)로 명명될 수 있다.
다음으로, 단백질 분석부(43)는, 각 PSM 노드 u에 대한 분석을 수행한다. 노드 u가 복수의 단백질 노드 v에 연결되어 있을 경우 이에 해당하는 PSM는 여러 단백질에 의해 공유되는 것이다. 이때, 단백질 분석부(43)는 각 노드 v에 대하여 벡터 qu 및 벡터 Qv 사이의 코사인 값이 최대가 되는 에지만을 남긴다. 이상의 과정은 모든 노드 u에 대하여 수행된다. 이상의 과정은 펩타이드별 가지치기(per-peptide-pruning)로 명명될 수 있다.
전술한 단백질별 또는 펩타이드별 가지치기 과정은 복수 회(예컨대, 10회) 교대로 반복 수행될 수 있다. 이 과정 후, 정합된 PSM의 수가 미리 설정된 문턱값(예컨대, 2) 미만인 단백질 노드는 제외할 수도 있다. 이후 남겨진 단백질 노드 v를 포함하는 벡터 Qv가 최종 결정된 단백질 수준의 정량 분석 결과가 된다. 이상의 과정을 통하여, 시료로 사용된 단백질의 각 성분이 어떠한 비율로 분포되어 있는지에 대한 정보를 얻을 수 있다.
이하에서는, PSM 분석부(42)의 RT 편이 예측부(421)의 구체적인 동작 중 RT 편이를 예측하기 위하여 기계 학습을 통해 RT 편이와의 상관 관계가 높은 하나 이상의 특징을 결정하는 과정에 대하여 설명한다.
도 7은 RT 정규화(normalization) 과정을 나타내는 그래프이다.
도 7을 참조하면, 각 시행에 따른 오차를 방지하기 위하여, 질량이 상이한 복수의 라벨 물질을 이용하여 타겟 물질의 LC-MS/MS 스펙트럼을 복수 회의 측정에 의해 얻고 이로부터 측정된 RT 절대값을 0 내지 125 분 사이의 각 시간에 대한 발생 빈도로 나타낼 수 있다. 이때, 절대값이 작은 쪽으로부터 큰 쪽으로 20번째 RT에 해당하는 RT20 및 80번째에 RT에 해당하는 RT80 사이의 시간 간격을 RT 스팬(span)이라고 하면, 정규화된 RT 값은 [(RT-RT20) / RT 스팬]으로 정의될 수 있다.
도 8은 정규화된 RT를 나타내는 그래프이다.
도 8을 참조하면, 본 발명자들에 의한 실험 결과 RT20 은 27분, RT 스팬은 62분이었으며, 도트 형태로 도시된 라벨 물질의 신호 지점에서 RT는 94분으로서 정규화된 RT 값은 1.08이었다. RT에 대한 신호 세기 그래프의 피크 폭은 1분으로서 정규화된 피크 폭은 이를 RT 스팬으로 나누어 정규화하면 0.01613이며, 라벨 물질 사이의 RT 편이는 0.4 분으로서 이를 RT 스팬으로 나누어 정규화하면 0.0065였다.
도 9는 동일한 펩타이드와 동일한 라벨 물질에 대한 반복 실험에서 RT 편이의 경향성을 나타내는 그래프이다.
도 9를 참조하면, 반복 시행에도 불구하고 각 시행 결과의 상관 계수(correlation coefficient)는 0.803690, 평균 제곱근 편차(root-mean-square error; RMSE)는 피크 폭의 1/10 미만인 0.001312이다. 이는 반복 시행에도 불구하고 RT 편이가 일정한 경향성을 갖는다는 것을 의미하는 것으로서, 하나의 샘플에 대한 RT 편이로부터 다른 샘플의 RT 편의를 예측할 수 있는 가능성을 시사한다.
본 발명자들은, 이상과 같은 점에 착안하여, 정규화된 RT를 기반으로 RT 편이에 영향을 미치는 특징을 추출하기 위하여 다양한 실험을 수행하였다. 본 발명자들은 세 번의 LC-MS/MS 시행에 의하여 얻어진 22,000개의 PSM(또는, 질량 분석 스펙트럼으로도 지칭함)을 훈련 세트로 하여 다양한 특징을 시험하였으며, RT 편이와 선형적인 상관 관계를 가지는 특징들을 선별하였다. 일 실시예에서, 선별된 특징은 기본 라벨 물질에 해당하는 펩타이드에 대비하여 다른 라벨 물질에 치환된 중수소(D)의 개수, 및 타겟 물질에 해당하는 이온 신호의 정규화된 RT를 포함한다.
또한 일 실시예에서, 선별된 특징은 타겟 물질의 펩타이드 서열 길이, 타겟 물질에서 라벨로 표시된 위치의 비율 및/또는 타겟 물질에 해당하는 이온 신호의 정규화된 RT 폭을 더 포함한다. 라벨로 표시된 위치의 비율이란, 펩타이드에서 라벨 물질의 분자가 부착된 위치의 수를 펩타이드의 길이로 나눈 값을 지칭한다. 라벨 물질의 분자는 아미노산, 예컨대, 라이신(Lysine)일 수 있으나, 이에 한정되는 것은 아니며, 아르기닌(Arginine) 또는 티로신(Tyrosine) 등 다른 아미노산이 사용될 수도 있다.
도 10은 RT 편이를 기계 학습을 위한 특징 중 하나로서 라벨 물질에 치환된 중수소의 개수에 대하여 나타내는 그래프이다. 도 10에 도시되는 것과 같이, 정규화된 RT 편이값은 라벨 물질에 치환된 중수소(D)의 개수와 연관된 것으로 보였으며, 상관 거리(distance correlation)가 0.57로 가장 높게 나타났다. 본 명세서에서 상관 거리는 선택된 특징과 RT 편이 사이의 선형적 및/또는 비선형적인 연관을 포괄하여 유사도를 나타내기 위한 것으로서, Gabor J. Szekely 외 공저의 논문 "Measuring and testing dependence by correlation of distances" (The Annals of Statistics, 35(6):2769-2794)에 개시된 방법에 의하여 산출되었다.
도 11은 RT 편이를 기계 학습을 위한 또 다른 특징 중 하나로서 정규화된 RT에 대하여 나타내는 그래프이다. 도 11을 참조하면, RT 편이는 정규화된 RT 값과 상관 관계를 가지며 액체 크로마토그래피의 시작 시점과 끝 시점에서 RT 편이가 감소하는 경향을 갖는 것으로 나타났다. 시각적으로 두드러지도록, 라벨 물질에서 치환된 중수소 개수는 20개로 하였으며, 이는 후술하는 도 12 내지 도 15에서도 동일하다. 정규화된 RT 값과 RT 편이의 상관 거리는 0.33 이었다.
도 12는 RT 편이를 기계 학습을 위한 또 다른 특징 중 하나로서 펩타이드 서열 길이에 대하여 나타내는 그래프이다. 도 12를 참조하면, 타겟 물질에 해당하는 펩타이드의 길이가 길수록 RT 편이가 감소하는 것으로 나타냈다. 이는 펩타이드가 길 경우 중수소(D) 치환으로 인한 영향이 상대적으로 적은 것으로 이해될 수 있고, 펩타이드 서열 길이와 RT 편이의 상관 거리는 0.43 이었다.
도 13은 RT 편이를 기계 학습을 위한 또 다른 특징 중 하나로서 라벨로 표시된 아미노산(라이신) 비율에 대하여 나타내는 그래프이다. 도 13을 참조하면, 라이신의 비율이 높을수록 RT 편이가 증가하는 것으로 나타났으며, 라이신 비율과 RT 편이의 상관 거리는 0.40 이었다.
도 14는 RT 편이를 기계 학습을 위한 또 다른 특징 중 하나로서 질량 분석크 스펙트럼의 피크 폭에 대하여 나타내는 그래프이다. 본 명세서에서 피크 폭은 다음과 같이 정의된다. 각 질량 대 전하비(m/z)에 상응하는 정규분포 곡선에서, 특정 RT 시간 구간에서는 신호 세기가 해당 정규분포 곡선의 신호 세기 최대값의 1/100 이상이며, 해당 구간을 제외한 다른 구간에서는 신호 세기가 전술한 최대값의 1/100 미만일 경우, 상기 특정 RT 시간 구간을 피크 폭으로 정의한다. 피크 폭과 RT 편이의 상관 거리는 0.25 였다.
RT 편이 예측부(421)는, 도 10 내지 도 14에 도시된 것과 같이 RT 편이와 상관 관계를 가지는 각 특징을 입력값으로 이용한 기계 학습 알고리즘을 수행함으로써 RT 편이의 예측값을 산출한다.
구체적으로는, 타겟 물질에 해당하는 단백질과, 라벨로 사용된 펩타이드들의 종류 및 타겟 물질의 동위원소의 질량차 등이 알려진 질량 분석 스펙트럼의 훈련 세트로부터 RT 편이 예측부(421)의 특징 추출부(4211)에 의해 전술한 각 특징값을 추출한다. 다음으로, RT 편이 예측부(421)의 기계 학습부(4212)는 각 특징값과 훈련 세트로부터 측정된 RT 편이를 입력값으로 한 기계 학습 알고리즘에 의해 각 특징값과 RT 편이의 관계를 정의하는 규칙을 생성하고, 이러한 규칙을 훈련 세트가 아닌 시료에 적용함으로써 시료의 질량 분석 스펙트럼에서 발생하는 RT 편이의 예측값을 산출한다.
실시예들에서 특징값들과 RT 편이의 관계를 정의하는 규칙의 형태는 기계 학습 알고리즘에 따라 상이할 수 있으며 일괄적으로 정의될 수 없다. 실시예들에 있어서 기계 학습부(4212)는 선형 회귀(Linear regression) 알고리즘, K 최근접 이웃(K Nearest Neighbors; KNN) 알고리즘, 반지름 근접 이웃(Radius Neighbors) 알고리즘, 신경 네트워크(Neural Network) 알고리즘, 결정 트리(Decision Tree) 알고리즘, 커널 능형 회귀(Kernel Ridge Regression; KRR) 알고리즘, 서포트 벡터 회귀(Support Vector Regression; SVR) 알고리즘 또는 다른 적당한 기계 학습 알고리즘을 적용할 수 있다.
알고리즘의 적용에 있어 각각의 특징값은 리스케일된(rescaled) 형태 또는 표준화된(standardized) 형태로 적용될 수 있다. 리스케일의 경우 각 특징값은 특징값을 x라고 할 경우 최소값이 -1이며 최대값이 1이 되도록 하기 수학식 14에 따라 리스케일된 특징값 x'로 변환된다.
[수학식 14]
Figure pat00017
또한, 표준화의 경우 각 특징값은 특징값의 평균이 0이 되고 표준편차가 1이 되도록 하기 수학식 15에 따라 표준화된 특징값 x'로 변환된다. 수학식 15에서 σ는 표준화 전 모집단의 표준편차를 의미한다.
[수학식 15]
Figure pat00018
도 15는 다양한 회귀 모델에 따른 오차를 나타내는 그래프이다. 도 15를 참조하면, 도 10 내지 도 14를 참조하여 전술한 5개의 특징을 모두 사용하여 기계 학습을 수행하였으며, 각각의 회귀 모델에 있어서 10겹 교차 검증(10-fold cross validation)을 통해 예측된 RT 편이 값과 실제 측정된 RT 편이 값 사이의 RMSE를 산출하였다. 이 중 표준화된 특징값을 적용한 SVR 알고리즘의 경우 RMSE 값이 0.0016으로서 가장 바람직하게 나타났다.
SVR 알고리즘의 경우, 데이터 원본값이 변수 x 및 y를 갖는다고 가정하면, 대부분의 데이터에서 발생하는 오차값의 크기를 무시하고 모든 데이터가 허용 오차범위(예컨대, ε로 표기)에 들어가야 한다는 제한만을 적용하면서 y = wx + b 형태로 모델을 생성한다. 이후, 모든 데이터가 오차범위 안에 속하고 모델값과 가장 가까운 데이터들 사이의 폭(m)이 최대가 되도록 y = wx + b를 정의하는 w, b의 값을 산출함으로써 변수 x 및 y의 관계를 선형결합 형태의 식으로 설명한다. 예를 들어, 도 16a와 같은 모델은 변수 사이의 관계를 잘 설명하는 것인 반면, 도 16b와 같은 모델은 변수 사이의 관계를 잘 설명하지 못하는 것으로 판정한다. 본 실시예에서는, 이를 적용하여 특징값들과 RT 편이의 관계식을 정의하고 기계학습을 수행할 수 있다.
한편, 일 실시예에서는 비선형인 변수들 사이의 관계를 선형으로 근사하기 위해 커널(kernel) 함수가 적용된 SVR 알고리즘을 통하여 기계학습을 수행할 수도 있다. 가우시안 방사 기저 함수(Gaussian Radial Basis Function)라는 커널 함수를 데이터 원본에 적용한 후 SVR 알고리즘에 의해 기계 학습을 수행할 경우, 데이터의 차원을 높일 수 있어 변수들 사이의 복잡한 관계도 모델에 포함시킬 수 있다.
SVR 알고리즘의 구체적인 연산은 본 발명의 속하는 기술분야의 통상의 기술자에게 용이하게 이해될 수 있으므로, 발명의 요지를 명확하게 하기 위하여 본 명세서에서는 자세한 설명은 생략한다.
도 17a 및 17b는 회귀 모델로 SVR을 사용하였을 경우의 성능을 나타내는 그래프이다. 도 17a를 참조하면, 정규화된 피크 폭 평균이 0.016일 때 예측된 RT 편이의 RMSE 값은 이의 1/10에 해당하는 0.0016에 불과하여 RT 편이에 대한 예측의 정확성을 확인할 수 있다. 또한, 도 17b를 참조하면, 예측된 RT 편이와 실제 측정된 RT 편이 사이의 상관 계수는 0.76242로 높은 상관도를 나타내었다.
또한, 본 발명자들은 도 10 내지 14를 참조하여 전술한 5개의 특징을 개별적으로 사용하는 경우와 5개의 특징 모두를 사용하는 경우의 기계 학습 결과에 기반한 RT 편이 예측 결과를 비교하였으며, 그 결과는 하기 표 1과 같다. 표 1에 도시된 것과 같이 5개의 특징을 개별적으로 이용하는 경우와 함께 이용하는 경우 RMSE에서의 편차는 상대적으로 크지 않았다. 반면, 상관 계수에 있어서는 모든 특징을 함께 이용한 기계 학습의 결과가 큰 폭으로 높은 상관도를 나타내었다.
예측 형태 이용된 특징 RMSE 상관 계수
단일 특징 이용 중수소(D) 개수 2.2×10-3 0.47
정규화된 RT 2.4×10-3 0.24
펩타이드 서열 길이 2.4×10-3 0.21
라벨된 아미노산 비율 2.3×10-3 0.33
피크 폭 2.4×10-3 0.32
모든 특징 이용 상기 특징 모두 1.6×10-3 0.77
표 1에 도시된 결과는, 질량 분석 스펙트럼에 있어서 RT 편이의 값은 스펙트럼의 전체 폭에 비해 상대적으로 작은 값이라는 점과, RT 편이가 크게 나타내는 질량 분석 스펙트럼에 있어서 본 실시예에 따라 5개의 특징을 이용하여 기계 학습을 통해 RT 편이를 정확하게 예측할 수 있음을 의미한다.
이상에서 설명한 본 발명의 실시예들에 따른 시료의 정량 분석 장치에 의하면, 라벨 물질에서 수소(H)의 중수소(2H, 또는 D(Deuterium)) 치환에 의하여 발생하는 RT 편이를 기계 학습을 적용하여 효율적으로 예측할 수 있다. 또한, 질량차가 예를 들어 4달톤(Da), 또는 심지어 2달톤(Da) 정도로 질량이 인접한 라벨 물질들을 사용하더라도 각 라벨 물질의 신호를 정확하게 분리하는 것이 가능하므로, 분해능을 높이기 위한 고가의 장비를 사용하지 않고도 정량 측정의 다중성(multiplexity)을 향상시킬 수 있다.
도 18은 일 실시예에 따른 시료의 정량 분석 방법을 사용할 경우 라벨 물질로 활용될 수 있는 예시적인 펩타이드들을 나타낸다.
도 18을 참조하면, 최상단에 도시된 것과 같이 H2N-펩타이드-K-NH2의 구조를 가지는 펩타이드를 나트륨시아노보로하이드라이드(NaBH3CN) 및 알데히드(aldehyde)와 반응시켜 2개의 에틸(ethyl)기가 결합된 말단을 가지는 펩타이드 구조체를 기본 라벨 물질로 하고, 반응 물질에서 일부 수소(H) 원자를 중수소(D)로 치환해감으로써 기본 라벨 물질로부터 4달톤(Da)씩 질량이 증가하는 5종류의 추가적인 라벨 물질용 펩타이드 구조체를 얻을 수 있다. 도 18에 도시된 펩타이드들을 이용하면 한꺼번에 6개의 라벨 물질을 이용한 측정(6-plexing)이 가능하다. 그러나 이는 예시적인 것으로서, 반응 물질의 변경에 의해 펩타이드의 종류를 늘림으로써 8개 또는 10개의 라벨 물질을 이용한 측정도 가능하며, 사용 가능한 펩타이드의 개수는 1개 이상 임의의 숫자 일 수 있고 특정 개수로 한정되지 않는다.
도 19a 내지 19h는 라벨로 표시된 단백질의 비율에 따른 일 실시예에 의한 정량 결과를 이론값과 비교하여 나타내는 그래프이다.
도 19a 내지 19h는 도 18에 도시된 것과 같은 6종류의 펩타이드 구조체를 라벨 물질로 사용한 시료의 정량 분석 결과를 나타내는 것으로서, 도 19a에서 각 라벨 물질이 부착된 단백질의 비율은 1:1:1:1:1:1이며, 도 19b에서 상기 비율은 1:1.2:1:1.2:1:1.2이고, 도 19c에서 상기 비율은 1:4:1:4:1:4이며, 도 19d에서 상기 비율은 1:8:1:8:1:8이고, 도 19e에서 상기 비율은 1:10:1:10:1:10이며, 도 19f에서 상기 비율은 1:20:1:20:1:20이고, 도 19h에서 상기 비율은 1:50:1:50:1:50이다.
각 그래프는 2번 라벨 물질의 신호에 대한 다른 라벨 물질 신호의 상대 비율을 로그2 폴드(log2 fold) 변화로 나타낸 것이며, 점선으로 표시된 것은 이론적인 신호 위치를 나타낸다. 도시되는 것과 같이, 각 라벨 물질이 표지된 단백질의 비율이 다양하게 변화하는 경우에도 본 실시예에 의한 정량 분석 결과가 이론적인 값을 잘 추종하는 것을 확인할 수 있다.
또한, 도 20a 및 20b는 라벨로 표시된 단백질의 비율에 따른 일 실시예에 의한 정량 결과를 종래 기술에 의한 정량 결과와 비교하여 나타내는 그래프이다.
도 20a 및 20b에서 종래 기술로는 LC-MS/MS 스펙트럼 기반의 정량 도구인 맥스퀀트(MaxQuant)가 이용되었으며, 맥스퀀트에서는 3종류의 라벨 물질까지만 동시 측정이 가능하므로, 도 18을 참조하여 전술한 방식으로 질량이 4달톤(Da)씩 증가하는 3종류의 펩타이드를 라벨 물질로 사용하였다. 동위원소로 인한 신호의 중첩은 없도록 하였다. 도 19a 내지 19h와 마찬가지로, 도 20a 및 20b에서도 각 그래프는 2번 라벨 물질의 신호에 대한 다른 라벨 물질 신호의 상대 비율을 로그2 폴드(log2 fold) 변화로 나타낸 것이며, 점선은 이론적인 신호 위치를 나타낸다.
도 20a는 세 종류의 라벨 물질이 표지된 단백질의 비율이 1:1:1인 경우의 정량 분석 결과이며, 도 20b는 상기 비율이 1:10:20인 경우의 정량 분석 결과이다. 도시되는 것과 같이, 종래 기술의 경우 단백질 비율이 1:1:1인 경우에는 비교적 정확한 결과가 얻어지지만 비율이 1:10:20으로 증가하면서 이론값과의 오차가 증가하는 반면에, 본 실시예에 의하면 비율이 증가하는 경우에도 정량 분석 결과가 이론값을 잘 추종하는 것을 확인할 수 있다.
도 21은 일 실시예에 따른 시료의 정량 분석 방법의 순서도이다.
도 21을 참조하면, 시료의 LC-MS/MS 스펙트럼을 수신하고(S1), 수신된 스펙트럼 중 분석 대상 스펙트럼을 특정할 수 있다(S2). 분석 대상 스펙트럼을 특정하는 과정은 스펙트럼으로부터 PSM을 인식하는 과정을 포함하며, 예컨대, MS/MS 스펙트럼을 단백질 서열 데이터베이스의 펩타이드와 대조하는 MS-GF+ 방식으로 이루어질 수 있으나, 이에 한정되는 것은 아니다.
다음으로, 인식된 PSM으로부터 제1 라벨 물질에 대응되는 신호를 추출하고(S3), 추출된 신호를 이용한 로그정규 피팅을 통해 해당 라벨 물질이 표지된 제1 물질인 펩타이드의 신호에 대응되는 템플릿을 특정할 수 있다(S4). 이때, 템플릿은 제1 물질의 알려진 동위원소 분포 프로파일을 반영할 수 있다. 즉, 인식된 PSM에 대하여 피팅된 정규분포 함수와 해당 물질의 동위원소 분포 프로파일을 곱하여 해당 물질의 템플릿을 얻을 수 있다.
또한, 제1 라벨 물질과 제2 라벨 물질의 알려진 질량차를 기반으로, 제1 라벨 물질과 제2 라벨 물질 간의 RT 편이의 예측된 값을 산출한다. 예측값을 산출하는 과정은, 질량 분석 스펙트럼으로부터 기계 학습을 위한 하나 이상의 특징을 추출하는 단계(S5) 및 추출된 특징을 SVR 등 기계 학습 알고리즘에 적용하여 RT 편이를 예측하는 단계(S6)를 포함한다.
다음으로, 제1 물질의 재구성된 PSM 및 RT 편이의 예측값을 이용하여 제2 라벨 물질로 표지된 제2 물질의 템플릿을 특정할 수 있다(S7).
다음으로, 특정된 제1 물질의템플릿 및 제2 물질의 템플릿을 이용하여 제1 물질 및 제2 물질 각각의 신호를 재구성하는 분석을 수행함으로써, 시료에 대한 PSM 수준의 정량 분석 결과를 도출할 수 있다(S8). 상기 과정은, 측정된 신호와 각 템플릿의 비교를 통해 제1 물질 및 제2 물질의 상대량을 산출하는 단계를 포함할 수 있다. 나아가, 동일 단백질에 매칭되는 하나 이상의 PSM에 대한 분석 결과를 취합하여 시료의 단백질 수준 정량 분석을 수행할 수 있다(S9).
이상에서 설명한 실시예들에 따른 시료의 정량 분석 방법에 의한 동작은, 적어도 부분적으로 컴퓨터 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 실시예들에 따른 시료의 정량 분석 방법에 의한 동작을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (17)

  1. 제1 라벨 물질이 부착된 제1 물질, 및 상기 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함하는 시료의 액체 크로마토그래프 질량 분석 스펙트럼을 수신하도록 구성된 스펙트럼 인식부; 및
    상기 스펙트럼 인식부에 수신된 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼을 추출하며, 상기 제1 라벨 물질의 펩타이드 정합 스펙트럼을 이용하여 상기 제1 물질의 템플릿을 특정하고, 상기 제1 라벨 물질과 상기 제2 라벨 물질의 예측된 리텐션 시간 편이를 산출하며, 상기 예측된 리텐션 시간 편이를 이용하여 상기 제2 물질의 템플릿을 특정하고, 상기 제1 물질과 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질과 상기 제2 물질의 신호를 재구성함으로써 상기 시료의 펩타이드 정합 스펙트럼 수준의 정량 분석을 수행하도록 구성된 펩타이드 정합 스펙트럼 분석부를 포함하는 시료의 정량 분석 장치.
  2. 제1항에 있어서,
    하나 이상의 물질에 대한 상기 펩타이드 정합 스펙트럼 수준 정량 분석 결과를 이용하여 상기 시료의 단백질 수준 정량 분석을 수행하도록 구성된 단백질 분석부를 포함하는 시료의 정량 분석 장치.
  3. 제1항에 있어서,
    상기 제1 라벨 물질은 탄소, 질소 및 수소를 포함하는 펩타이드이며,
    상기 제2 라벨 물질은 상기 제1 라벨 물질의 하나 이상의 수소를 중수소로 치환한 펩타이드인 시료의 정량 분석 장치.
  4. 제3항에 있어서,
    상기 제2 라벨 물질은, 치환된 중수소의 개수에 따라 상기 제1 라벨 물질의 질량으로부터 순차적으로 질량이 증가하는 5개 이상의 펩타이드를 포함하는 시료의 정량 분석 장치.
  5. 제1항에 있어서,
    상기 펩타이드 정합 스펙트럼 분석부는 상기 예측된 리텐션 시간 편이를 산출하는 리텐션 시간 편이 예측부를 포함하며,
    상기 리텐션 시간 편이 예측부는,
    상기 질량 분석 스펙트럼으로부터 미리 결정된 하나 이상의 특징을 추출하도록 구성된 특징 추출부; 및
    질량 분석 스펙트럼의 훈련 세트를 입력값으로 이용한 기계 학습을 통해 얻어진 규칙에 상기 하나 이상의 특징을 적용하도록 구성된 기계 학습부를 포함하는 시료의 정량 분석 장치.
  6. 제5항에 있어서,
    상기 하나 이상의 특징은, 상기 제2 라벨 물질에 치환된 중수소의 개수, 상기 질량 분석 스펙트럼의 정규화된 리텐션 시간, 상기 제1 라벨 물질의 펩타이드 서열 길이, 상기 제2 물질에서 상기 제2 라벨 물질이 표지된 위치의 비율 또는 상기 질량 분석 스펙트럼의 정규화된 피크 폭 중 하나 이상을 포함하는 시료의 정량 분석 방법.
  7. 제5항에 있어서,
    상기 펩타이드 정합 스펙트럼 분석부는, 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼으로부터 얻어진 정규분포 곡선과 상기 제1 물질을 구성하는 원소들의 미리 알려진 동위원소 분포 프로파일을 이용하여 상기 제1 물질의 템플릿을 특정하도록 구성된 동위원소 분리부를 포함하는 시료의 정량 분석 장치.
  8. 제5항에 있어서,
    상기 펩타이드 정합 스펙트럼 분석부는, 상기 제1 물질의 템플릿 및 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질 및 상기 제2 물질의 상대량을 산출함으로써 상기 시료의 액체 크로마토그래프 질량 분석 스펙트럼을 상기 제1 물질의 신호 및 상기 제2 물질의 신호로 재구성하도록 구성된 재구성부를 포함하는 시료의 정량 분석 장치.
  9. 정량 분석 장치가, 제1 라벨 물질이 부착된 제1 물질, 및 상기 제1 라벨 물질과 질량이 상이한 제2 라벨 물질이 부착된 제2 물질을 포함하는 시료의 액체 크로마토그래프 질량 분석 스펙트럼을 수신하는 단계;
    상기 정량 분석 장치가, 상기 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질과 상기 제2 라벨 물질의 예측된 리텐션 시간 편이를 산출하는 단계;
    상기 정량 분석 장치가, 상기 질량 분석 스펙트럼으로부터 상기 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼을 추출하는 단계;
    상기 정량 분석 장치가, 추출된 상기 제1 라벨 물질의 펩타이드 정합 스펙트럼을 이용하여 상기 제1 물질의 템플릿을 특정하는 단계;
    상기 정량 분석 장치가, 상기 제1 물질의 템플릿 및 상기 예측된 리텐션 시간 편이를 이용하여 상기 제2 물질의 템플릿을 특정하는 단계;
    상기 정량 분석 장치가, 상기 제1 물질과 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질과 상기 제2 물질의 신호를 재구성하는 단계; 및
    상기 정량 분석 장치가, 재구성된 상기 제1 물질 및 상기 제2 물질의 신호를 이용하여 상기 시료의 펩타이드 정합 스펙트럼 수준 정량 분석을 수행하는 단계를 포함하는 시료의 정량 분석 방법.
  10. 제9항에 있어서,
    상기 정량 분석 장치가, 하나 이상의 물질에 대한 상기 펩타이드 정합 스펙트럼 수준 정량 분석 결과를 이용하여 상기 시료의 단백질 수준 분석을 수행하는 단계를 더 포함하는 시료의 정량 분석 방법.
  11. 제9항에 있어서,
    상기 제1 라벨 물질은 탄소, 질소 및 수소를 포함하는 펩타이드이며,
    상기 제2 라벨 물질은 상기 제1 라벨 물질의 하나 이상의 수소를 중수소로 치환한 펩타이드인 시료의 정량 분석 방법.
  12. 제11항에 있어서,
    상기 제2 라벨 물질은, 치환된 중수소의 개수에 따라 상기 제1 라벨 물질의 질량으로부터 순차적으로 질량이 증가하는 5개 이상의 펩타이드를 포함하는 시료의 정량 분석 방법.
  13. 제9항에 있어서,
    상기 예측된 리텐션 시간 편이를 산출하는 단계는,
    상기 질량 분석 스펙트럼으로부터 미리 결정된 하나 이상의 특징을 추출하는 단계; 및
    질량 분석 스펙트럼의 훈련 세트를 입력값으로 이용한 기계 학습을 통해 얻어진 규칙에 상기 하나 이상의 특징을 적용함으로써 상기 예측된 리텐션 시간 편이를 산출하는 단계를 포함하는 시료의 정량 분석 방법.
  14. 제13항에 있어서,
    상기 하나 이상의 특징은, 상기 제2 라벨 물질에 치환된 중수소의 개수, 상기 질량 분석 스펙트럼의 정규화된 리텐션 시간, 상기 제1 라벨 물질의 펩타이드 서열 길이, 상기 제2 물질에서 상기 제2 라벨 물질이 표지된 위치의 비율 또는 상기 질량 분석 스펙트럼의 정규화된 피크 폭 중 하나 이상을 포함하는 시료의 정량 분석 방법.
  15. 제9항에 있어서,
    상기 제1 물질의 템플릿을 특정하는 단계는, 제1 라벨 물질에 대응되는 펩타이드 정합 스펙트럼으로부터 얻어진 정규분포 곡선과 상기 제1 물질을 구성하는 원소들의 미리 알려진 동위원소 분포 프로파일을 이용하여 상기 제1 물질의 템플릿을 특정하는 단계를 포함하는 시료의 정량 분석 방법.
  16. 제9항에 있어서,
    상기 제1 물질과 상기 제2 물질의 신호를 재구성하는 단계는, 상기 제1 물질의 템플릿 및 상기 제2 물질의 템플릿을 이용하여 상기 제1 물질 및 상기 제2 물질의 상대량을 산출하는 단계를 포함하는 시료의 정량 분석 방법.
  17. 하드웨어와 결합되어 제9항 내지 제16항 중 어느 한 항에 따른 시료의 정량 분석 방법을 실행하도록 매체에 저장된 컴퓨터 프로그램.
KR1020170085558A 2017-07-05 2017-07-05 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 KR101958900B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170085558A KR101958900B1 (ko) 2017-07-05 2017-07-05 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170085558A KR101958900B1 (ko) 2017-07-05 2017-07-05 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190005034A true KR20190005034A (ko) 2019-01-15
KR101958900B1 KR101958900B1 (ko) 2019-03-18

Family

ID=65030324

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170085558A KR101958900B1 (ko) 2017-07-05 2017-07-05 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101958900B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321544A (zh) * 2019-07-08 2019-10-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
KR20200101531A (ko) * 2019-01-31 2020-08-28 성균관대학교산학협력단 인공지능을 이용한 사이클로트론 기반 가속기 질량 분석시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11815483B2 (en) 2020-05-25 2023-11-14 Lg Chem, Ltd. Method for determining the deuterium substitution rate according to substitution positions
KR102288744B1 (ko) * 2020-12-31 2021-08-12 주식회사 베르티스 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011007884A1 (ja) * 2009-07-17 2011-01-20 国立大学法人九州大学 タンパク質の定量方法
JP2012524252A (ja) * 2009-04-17 2012-10-11 クイーン マリー アンド ウエストフィールド カレッジ 修飾ペプチドの定量化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012524252A (ja) * 2009-04-17 2012-10-11 クイーン マリー アンド ウエストフィールド カレッジ 修飾ペプチドの定量化方法
WO2011007884A1 (ja) * 2009-07-17 2011-01-20 国立大学法人九州大学 タンパク質の定量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Stable-Isotope Dimethyl Labeling for Quantitative Proteomics", Jue-Liang Hsu 외 공저, Anal. Chem., 2003, 75 (24), pp 6843-6852
Anal. Chem., 2003, Vol. 75, pp 6843-6852. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200101531A (ko) * 2019-01-31 2020-08-28 성균관대학교산학협력단 인공지능을 이용한 사이클로트론 기반 가속기 질량 분석시스템
CN110321544A (zh) * 2019-07-08 2019-10-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110321544B (zh) * 2019-07-08 2023-07-25 北京百度网讯科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
KR101958900B1 (ko) 2019-03-18

Similar Documents

Publication Publication Date Title
US8975577B2 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
US6835927B2 (en) Mass spectrometric quantification of chemical mixture components
KR101958900B1 (ko) 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법
US9395341B2 (en) Method of improving the resolution of compounds eluted from a chromatography device
CN106055895B (zh) 产物离子谱的数据独立获取及参考谱库匹配
US10401337B2 (en) Method and apparatus for improved quantitation by mass spectrometry
US20060249668A1 (en) Automatic detection of quality spectra
JP2007503001A (ja) 質量分析法
JP4857000B2 (ja) 質量分析システム
CN115380212A (zh) 用于比较群组内和群组间数据的方法、介质和***
CN114858958B (zh) 质谱数据在质量评估中的分析方法、装置和存储介质
US20230047202A1 (en) Method and system for the identification of compounds in complex biological or environmental samples
CN115171790A (zh) 质谱的数据序列在质量评估中的分析方法、装置和存储介质
US9857377B2 (en) Method for quantification of proteome
CN116106464B (zh) 质谱数据质量程度或概率的控制***、评估***及方法
Liu et al. Critical evaluation of product ion selection and spectral correlation analysis for biomarker screening using targeted peptide multiple reaction monitoring
Needham et al. i, United States Patent (10) Patent No.: US 7,800,055 B2
Fuchsberger et al. Analysis and Visualization of Spatial Proteomic Data for Tissue Characterization
Sun Model-based biomarker detection and systematic analysis in translational science

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant