KR100856526B1 - System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor - Google Patents

System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor Download PDF

Info

Publication number
KR100856526B1
KR100856526B1 KR1020080023411A KR20080023411A KR100856526B1 KR 100856526 B1 KR100856526 B1 KR 100856526B1 KR 1020080023411 A KR1020080023411 A KR 1020080023411A KR 20080023411 A KR20080023411 A KR 20080023411A KR 100856526 B1 KR100856526 B1 KR 100856526B1
Authority
KR
South Korea
Prior art keywords
mass
database
isoforms
isoform
algorithm
Prior art date
Application number
KR1020080023411A
Other languages
Korean (ko)
Inventor
허철구
이승원
최재필
Original Assignee
한국생명공학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생명공학연구원 filed Critical 한국생명공학연구원
Priority to KR1020080023411A priority Critical patent/KR100856526B1/en
Priority to PCT/KR2008/002390 priority patent/WO2009113752A1/en
Application granted granted Critical
Publication of KR100856526B1 publication Critical patent/KR100856526B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

A system for identifying alternative splicing isoforms is provided to identify previously unknown isoforms such as disease associated isoforms and tissue-specific isoforms by using scoring algorithm and peptide mass fingerprinting, so that the kind and amount of a target protein are determined. A system for identifying alternative splicing isoforms by using peptide mass fingerprinting comprises: an input part for inputting the measured mass data of peptide fragments obtained by protein hydrolysis; a database containing information about protein sequence mass, isoelectric value and amino acid position, and peptide sequence information produced by treating protein sequence with enzyme; a search part for searching the database; a scoring algorism for scoring possibility of searched candidate isoforms for alternative splicing isoform including masses consistent with the database; and an output part for aligning the candidate isoforms according to the scores.

Description

펩티드 질량 지문 추적법을 사용한 알터네이티브 스플라이싱 아이소폼을 동정하기 위한 스코어링 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체{System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor}System comprising scoring algorithm and method for identifying alternative splicing isoforms using and a scoring system for identifying alternating splicing isoforms using peptide mass fingerprint tracking peptide mass fingerprinting, and recording media having program therefor}

본 발명은 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 스코어링 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체에 관한 것이다.The present invention relates to a system and method comprising a scoring algorithm for identifying an alternating splicing isoform using peptide mass fingerprint tracking and a record carrier recording a computer readable program for performing the method. It is about.

세포 내에서는 항상 수백, 수천 가지 이상의 다른 단백질들이 다른 양으로 발현되고 있어서 그들의 종류와 양을 결정하는 것은 상당히 어려운 일이다. 일단 관심 있는 단백질을 순수하게 분리하여도 세포 내에는 분자량이 비슷한 단백질이 여러 종류 있기 때문에 단백질 자체의 분자량을 측정하는 것만으로는 그 단백질의 종류를 정확히 알아내기 어렵다. 한편 단백질을 특정한 부위를 가수분해하는 효소로 자르고 얻어진 펩타이드 조각들의 분자량을 측정하면 정보의 양이 크게 증가하 고, 데이터베이스로부터 원래 단백질을 동정할 수 있는 길이 열린다. Hundreds, thousands, and thousands of different proteins are expressed in different amounts in cells all the time, so determining their type and amount is quite difficult. Once the protein of interest is purely isolated, there are several kinds of proteins with similar molecular weights in the cell, so it is difficult to determine exactly what kind of protein it is by measuring the molecular weight of the protein itself. On the other hand, cutting the protein with an enzyme that hydrolyzes a specific site and measuring the molecular weight of the resulting peptide fragments greatly increases the amount of information and opens the way for identifying the original protein from the database.

어떤 단백질의 가수분해로 얻어진 펩타이드 조각들의 질량 분포를 조사하는 것을 펩티드 질량 지문 추적법 (peptide mass fingerprinting)이라고 한다. 선스펙트럼이 원소의 지문인 것과 마찬가지로 펩타이드 조각들의 질량은 해당 단백질의 지문이 되는 것이다. 이때 가수분해로 얻어진 펩타이드들의 분자량을 모두 측정할 필요도 없고, 몇 개 펩타이드의 분자량을 정확히 측정하는 것으로 충분하다. 두 가지 다른 단백질로부터 분자량이 정확하게 같은 펩타이드가 얻어질 확률이 아주 낮기 때문이다.Examining the mass distribution of peptide fragments obtained by hydrolysis of a protein is called peptide mass fingerprinting. Just as the line spectrum is the fingerprint of the element, the mass of the peptide fragments is the fingerprint of the protein. At this time, it is not necessary to measure the molecular weight of all the peptides obtained by hydrolysis, and it is sufficient to accurately measure the molecular weight of several peptides. This is because the probability of obtaining peptides of exactly the same molecular weight from two different proteins is very low.

알터네이티브 스플라이싱(alternative splicing)은 복잡한 유기체의 유전자에서 단일 유전자로 둘 또는 그 이상의 별개의 단백질을 만드는 것이 가능한 다양한 방법으로 편집하는 것이다. 이 알터네이티브 스플라이싱은 적은 수의 유전자로 때와 장소에 따라 다양한 형태의 단백질의 생산을 가능하게 하였으며 질병에도 관련이 있는 것으로 보고되고 있다.Alternative splicing is the compilation of a variety of ways in which it is possible to make two or more separate proteins from a gene in a complex organism into a single gene. This alternative splicing allows the production of various types of proteins at any time and place with a small number of genes, and has been reported to be associated with disease.

알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정할 수 있는 방법은 크게 단백질과 전사체를 확인하는 방법이다. An alternative method for identifying alternative splicing isoforms is to identify proteins and transcripts.

전사체를 확인하는 방법으로는 마이크로어레이를 사용한다. 유전자에서 알려진 엑손 부분과 엑손 연결부위의 프로브(Probe)를 디자인하여 확인하는 방법이 있다 (Nagao, K. (2005) Human Molecular Genetics, 14, 3379-3388; Shoemaker, D. (2001) Nature, 409, 922-927). 전사체 수준에서 확인된 모든 것이 단백질로 번역되지 않기 때문에 단백질 수준에서 확인하는 것이 유리하다.A microarray is used to identify a transcript. There is a method of designing and verifying probes of known exon and exon junctions in genes (Nagao, K. (2005) Human Molecular Genetics, 14, 3379-3388; Shoemaker, D. (2001) Nature, 409 , 922-927). It is advantageous to check at the protein level because not everything identified at the transcript level is translated into protein.

단백질 수준에서 알려진 확인 방법으로는 질량 분석법을 사용한다. 스플라이싱이 일어나는 위치를 확인하기 위해서 연합질량분석법과 질량분석에 의한 단백질 서열 추적을 기반으로 한 방법이 있고 (Tanner, S. (2007) Genome research, 17, 231-239), 게놈을 여섯 프레임으로 단백질로 번역한 후 스플라이싱이 일어나는 위치를 확인하는 방법이 있다 (Giddings, M. (2003) Proc Natl Acad Sci USA, 100, 20-25). 이 방법들은 유전자의 스플라이싱이 발생하는 위치를 찾는 데는 적합하지만 아이소폼을 얻지는 못한다. 그 이유는 질량분석 실험 중 단백질에서 효소처리 후 조각난 모든 펩티드들의 질량이 확인되지 않기 때문이다. 또한 알터네이티브 스플라이싱 아이소폼을 고려하지 않을 경우, 펩티드 질량 지문 인식법에서는 올바르지 않은 아이소폼을 동정할 가능성이 있다. 그 이유는 실험으로 증명되지 않은 아이소폼이 많이 존재하기 때문이다.Known methods at the protein level use mass spectrometry. There are methods based on protein sequence tracking by mass spectrometry and mass spectrometry to identify where splicing occurs (Tanner, S. (2007) Genome research, 17, 231-239), and the genome is framed six times. One method is to identify the location of splicing after translation into proteins (Giddings, M. (2003) Proc Natl Acad Sci USA, 100, 20-25). These methods are good at finding where splicing of a gene occurs, but do not yield isoforms. This is because the mass of all peptides fragmented after enzymatic treatment in the protein is not identified during mass spectrometry. In addition, if an alternative splicing isoform is not considered, peptide mass fingerprinting may identify an incorrect isoform. This is because there are many isoforms that have not been tested.

또한, PMF 기술을 사용하여 알터네이티브 스플라이싱 아이소폼을 확인하기 위해서 알터네이티브 스플라이싱을 고려한 데이터베이스를 구축해야 한다. 이 데이터베이스 속에서 알터네이티브 스플라이싱 이벤트를 가진 유전자는 공통의 엑손을 가지기 때문에 부분적으로 동일한 단백질 서열을 가질 수 있다. 또한, 한 유전자로부터 발생 가능한 아이소폼은 100여개가 넘을 수도 있다. 이런 특성들로 인해 아이소폼을 식별하는 새로운 알고리즘이 필요하게 된다.In addition, to identify alternative splicing isoforms using PMF technology, a database must be built that takes into account alternative splicing. Genes with alternating splicing events in this database may have partially identical protein sequences because they have a common exon. In addition, more than 100 isoforms can be generated from a gene. These characteristics require new algorithms to identify isoforms.

한국특허등록 제10-0789430호에는 복잡한 폴리펩타이드 혼합물의 질량 스펙트럼으로부터 폴리펩타이드의 동위원소집단을 찾아 단동위원소 질량을 결정하는 방법 및 기록매체가 개시되어 있다. 한국특허등록 제10-0757040호에는 단백질 도메인 을 기반으로 한 단백질 간 또는 단백질과 화합물 간의 상호작용면 분석 시스템 및 방법과 이를 위한 기록매체가 개시되어 있다. PCT 공개공보 WO 01/57519에는 (폴리)펩티드의 동정 및/또는 규명 방법이 개시되어 있다.Korean Patent Registration No. 10-0789430 discloses a method and recording medium for determining the isotope mass by finding an isotope group of a polypeptide from the mass spectrum of a complex polypeptide mixture. Korean Patent Registration No. 10-0757040 discloses a system and method for analyzing a surface between proteins or a protein and a compound based on a protein domain, and a recording medium therefor. PCT Publication WO 01/57519 discloses methods for identifying and / or identifying (poly) peptides.

본 발명은 상기와 같은 요구에 의해 안출된 것으로서, 이전 연구에서 알려졌거나 알려지지 않은 알터네이티브 스플라이싱 아이소폼에 대한 동정 시스템 및 방법을 개발하고, 이를 통해 알터네이티브 스플라이싱 아이소폼을 동정하고자 한다.The present invention has been made in accordance with the above requirements, and it is intended to develop an identification system and method for alternating splicing isoforms, which are known or unknown in previous studies, and thereby identify alternating splicing isoforms. .

본 발명은 어떤 유전자의 알터네이티브 스플라이싱 아이소폼을 효과적으로 구별하는 알고리즘과 조직 특이적인 유전자의 정보를 포함한 데이터베이스를 사용함으로써, 알터네이티브 스플라이싱 아이소폼을 효과적으로 식별 및 동정하고 조직 특이적 아이소폼를 확인할 수 있다.The present invention uses an algorithm to effectively distinguish between alternating splicing isoforms of a gene and a database containing tissue specific gene information, thereby effectively identifying and identifying alternating splicing isoforms and identifying tissue specific isoforms. You can check it.

상기 과제를 해결하기 위해, 본 발명은 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 시스템 및 방법을 제공한다.In order to solve the above problems, the present invention provides a system and method for identifying alternating splicing isoforms using peptide mass fingerprint tracking.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium having recorded thereon a computer readable program for performing the method.

질량분석기를 통하여 생성된 펩티드들의 질량들을 통하여 알터네이티브 스플라이싱 아이소폼을 동정할 수 있으므로, 이전에 알려지지 않는 아이소폼들, 질병 관련 또는 조직 특이적인 아이소폼을 동정할 수 있다.The mass splicing isoforms can be identified through the masses of peptides generated via mass spectrometry, thereby identifying previously unknown isoforms, disease related or tissue specific isoforms.

본 발명의 목적을 달성하기 위하여, 본 발명은In order to achieve the object of the present invention, the present invention

단백질의 가수분해로 얻어진 펩티드 조각들의 측정된 질량 데이터를 입력하는 입력부;An input for inputting measured mass data of peptide fragments obtained by hydrolysis of the protein;

단백질 서열의 질량, 등전위값, 단백질 변형에 관여할 가능성이 있는 아미노산 위치에 대한 정보와 단백질 서열에 효소처리 후 생산되는 펩티드 서열 정보를 포함하는 데이터베이스;A database containing information on the mass of the protein sequence, the equipotential value, information on amino acid positions likely to be involved in protein modification, and peptide sequence information produced after enzyme treatment in the protein sequence;

질량 데이터를 데이터베이스에서 검색하는 검색부;A search unit for searching mass data in a database;

데이터베이스에 일치된 질량들을 포함한 알터네이티브 스플라이싱 아이소폼 (alternative splicing isoform)에 대해 검색된 후보들의 가능성을 점수화하는 알고리즘; 및An algorithm that scores the likelihood of candidates searched for an alternative splicing isoform including masses matched in the database; And

점수에 따라 후보 아이소폼을 정렬하는 출력부를 포함하는 펩티드 질량 지문 추적법을 이용한 알터네이티브 스플라이싱 아이소폼을 동정하기 위한 전체 과정을 포함한 시스템을 제공한다.A system is provided that includes an entire process for identifying alternative splicing isoforms using peptide mass fingerprint tracking that includes an output that aligns candidate isoforms according to scores.

본 발명의 일 구현예에 따른 시스템에서, 상기 데이터베이스는 알터네이티브 스플라이싱이 존재하는 종에 대해서 스플라이싱 아이소폼 전사체를 수집한 후, 단백질 서열로 번역하여 구축될 수 있다.In a system according to one embodiment of the invention, The database can be constructed by collecting splicing isoform transcripts for species in which there is alternative splicing and then translating them into protein sequences.

본 발명의 일 구현예에 따른 시스템에서, 상기 알고리즘은 실험을 통하여 측정된 질량 데이터를 데이터베이스에 검색 후 결과를 각 아이소폼별로 매치된 질량에 대해 하기 식 1, 식 2 및 식 3에 의해 계산하여 후보의 우선순위를 결정하는 알고리즘일 수 있다.In the system according to the embodiment of the present invention, the algorithm searches the database for the mass data measured through the experiment and calculates the results by the following equations 1, 2 and 3 for the mass matched for each isoform. It may be an algorithm for determining the priority of the candidate.

Figure 112008018395165-pat00001
Figure 112008018395165-pat00001

식 1, 2와 3에서 사용된 기호들은 다음과 같다. 측정된 질량값들은 m = { m1, m2,..., mi}이고, 데이터베이스에 매치된 질량값을 M = {M1,M2, ..., Mk}라고 할 때, mi는 m의 질량값들를 나타내고, Mk는 M의 질량값들을 나타낸다. Mk 는 mi 중에 어떤 후보 아이소폼에 매치된 하나의 값이다. 측정된 데이터로 검색했을 때 데이터베이스로부터 검색된 총 펩티드 개수를 T 라고 하고, 데이터베이스에서 각 측정된 질량값에 의해 검색된 펩티드 개수를 fmi라고 하면 식 1에 의해 rmi을 구할 수 있다. 이때 값이 너무 작을 수 있으므로 rmi을 10진 로그를 사용하는 값을 식 2에 의해 Emi을 얻을 수 있다. 점수(Ps)는 각 아이소폼에 매치된 질량값들에 대한 EMj의 합이다. 다시 말하면, 어떤 아이소폼에 매치된 질량값이 k개 존재하면 Ps는 k개의 매치된 질량값을 해당하는 식 1와 2을 적용한 결과로 생겨난 EMj의 합이 된다. Ps의 값이 작을수록 유의한 후보가 되는데, 이것은 측정된 질량값들에 의해 우연히 매치될 확률이 작을수록 좋은 후보가 됨을 나타낸다. 한 유전자에서 유래된 알터네이티브 아이소폼은 공통된 펩티드를 가지므로 유사한 점수를 가지게 되어 모이게 된다.The symbols used in Equations 1, 2 and 3 are as follows. The measured mass values are m = {m1, m2, ..., mi}, and when the mass value matched in the database is M = {M1, M2, ..., Mk}, mi is the mass value of m. , And Mk represents mass values of M. Mk is one value that matches any candidate isoform of mi. When the total number of peptides retrieved from the database when searching by the measured data is called T, and the number of peptides searched by each measured mass value in the database is called f mi , r mi can be obtained from Equation 1. Since the value may be too small, E mi can be obtained from Equation 2 using r mi as the decimal log. The score P s is the sum of E Mj for the mass values matched for each isoform. In other words, if there are k matched mass values for an isoform, P s is the sum of E Mj resulting from applying the corresponding equations 1 and 2 to k matched mass values. The smaller the value of P s, the more likely it is to be a significant candidate, indicating that the smaller the probability of accidental matching by the measured mass values, the better the candidate. Alternate isoforms derived from a gene have a common peptide and therefore have similar scores and are collected.

또한, 본 발명은 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 방법을 제공한다.The present invention also provides a method for identifying alternating splicing isoforms using peptide mass fingerprint tracking.

보다 구체적으로, 상기 방법은 알터네이티브 스플라이싱 아이소폼을 검색하기 위한 데이터베이스를 구축하는 단계;More specifically, the method comprises the steps of: building a database for searching for alternative splicing isoforms;

단백질의 가수분해로 얻어진 펩티드 조각들의 측정된 질량 데이터를 상기 데이터베이스에서 검색하는 단계;Retrieving from said database the measured mass data of peptide fragments obtained by hydrolysis of the protein;

데이터베이스에 일치된 질량들을 포함한 알터네이티브 스플라이싱 아이소폼 (alternative splicing isoform)에 대해 검색된 후보들의 가능성을 점수화하는 알고리즘을 사용하여 점수화하는 단계; 및Scoring using an algorithm that scores the likelihood of candidates searched for an alternative splicing isoform including masses matched in a database; And

점수에 따라 후보 아이소폼을 정리하여 아이소폼을 동정하는 단계를 포함한다.Identifying the isoforms by arranging candidate isoforms according to the scores.

알터네이티브 스플라이싱 이벤트가 존재하는 종으로부터의 전사체들을 단백질 서열로 번역한 후 단백질 절단 효소를 사용하여 자른 것처럼 가상으로 단백질 서열을 자른 후 생성된 펩티드들을 데이터베이스에 저장한다.The transcripts from the species in which the alternative splicing event is present are translated into protein sequences, then the protein sequences are virtually cut as if they were cut using a protein cleavage enzyme and the resulting peptides are stored in a database.

본 발명의 일 구현예에 따른 방법에서, 상기 데이터베이스는 알터네이티브 스플라이싱 이벤트(alternative splicing event)가 존재하는 종에 대해서 전사체를 수집한 후, 단백질 서열로 번역하여 구축되며, 생산된 단백질 서열의 질량, 등전위값, 단백질 변형에 관여할 가능성이 있는 아미노산 위치에 대한 정보와 단백질 서열에 임의의 절단효소처리 후 생산되는 펩티드 서열 정보를 포함하는 데이터베이스 일 수 있다.In a method according to an embodiment of the present invention, the database is constructed by collecting transcripts for species in which an alternating splicing event is present and then translating them into protein sequences to produce the produced protein sequences. It may be a database containing the information on the mass, isopotential value, the position of amino acids that may be involved in protein modification, and peptide sequence information produced after any cleavage process in the protein sequence.

본 발명의 일 구현예에 따른 방법에서, 상기 알고리즘은 실험을 통하여 측정된 질량 데이터를 데이터베이스에 검색 후 결과를 각 아이소폼별로 매치된 질량에 대해 하기 식 1, 식 2 및 식 3에 의해 계산하여 후보의 우선순위를 결정하는 알고리즘일 수 있다. In the method according to an embodiment of the present invention, the algorithm searches the database for the mass data measured through the experiment and calculates the results by the following equations 1, 2 and 3 for the mass matched for each isoform It may be an algorithm for determining the priority of the candidate.

Figure 112008018395165-pat00002
Figure 112008018395165-pat00002

상기 식 1 내지 식 3에 기재된 각 기호의 정의는 전술한 바와 같다.Definition of each symbol described in said Formula 1-Formula 3 is as above-mentioned.

본 발명의 일 구현예에 따른 방법에서, 상기 알고리즘의 구현 방법은 입력부로부터 입력받은 질량 데이터와 질량오차로부터 측정된 질량에 질량오차 범위로 데이터베이스에 검색하고, 그 결과를 아이소폼별로 정리한 후 상기 알고리즘을 사용하여 점수화하고, 오름차순으로 정리하여 후보의 우선순위를 결정할 수 있다.In the method according to the embodiment of the present invention, the implementation method of the algorithm is searched in the database in the mass error range to the mass measured from the mass data and the mass error received from the input unit, and the results are arranged by isoform after The algorithms can be scored and sorted in ascending order to prioritize candidates.

본 발명은 또한, 본 발명의 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium having recorded thereon a computer readable program for performing a method for identifying an alternating splicing isoform using the peptide mass fingerprint tracking method of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 알터네이티브 스플라이싱 아이소폼을 확인하는 시스템의 개략도를 나타낸다.1 shows a schematic of a system for identifying alternating splicing isoforms.

본 발명의 펩티드 질량 지문 추적법을 이용한 알터네이티브 스플라이싱 아이소폼을 동정하기 위한 시스템은 입력부; 데이터베이스; 검색부; 알고리즘; 및 출력부를 포함한다.The system for identifying an alternative splicing isoform using the peptide mass fingerprint tracking method of the present invention comprises: an input; Database; Search unit; algorithm; And an output unit.

상기 입력부는 단백질의 가수분해로 얻어진 펩티드 조각들의 측정된 질량 데이터를 입력하는 기능을 수행한다. 도 3은 입력부 화면을 나타낸다. 입력 양식에 필수요소인 질량들과 선택적인 단백질 질량과 등전위값을 입력한다.The input unit functions to input measured mass data of peptide fragments obtained by hydrolysis of the protein. 3 shows an input unit screen. Enter the masses, optional protein masses, and equipotential values that are essential to the input form.

상기 데이타베이스는 단백질 서열의 질량, 등전위값, 단백질 변형에 관여할 가능성이 있는 아미노산 위치에 대한 정보와 단백질 서열에 효소처리 후 생산되는 펩티드 서열 정보를 포함하며, 알터네이티브 스플라이싱 이벤트(alternative splicing event)가 존재하는 종에 대해서 전사체를 수집한 후, 단백질 서열로 번역하고 중복된 단백질 서열을 제거함으로써 구축될 수 있다. The database includes protein sequence mass, equipotential value, information on amino acid position likely to be involved in protein modification, and peptide sequence information produced after enzymatic treatment on protein sequence.Alternative splicing event) can be constructed by collecting transcripts for the species present and then translating them into protein sequences and removing redundant protein sequences.

상기 검색부는 상기 구축된 데이터베이스를 검색하는 기능을 한다.The search unit functions to search the constructed database.

상기 알고리즘은 상기 구축된 데이터베이스에 일치된 질량들을 포함한 알터네이티브 스플라이싱 아이소폼 (alternative splicing isoform)에 대해 검색된 후보들의 가능성을 점수화한다. 보다 구체적으로, 상기 알고리즘은 실험을 통하여 측정된 질량 데이터를 데이터베이스에 검색 후 결과를 각 아이소폼별로 매치된 질 량에 대해 하기 식 1, 식 2 및 식 3에 의해 계산하여 후보의 우선순위를 결정하는 알고리즘일 수 있다.The algorithm scores the likelihood of candidates searched for an alternative splicing isoform that includes masses matched to the constructed database. More specifically, the algorithm determines the priority of the candidate by searching the database for the mass data measured through the experiment and calculating the results by the following equations 1, 2, and 3 for the quantity matched for each isoform. May be an algorithm.

Figure 112008018395165-pat00003
Figure 112008018395165-pat00003

상기 식 1 내지 식 3에 기재된 각 기호의 정의는 전술한 바와 같다.Definition of each symbol described in said Formula 1-Formula 3 is as above-mentioned.

상기 출력부는 점수에 따라 후보 아이소폼을 정렬하여 출력한다. 출력부 화면에서 상단에 있을수록 올바른 아이소폼일 가능성이 높다.The output unit sorts and outputs candidate isoforms according to scores. The higher it is at the top of the output screen, the more likely the correct isoform is.

또한, 본 발명은 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 방법을 제공한다. 본 발명의 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 방법은 본 발명에 포함된 프로그램을 통하여 질량분석기로부터 나온 질량 데이터를 검색할 수 있는 데이터베이스를 작성한다. 질량분석기로부터 나온 질량 데이터를 상기 데이터베이스에서 검색한 후, 각 데이터베이스에 일치된 질량들을 포함한 아이소폼에 대해서 본 발명의 알고리즘을 사용하여 점수화하고, 점수에 따라 오름차순으로 후보 아이소폼을 정리한 다.The present invention also provides a method for identifying alternating splicing isoforms using peptide mass fingerprint tracking. A method for identifying alternative splicing isoforms using the peptide mass fingerprint tracking method of the present invention includes a database that can retrieve mass data from a mass spectrometer through a program included in the present invention. Write. After mass data from the mass spectrometer is retrieved from the database, the isoforms containing masses matched in each database are scored using the algorithm of the present invention and the candidate isoforms are sorted in ascending order according to the scores.

펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼을 동정하기 위해선 질량분석기로부터 확인된 질량을 검색할 알터네이티브 스플라이싱를 고려한 데이터베이스가 필요하고, 정확히 동정할 수 있는 알고리즘이 필요하다. 알터네이티브 스플라이싱 아이소폼을 포함한 단백질 서열을 이용하여 본 발명의 검색 데이터베이스 제작 프로그램을 사용하여 질량분석 결과를 분석할 수 있는 데이터베이스를 구축한다. 이 데이터베이스에는 단백질 변형에 관여할 가능성이 있는 아미노산 위치, 각 아이소폼의 등전위값 및 아이소폼 질량에 대한 정보를 포함한다. 상기 단백질(의)이 변형될 가능성이 있는 아미노산 위치는 전사체의 번역 후 특정 아미노산의 화학 구조의 변형이 일어날 가능성이 있는 아미노산 위치를 말한다.Identifying alternative splicing isoforms using peptide mass fingerprint tracking requires a database that takes into account alternative splicing to retrieve the mass identified from the mass spectrometer and an algorithm that can accurately identify it. A protein sequence comprising an alternative splicing isoform is used to build a database from which mass spectrometry results can be analyzed using the search database fabrication program of the present invention. This database contains information on the amino acid positions that are likely to be involved in protein modification, the isoelectric value of each isoform, and the isoform mass. The amino acid position at which the protein may be modified refers to an amino acid position at which the chemical structure of a specific amino acid may occur after translation of the transcript.

알터네이티브 스플라이싱을 고려한 경우 한 유전자로부터 수개에서 백개 이상의 많은 아이소폼이 발생할 수 있는데, 이들은 부분적으로 동일한 펩타이드 서열을 갖는 경향이 있으며, 이 특성을 고려하여 효과적으로 이들 아이소폼을 구별하기 위한 새로운 알고리즘이 필요하게 된다. Considering alternative splicing, several to more than one hundred isoforms can arise from a gene, which tends to have partially identical peptide sequences, taking this property into account to effectively distinguish these isoforms This is necessary.

실험으로부터 생산된 질량들을 통하여 아이소폼을 동정하기 위해서 웹상의 소프트웨어를 통하여 검색할 수 있는데, 입력 양식에 필수요소인 질량들과 선택적인 단백질 질량과 등전위값을 입력한다 (도 3). 상기 입력된 데이터는 상기 데이터베이스를 통하여 검색한 후 상기 알고리즘을 통하여 점수가 계산되고 그 점수에 의해 오름차순으로 정리된다. 이 결과는 상단에 있을수록 올바른 아이소폼일 가능성이 높다. 다시 말하면, 점수가 낮을수록 유의한 후보가 된다.The software can be searched through software on the web to identify isoforms from the masses produced from the experiment. The masses, the optional protein mass and the equipotential value, which are essential to the input form, are entered (FIG. 3). The input data is searched through the database and scores are calculated by the algorithm and are sorted in ascending order by the scores. The higher the result, the more likely the correct isoform. In other words, the lower the score, the more significant the candidate.

본 발명의 알고리즘에 대한 자세한 설명은 도 2에 도식화되어 있다. 도 2에서와 같이 질량분석장치로부터 측정된 질량값(201)은 데이터베이스(202)에서 검색되어 진다. 데이터베이스(202)에서의 A,B,C,D,L,M,N은 각 측정된 질량값으로 검색한 후 매치된 펩티드의 수를 가상적인 원으로 나타내고, 이 원의 크기가 클수록 많은 펩티드가 매치되었음을 나타낸다. 또한 이 원이 작을수록 우연히 발생할 확률이 적음을 나타낸다. 측정된 질량값들을 데이터베이스에서 검색하면 매치된 질량값들을 가진 아이소폼들(203)이 점수에 의해 보여진다. 각 아이소폼은 C1, C2, ..., C7으로 낮은 점수로 가진 것부터 높은 점수를 가진 아이소폼으로 정렬되어 진다. 그들 중 한 유전자로 유래된 아이소폼은 같은 펩티드 조각들을 공유하는 경향이 있음으로 인해서 동일한 비슷한 점수를 가지게 된다. 한 아이소폼에서 유래된 아이소폼(204)이 C1, C2, C3으로 각 위에서 1, 2, 3의 순서를 나타낸다. 이 중에 서로 다른 매치된 질량들 L, M, N에 의해 후보의 유의 순서가 결정되는 데 가장 작은 L에 의해 C1이 가장 유의한 후보가 된다.A detailed description of the algorithm of the present invention is illustrated in FIG. As shown in FIG. 2, the mass value 201 measured from the mass spectrometer is retrieved from the database 202. A, B, C, D, L, M, and N in the database 202 search for each measured mass value and represent the number of peptides matched by a imaginary circle. Indicates a match. Also, the smaller this circle, the less likely it is to happen by chance. Searching the measured mass values in the database shows isoforms 203 with matched mass values by score. Each isoform is ordered from the lowest score C1, C2, ..., C7 to the highest score isoform. Isoforms derived from one of them have the same similar score because they tend to share the same peptide fragments. Isoforms 204, derived from one isoform, represent C1, C2, C3 in the order of 1, 2, 3 above each. Among them, the significance order of the candidate is determined by the different matched masses L, M, and N, and C1 becomes the most significant candidate by the smallest L.

Figure 112008018395165-pat00004
Figure 112008018395165-pat00004

상기 식 1 내지 식 3에 기재된 각 기호의 정의는 전술한 바와 같다.Definition of each symbol described in said Formula 1-Formula 3 is as above-mentioned.

질량분석기를 통하여 측정된 질량데이터(201)를 데이터베이스(202)에 각 측정된 질량 값을 질량 오차값을 고려하여 검색한다. 측정된 모든 질량값들로 검색한 개수는 도 2의 점선으로 된 원의 크기이며, 각 질량값들을 데이터베이스에서 검색할 수 있는데, 데이터베이스(202)에서의 원 A, B, C, D, L, M, N은 fmi로 표시되고, 앞에서 알아낸 값들을 통해 식 2의 값을 계산할 수 있다. 그리고, 모든 측정된 질량값들을 통해 검색된 아이소폼들은 각 아이소폼에 매치된 질량값에 해당하는 식 2의 EMj 값들을 모두 더함으로 점수를 계산한다.The mass data 201 measured through the mass spectrometer are searched in the database 202 in consideration of the mass error value. The number retrieved by all the measured mass values is the size of the circle of dotted line in FIG. 2, and each mass value can be retrieved from the database. The circle A, B, C, D, L, M and N are denoted by f mi , and the values of Equation 2 can be calculated using the values found above. Then, the isoforms searched through all the measured mass values calculate the score by adding all the E Mj values of Equation 2 corresponding to the mass values matched with each isoform.

본 발명은 본 발명의 펩티드 질량 지문 추적법을 사용하여 알터네이티브 스플라이싱 아이소폼(alternative splicing isoform)을 동정하기 위한 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention provides a recording medium having recorded thereon a computer readable program for performing a method for identifying an alternative splicing isoform using the peptide mass fingerprint tracking method of the present invention.

컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예: MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 한정되는 것이 아니다.Computer-readable recording medium refers to any recording medium that can be read directly and accessed by a computer. Such recording media include magnetic recording media such as floppy disks, hard disks, and magnetic tapes, optical recording media such as CD-ROMs, CD-Rs, CDs, RWs, DVD-ROMs, DVD-RAMs, DVD-RWs, RAMs and ROMs. Electrical recording media such as and mixtures of these categories (for example, magnetic / optical recording media such as MO), but are not limited to these.

상기한 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근 거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 당해 매체에 기록시키기 위해 사용된다. 당해 정보는 예를 들면, 시판하는 소프트웨어로 포멧된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.The selection of a device for recording or inputting the above recording medium or a device or device for reading information in the recording medium is based on the type of recording medium and the access method. Various data processor programs, software, comparators, and formats are also used to record a program for performing the method of the present invention on the medium. The information can be represented, for example, in the form of a binary file, a text file or an ASCII file formatted by commercially available software.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features thereof. Therefore, the above-described embodiments are to be understood as illustrative in all respects and not as restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

도 1은 알터네이티브 스플라이싱 아이소폼을 확인하는 시스템의 개략도를 나타낸다.1 shows a schematic of a system for identifying alternating splicing isoforms.

도 2는 알고리즘을 설명하기 위한 모식도를 나타낸다.2 shows a schematic diagram for explaining the algorithm.

도 3은 입력부 화면을 나타낸다.3 shows an input unit screen.

삭제delete

Claims (7)

단백질의 가수분해로 얻어진 펩티드 조각들의 측정된 질량 데이터를 입력하는 입력부;An input for inputting measured mass data of peptide fragments obtained by hydrolysis of the protein; 단백질 서열의 질량, 등전위값, 단백질 변형에 관여할 가능성이 있는 아미노산 위치에 대한 정보와 단백질 서열에 효소처리 후 생산되는 펩티드 서열 정보를 포함하는 데이터베이스;A database containing information on the mass of the protein sequence, the equipotential value, information on amino acid positions likely to be involved in protein modification, and peptide sequence information produced after enzyme treatment in the protein sequence; 데이터베이스를 검색하는 검색부; A search unit for searching a database; 데이터베이스에 일치된 질량들을 포함한 알터네이티브 스플라이싱 아이소폼 (alternative splicing isoform)에 대해 검색된 후보들의 가능성을 점수화하는 알고리즘; 및 An algorithm that scores the likelihood of candidates searched for an alternative splicing isoform including masses matched in the database; And 점수에 따라 후보 아이소폼을 정렬하는 출력부를 포함하는 펩티드 질량 지문 추적법을 이용한 알터네이티브 스플라이싱 아이소폼을 동정하기 위한 시스템.A system for identifying alternating splicing isoforms using peptide mass fingerprint tracking comprising an output that aligns candidate isoforms according to scores. 삭제delete 제1항에 있어서, 상기 알고리즘은 실험을 통하여 측정된 질량 데이터를 데이터베이스에 검색 후 결과를 각 아이소폼별로 매치된 질량에 대해 하기 식 1, 식 2 및 식 3에 의해 계산하여 후보의 우선순위를 결정하는 알고리즘인 것을 특징으로 하는 시스템:The method of claim 1, wherein the algorithm searches the database for mass data measured through experiments, and calculates the results of the candidates by calculating the results according to the following equations 1, 2, and 3 for the mass matched for each isoform. The system characterized by the determining algorithm:
Figure 112008018395165-pat00005
Figure 112008018395165-pat00005
(상기 식에서,(Wherein 측정된 질량값들은 m = { m1, m2,..., mi}이고, 데이터베이스에 매치된 질량값을 M = {M1,M2,...., Mk}라고 할 때, mi는 m의 질량값들를 나타내고, Mk는 M의 질량값들을 나타내며, Mk는 mi 중에 어떤 후보 아이소폼에 매치된 하나의 값이며, T는 측정된 데이터로 검색했을 때 데이터베이스로부터 검색된 총 펩티드 개수를 나타내며, fmi는 데이터베이스에서 각 측정된 질량값에 의해 검색된 펩티드 개수를 나타내며, Emi는 rmi의 10진 로그값이며, 점수(Ps)는 각 아이소폼에 매치된 질량값들에 대한 EMj의 합이다).The measured mass values are m = {m1, m2, ..., mi} and when the mass value matched in the database is M = {M1, M2, ...., Mk}, mi is the mass of m Values, Mk denotes mass values of M, Mk is one value matched to any candidate isoform among mi, T denotes the total number of peptides retrieved from the database when retrieved with the measured data, and f mi is The number of peptides retrieved by each measured mass value in the database, E mi is the decimal logarithm of r mi , and the score (P s ) is the sum of E Mj for the mass values matched for each isoform) .
알터네이티브 스플라이싱 아이소폼을 검색하기 위한 데이터베이스를 구축하 는 단계;Building a database for searching for alternative splicing isoforms; 단백질의 가수분해로 얻어진 펩티드 조각들의 측정된 질량 데이터를 상기 데이터베이스에서 검색하는 단계;Retrieving from said database the measured mass data of peptide fragments obtained by hydrolysis of the protein; 데이터베이스에 일치된 질량들을 포함한 알터네이티브 스플라이싱 아이소폼 (alternative splicing isoform)에 대해 검색된 후보들의 가능성을 점수화하는 알고리즘을 사용하여 점수화하는 단계; 및 Scoring using an algorithm that scores the likelihood of candidates searched for an alternative splicing isoform including masses matched in a database; And 점수에 따라 후보 아이소폼을 정리하여 아이소폼을 동정하는 단계를 포함하는 펩티드 질량 지문 추적법을 이용한 알터네이티브 스플라이싱 아이소폼을 동정하는 방법.A method for identifying an alternating splicing isoform using peptide mass fingerprint tracking comprising the step of arranging candidate isoforms according to scores. 제4항에 있어서, 상기 알고리즘은 실험을 통하여 측정된 질량 데이터를 데이터베이스에 검색 후 결과를 각 아이소폼별로 매치된 질량에 대해 하기 식 1, 식 2 및 식 3에 의해 계산하여 후보의 우선순위를 결정하는 알고리즘인 것을 특징으로 하는 방법:The method of claim 4, wherein the algorithm searches the database for the mass data measured through the experiment and calculates the results of the candidates by calculating the results according to the following equations 1, 2, and 3 for the mass matched for each isoform. Method for determining the algorithm characterized in that:
Figure 112008018395165-pat00006
Figure 112008018395165-pat00006
(식 1, 2 및 3에서 사용된 기호들은 제3항에 정의된 바와 같다).(The symbols used in equations 1, 2 and 3 are as defined in claim 3).
제5항에 있어서, 상기 알고리즘의 구현 방법은 입력부로부터 입력받은 질량 데이터와 질량오차로부터 측정된 질량에 질량오차 범위로 데이터베이스에 검색하고, 그 결과를 아이소폼별로 정리한 후 알고리즘을 사용하여 점수화하고, 오름차순으로 정리하여 후보의 우선순위를 결정하는 방법.The method of claim 5, wherein the method of implementing the algorithm is searched in a database with a mass error range from the mass data inputted from the input unit and the mass measured from the mass error, and the results are sorted by isoform and scored using an algorithm. To prioritize candidates in ascending order. 제4항 내지 제6항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.A recording medium having recorded thereon a computer readable program for performing the method of any one of claims 4 to 6.
KR1020080023411A 2008-03-13 2008-03-13 System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor KR100856526B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080023411A KR100856526B1 (en) 2008-03-13 2008-03-13 System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor
PCT/KR2008/002390 WO2009113752A1 (en) 2008-03-13 2008-04-28 System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080023411A KR100856526B1 (en) 2008-03-13 2008-03-13 System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor

Publications (1)

Publication Number Publication Date
KR100856526B1 true KR100856526B1 (en) 2008-09-04

Family

ID=40022402

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080023411A KR100856526B1 (en) 2008-03-13 2008-03-13 System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor

Country Status (2)

Country Link
KR (1) KR100856526B1 (en)
WO (1) WO2009113752A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086859A1 (en) * 2010-12-22 2012-06-28 경상대학교 산학협력단 Pathogen diagnosis and biomarker analysis using mass spectroscope
KR101168371B1 (en) 2009-12-17 2012-07-24 경상대학교산학협력단 Mass Spectrometry based Pathogen Diagnosis and Biomarker analysis

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040038417A1 (en) 2000-02-07 2004-02-26 Cahill Dolores J. Method for identifying and/or characterizing a (poly)peptide
KR100531207B1 (en) 2005-06-04 2005-11-29 씨비에스소프트주식회사 Protein identification system
JP2006058111A (en) 2004-08-19 2006-03-02 Shimadzu Corp Protein identification processing method and apparatus therefor
KR20070017676A (en) * 2005-08-08 2007-02-13 한국기초과학지원연구원 An additive scoring method for modified polypeptide
KR100757040B1 (en) 2005-12-12 2007-09-07 오브젝트인터랙션테크놀로지스(주) System and method for analysis of interfaces based on protein domain and recording medium therefor
US20070224704A1 (en) 2006-03-23 2007-09-27 Epitome Biosystems, Inc. Protein splice variant / isoform discrimination and quantitative measurements thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040038417A1 (en) 2000-02-07 2004-02-26 Cahill Dolores J. Method for identifying and/or characterizing a (poly)peptide
JP2006058111A (en) 2004-08-19 2006-03-02 Shimadzu Corp Protein identification processing method and apparatus therefor
KR100531207B1 (en) 2005-06-04 2005-11-29 씨비에스소프트주식회사 Protein identification system
KR20070017676A (en) * 2005-08-08 2007-02-13 한국기초과학지원연구원 An additive scoring method for modified polypeptide
KR100757040B1 (en) 2005-12-12 2007-09-07 오브젝트인터랙션테크놀로지스(주) System and method for analysis of interfaces based on protein domain and recording medium therefor
US20070224704A1 (en) 2006-03-23 2007-09-27 Epitome Biosystems, Inc. Protein splice variant / isoform discrimination and quantitative measurements thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101168371B1 (en) 2009-12-17 2012-07-24 경상대학교산학협력단 Mass Spectrometry based Pathogen Diagnosis and Biomarker analysis
WO2012086859A1 (en) * 2010-12-22 2012-06-28 경상대학교 산학협력단 Pathogen diagnosis and biomarker analysis using mass spectroscope

Also Published As

Publication number Publication date
WO2009113752A1 (en) 2009-09-17

Similar Documents

Publication Publication Date Title
Alser et al. Technology dictates algorithms: recent developments in read alignment
KR101140780B1 (en) System and method for identifying and classifying the resistance gene in plant using the hidden markov model
KR101313087B1 (en) Method and Apparatus for rearrangement of sequence in Next Generation Sequencing
WO2018218788A1 (en) Third-generation sequencing sequence alignment method based on global seed scoring optimization
CN110021355B (en) Haploid typing and variation detection method and device for diploid genome sequencing segment
CN111951893B (en) Method for constructing tumor mutation load TMB panel
Kearse et al. The Geneious 6.0. 3 read mapper
CN110400602A (en) A kind of ABO blood group system classifying method and its application based on sequencing data
CN107208131A (en) Method for lung cancer parting
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
CN113724781B (en) Method and apparatus for detecting homozygous deletions
CN113278706B (en) Method for distinguishing somatic mutation from germline mutation
CN116564409A (en) Machine learning-based identification method for sequencing data of transcriptome of metastatic breast cancer
KR100856526B1 (en) System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor
KR100853786B1 (en) A method for reconstructing protein database and a method for identifying proteins by using the same method
CN116864007A (en) Analysis method and system for gene detection high-throughput sequencing data
CN112489727A (en) Method and system for rapidly acquiring pathogenic site of rare disease
US20170206315A1 (en) Analysis method and information processing device
US20240194294A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
JP5403563B2 (en) Gene identification method and expression analysis method in comprehensive fragment analysis
KR102397822B1 (en) Apparatus and method for analyzing cells using chromosome structure and state information
US7133780B2 (en) Computer software for automated annotation of biological sequences
CN110462056A (en) Samples sources detection method, device and storage medium based on DNA sequencing data
KR20230064172A (en) Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid
CN113388683A (en) Biomarker related to lung cancer prognosis and application thereof

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110829

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20120828

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee