JP4845080B2 - Activated G protein prediction apparatus, program and method - Google Patents

Activated G protein prediction apparatus, program and method Download PDF

Info

Publication number
JP4845080B2
JP4845080B2 JP2004316279A JP2004316279A JP4845080B2 JP 4845080 B2 JP4845080 B2 JP 4845080B2 JP 2004316279 A JP2004316279 A JP 2004316279A JP 2004316279 A JP2004316279 A JP 2004316279A JP 4845080 B2 JP4845080 B2 JP 4845080B2
Authority
JP
Japan
Prior art keywords
protein
gpcr
activated
prediction
ligand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004316279A
Other languages
Japanese (ja)
Other versions
JP2006127248A (en
Inventor
牧子 諏訪
貴次 広川
秀仁 向井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2004316279A priority Critical patent/JP4845080B2/en
Publication of JP2006127248A publication Critical patent/JP2006127248A/en
Application granted granted Critical
Publication of JP4845080B2 publication Critical patent/JP4845080B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、G蛋白質共役型受容体(GPCR)およびリガンドの組み合わせから、活性化されるG蛋白質をバイオインフォマティクスにより予測する技術に関する。   The present invention relates to a technique for predicting an activated G protein by bioinformatics from a combination of a G protein-coupled receptor (GPCR) and a ligand.

生体が外界から受けた情報を細胞内に伝達することで、生命活動のために極めて重要な機能が発現する。多くの場合、情報伝達の起点となるのがG蛋白質共役型受容体(GPCR)であり、GPCRは、7本の膜貫通へリックスとそれらをつなぐ膜外ループドメインから構成されている。GPCRに、神経伝達物質、ホルモン、ペプチド、脂質分子などのリガンドが結合し、共役するG蛋白質(主にGi/o、Gq/11、Gs、G12/13の4種類)のどれかが選択され、これにより、機能、すなわち細胞内への情報伝達の経路が決まる(非特許文献1)。GPCRは、クラスA,B,C,D,Eの5クラスに分けられる。とりわけクラスAに所属する受容体には、立体構造がわかっている代表(ロドプシン)があり(非特許文献2)、最も大きなファミリーが提供される。   By transmitting information received by the living body from the outside into the cell, functions that are extremely important for life activities are expressed. In many cases, G protein-coupled receptor (GPCR) is the starting point for information transmission, and GPCR is composed of seven transmembrane helices and an extra-membrane loop domain that connects them. A Gprotein (mainly 4 types of Gi / o, Gq / 11, Gs, G12 / 13) to which a ligand such as neurotransmitter, hormone, peptide, lipid molecule binds and couples to GPCR is selected. This determines the function, that is, the pathway of information transmission into the cell (Non-patent Document 1). GPCRs are divided into five classes: classes A, B, C, D, and E. Among the receptors belonging to class A, there is a representative (rhodopsin) whose steric structure is known (Non-patent Document 2), and the largest family is provided.

現在、世界で出荷されている薬の約半数以上が、このような受容体システムの制御を目的としており(非特許文献3)、新規な薬物開発を行う上で受容体システムが最重要な研究対象であるといえる。ヒトゲノムドラフト配列が決定されたことを契機に(非特許文献4、5)、網羅的なレベルでヒトGPCRを解析する機運が高まってきた。GPCRDBという総合的なデータベースや(非特許文献6)、ヒトゲノム配列から網羅的にGPCRを発見したデータベースが公開されるなど(非特許文献7、8)、本格的な網羅的、効率的機能解析のためのインフラが整ってきている。
Simon, M. I., Strathmann, M. P. and Gautam, N. (1991) Diversity of G protein-coupled receptors for lysophospholipids; their signaling trunduction, Science, 252: 802-808. Palczewski, K., Kumasaka, T., Hori, T., Behnke, C. A., Motoshima, H., Fox, B. A., Le Trong, I., Teller, D. C., Okada, T. Stenkamp, R. E., et al, Crystal structure of rhodopsin: a G-protein-coupled receptor, Science, 289: 739-745,2000. Gudermann, T., Nurnberg, B. et al. (1995) Receptors and G proteins as primary components of transmembrane signal trranduction. Part 1. G-protein-coupled receptors: structure and function. J. Mol. Med., 73, 51-63, International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the human genome. Nature 409, 860-921. Venter, J. C., et al. (2001) The sequence of the human genome. Science. 291, 1304-1351. Horn, F., Bettler E, Oliveira L, Campagne F, Cohhen, FE., Vriend, G. GPCRDB information system for G protein-coupled receptors. Nucleic Acids Res. 2003 Jan 1;31(1):294-297. Suwa,M., Sato,T., Okouchi,I., Kumagai,T., Arita,M., Asai K., Akiyama,Y., Matsumoto,S., Tsutsumi,S. and Aburatani,T.: "SEVENS", Nucleic Acids Res. 31, No. 1 Online summary paper. HYPERLINK "http://www3.oup.co.uk/nar/database/summary/373" http://www3.oup.co.uk/nar/database/summary/373 (2003). Hodges PE, Carrico PM, Hogan JD, O'Neill KE, Owen JJ, Mangan M, Davis BP, Brooks JE, Garrels JI. (2002). Annotating the human proteome: the Human Proteome Survey Database (HumanPSDTM) and an in-depth target database for G protein-coupled receptors (GPCR-PDTM) from Incyte Genomics.
Currently, more than half of the drugs shipped worldwide are aimed at controlling such receptor systems (Non-patent Document 3), and receptor systems are the most important research for developing new drugs. It can be said that it is a target. With the determination of the human genome draft sequence (Non-Patent Documents 4 and 5), the momentum for analyzing human GPCRs at an exhaustive level has increased. A comprehensive database called GPCRDB (Non-patent Document 6) and a database that comprehensively discovers GPCRs from human genome sequences are published (Non-Patent Documents 7 and 8). The infrastructure is in place.
Simon, MI, Strathmann, MP and Gautam, N. (1991) Diversity of G protein-coupled receptors for lysophospholipids; their signaling trunduction, Science, 252: 802-808. Palczewski, K., Kumasaka, T., Hori, T., Behnke, CA, Motoshima, H., Fox, BA, Le Trong, I., Teller, DC, Okada, T. Stenkamp, RE, et al, Crystal structure of rhodopsin: a G-protein-coupled receptor, Science, 289: 739-745, 2000. Gudermann, T., Nurnberg, B. et al. (1995) Receptors and G proteins as primary components of transmembrane signal trranduction. Part 1.G-protein-coupled receptors: structure and function.J. Mol. Med., 73, 51-63, International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the human genome.Nature 409, 860-921. Venter, JC, et al. (2001) The sequence of the human genome. Science. 291, 1304-1351. Horn, F., Bettler E, Oliveira L, Campagne F, Cohhen, FE., Vriend, G. GPCRDB information system for G protein-coupled receptors. Nucleic Acids Res. 2003 Jan 1; 31 (1): 294-297. Suwa, M., Sato, T., Okouchi, I., Kumagai, T., Arita, M., Asai K., Akiyama, Y., Matsumoto, S., Tsutsumi, S. and Aburatani, T .: " SEVENS ", Nucleic Acids Res. 31, No. 1 Online summary paper. HYPERLINK" http://www3.oup.co.uk/nar/database/summary/373 "http://www3.oup.co.uk/ nar / database / summary / 373 (2003). Hodges PE, Carrico PM, Hogan JD, O'Neill KE, Owen JJ, Mangan M, Davis BP, Brooks JE, Garrels JI. (2002). Annotating the human proteome: the Human Proteome Survey Database (HumanPSDTM) and an in-- depth target database for G protein-coupled receptors (GPCR-PDTM) from Incyte Genomics.

創薬の観点から言えば、特定のG蛋白質の活性化を選択的に制御できる薬物を探索することが最重要課題である。そのためには、GPCRに結合するリガンドを同定すること、並びに各々のリガンドによるG蛋白質の活性化をモニターできることが必要である。しかし、このような目的で生化学的実験系を組み、効率的、網羅的な解析を行うのは現時点では困難である。これに対して、バイオインフォマティクスの手法から、予めこれらの問題に対する答えを用意しておくことができれば、G蛋白質関連創薬に大きな進歩をもたらすと期待される。そこで、本発明は、GPCRとリガンドの情報を入力したとき、活性化されるG蛋白質種を予測する技術を提供することを目的としている。   From the viewpoint of drug discovery, it is most important to search for drugs that can selectively control the activation of specific G proteins. For this purpose, it is necessary to identify ligands that bind to the GPCR and to monitor the activation of the G protein by each ligand. However, it is difficult at the present time to construct a biochemical experimental system for such purposes and perform efficient and comprehensive analysis. On the other hand, if answers to these problems can be prepared in advance from bioinformatics techniques, it is expected to bring about significant progress in G protein-related drug discovery. Accordingly, an object of the present invention is to provide a technique for predicting a G protein species to be activated when GPCR and ligand information is input.

図1は、GPCR構造のモデルを示している。GPCRは、7本の膜貫通へリックスと、ループ部分とで構成されており、ループ部分は、細胞外N末端ループ、細胞外ループ、細胞内ループ、C末端ループである。GPCRがG蛋白質を選択する場合、GPCRとリガンドが結合し、その状態がGPCRの構造変化を誘導して、結合選択性を変化させると考えられる。このとき、リガンド、GPCRおよびG蛋白質が結合複合体となって一つのシステムとして働くと考えられる。   FIG. 1 shows a model of the GPCR structure. The GPCR is composed of seven transmembrane helices and a loop portion, and the loop portion is an extracellular N-terminal loop, an extracellular loop, an intracellular loop, and a C-terminal loop. When GPCR selects G protein, GPCR and a ligand couple | bond together and it is thought that the state induces | guides | derives the structural change of GPCR and changes binding selectivity. At this time, it is considered that the ligand, GPCR and G protein function as a binding complex and function as one system.

ところが、従来技術では、もっぱら、リガンドの種類を基にGPCRが分類されており、あるいは、G蛋白質の種類を基にGPCRが分類されており、これらの分類が別々になされている。これに対して、リガンド、GPCRとG蛋白質の相関性を考慮し、GPCRとリガンドからG蛋白質を予測可能になれば、創薬などの観点から貴重な情報が得られると考えられる。   However, in the prior art, GPCRs are classified mainly based on the type of ligand, or GPCRs are classified based on the type of G protein, and these classifications are made separately. On the other hand, if the G protein can be predicted from the GPCR and the ligand in consideration of the correlation between the ligand, the GPCR and the G protein, it is considered that valuable information can be obtained from the viewpoint of drug discovery.

本発明は上記背景の下でなされたものであり、その目的は、GPCRとリガンドの情報が入力されたとき、活性化されるG蛋白質種を予測するための技術を提供することにある。   The present invention has been made under the above-described background, and an object thereof is to provide a technique for predicting a G protein species to be activated when GPCR and ligand information is input.

本発明の第一の態様は、G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質を予測する活性化G蛋白質予測装置である。本発明の装置は、予測対象のGPCRおよびリガンドの情報を入力する入力手段と、前記入力手段により入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出手段と、前記特徴パラメータ抽出手段により抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成手段と、活性化G蛋白質が既知のGPCRおよびリガンドの情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段と、前記分類情報記憶手段に記憶された前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRおよびリガンドにより活性化されるG蛋白質を予測する予測処理手段と、前記予測処理手段による予測結果を出力する出力手段と、を含む。   The first aspect of the present invention is an activated G protein predicting apparatus that predicts a G protein that is activated when a G protein-coupled receptor (GPCR) and a ligand bind to each other. The apparatus of the present invention extracts a characteristic parameter, which is a predetermined physicochemical parameter related to G protein selectivity, from an input means for inputting information on a GPCR and a ligand to be predicted, and information inputted by the input means. Feature parameter extracting means, feature vector data generating means for generating feature vector data to be predicted including the feature parameters extracted by the feature parameter extracting means, information on GPCRs and ligands with known activated G proteins Classification information storage means for storing known data classification information for classifying the feature vectors obtained from the above into a plurality of feature vector groups divided according to activated G protein species, and the known information stored in the classification information storage means With reference to the data classification information, the feature vector of the prediction target is the plurality of feature vectors. Seeking belongs to any Torr group includes a prediction processing means for predicting the G protein is activated by GPCR and ligand to be predicted, and output means for outputting a prediction result of the prediction processing means, a.

前記分類情報記憶手段は、前記既知データ分類情報として、活性化されるG蛋白質が既知のGPCRおよびリガンドから得られる特徴ベクトル群をサポートベクターマシンで処理することによって特徴ベクトル群をG蛋白質種に応じて分けるように設定された超平面を表す情報を記憶してもよい。前記予測処理手段は、予測対象の特徴ベクトルデータが前記超平面のどちら側の空間に属するかによって、活性化されるG蛋白質を予測してもよい。   The classification information storage means, as the known data classification information, processes a feature vector group obtained from a GPCR and a ligand whose G protein to be activated is known by a support vector machine according to the G protein type. Information representing the hyperplane set so as to be divided may be stored. The prediction processing means may predict an activated G protein depending on which side of the hyperplane the feature vector data to be predicted belongs.

前記入力手段は、前記GPCRの配列情報および前記リガンドの分子量情報を入力してもよい。   The input means may input sequence information of the GPCR and molecular weight information of the ligand.

前記特徴パラメータ抽出手段は、前記特徴パラメータとして、GPCRのループ部分および膜貫通へリックス部分から複数のパラメータを抽出してもよい。   The feature parameter extraction means may extract a plurality of parameters from the loop portion and transmembrane helix portion of the GPCR as the feature parameter.

前記特徴パラメータ抽出手段は、立体構造が既知のGPCRをテンプレートとして用いて、予測対象のGPCRのアライメントを行い、アライメント結果から特徴パラメータを抽出してもよい。   The feature parameter extraction means may perform alignment of the prediction target GPCR using a GPCR with a known three-dimensional structure as a template, and extract the feature parameter from the alignment result.

前記特徴パラメータ抽出手段は、前記立体構造が既知のGPCRとしてロドプシンの情報を用いてもよい。   The feature parameter extraction means may use information on rhodopsin as a GPCR having a known three-dimensional structure.

前記特徴パラメータ抽出手段は、前記特徴パラメータとして、細胞内第3ループ(I3ループ)長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、細胞内第3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、を抽出してもよい。   The characteristic parameter extraction means includes, as the characteristic parameters, an intracellular third loop (I3 loop) length, a C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, The total number of arginine and lysine in a plurality of predetermined residues on the C-terminal side of the loop may be extracted.

前記特徴パラメータ抽出手段は、前記特徴パラメータとして、アライメント結果から得られる膜貫通へリックスの情報からアミンプロファイルスコアおよびペプチドプロファイルスコアを求めてもよい。アミンプロファイルスコアは、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアであり、ペプチドプロファイルスコアは、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアである。   The feature parameter extraction means may obtain an amine profile score and a peptide profile score from the transmembrane helix information obtained from the alignment result as the feature parameter. The amine profile score is a score indicating the similarity between the position-specific profile of the GPCR of the amine bond line and the transmembrane helix of the predicted GPCR, and the peptide profile score is the position-specific profile of the GPCR of the peptide bond line And a score indicating similarity between the transmembrane helix of the predicted GPCR.

前記分類情報記憶手段は、第1種類のG蛋白質を選別するための第1の超平面と、第2種類と第3種類のG蛋白質を選別するための第2の超平面とを記憶していてもよい。前記予測処理手段は、予測対象の特徴ベクトルデータが第1種類のG蛋白質であるか否かを前記第1の超平面に基づいて予測し、さらに、予測対象の特徴ベクトルデータが第2種類および第3種類のG蛋白質のどちらであるかを前記第2の超平面に基づいて予測してもよい。   The classification information storage means stores a first hyperplane for selecting a first type of G protein and a second hyperplane for selecting a second type and a third type of G protein. May be. The prediction processing means predicts whether or not the feature vector data to be predicted is a first type G protein based on the first hyperplane, and further, the feature vector data to be predicted is a second type and Which of the third type of G protein may be predicted based on the second hyperplane.

前記第1種類のG蛋白質がGsであり、前記第2種類および前記第3種類のG蛋白質がGi/oおよびGq/11であってもよい。   The first type G protein may be Gs, and the second type and the third type G protein may be Gi / o and Gq / 11.

前記特徴ベクトルデータ生成手段は、Gsを選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、細胞内第3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含むデータを生成してもよい。前記特徴ベクトルデータ生成手段は、Gi/oおよびGq/11を選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、細胞内第3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、ペプチドプロファイルスコアと、リガンドの分子量と、をパラメータとして含むデータを生成してもよい。前記アミンプロファイルスコアは、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアであり、前記ペプチドプロファイルスコアは、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアである。   The feature vector data generation means includes, as feature vector data for selecting Gs, the third loop length in the cell, the C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, Data including the total number of arginine and lysine in a predetermined plurality of residues on the C-terminal side of the third loop and the amine profile score as parameters may be generated. The feature vector data generation means uses the third loop length in the cell, the C-terminal loop length, and the proline residue corresponding to the 170th residue of rhodopsin as the feature vector data for selecting Gi / o and Gq / 11. Data including the presence or absence of a group, the total number of arginine and lysine in a predetermined plurality of residues on the C-terminal side of the intracellular third loop, an amine profile score, a peptide profile score, and the molecular weight of the ligand as parameters. It may be generated. The amine profile score is a score indicating similarity between the position-specific profile of the GPCR of the amine-binding line and the transmembrane helix of the predicted GPCR, and the peptide profile score is position-specific of the GPCR of the peptide-binding line It is a score which shows the similarity of a physical profile and the transmembrane helix of GPCR of prediction object.

Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であってもよい。Gi/oとGq/11を選別するための第2の超平面は、サポートベクターマシンのカーネル関数がポリノミアルであってもよい。   In the first hyperplane for Gs selection, the kernel function of the support vector machine may be a radial basis function. In the second hyperplane for selecting Gi / o and Gq / 11, the kernel function of the support vector machine may be polynomial.

本発明の第二の態様は、G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質を予測する処理をコンピュータに実行させるための活性化G蛋白質予測プログラムである。本プログラムは、予測対象のGPCRおよびリガンドの情報を入力する入力ステップと、前記入力ステップにて入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出ステップと、前記特徴パラメータ抽出ステップにて抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成ステップと、活性化G蛋白質が既知のGPCRおよびリガンドの情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段を参照し、前記既知データ分類情報を読み出す分類情報読出ステップと、前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRおよびリガンドにより活性化されるG蛋白質を予測する予測ステップと、前記予測ステップでの予測結果を出力する出力ステップと、をコンピュータに実行させる。このようなプログラムの態様にも、上述した装置の態様に関して示された各種の構成をプログラムのかたちで適用可能である。   The second aspect of the present invention is an activated G protein prediction program for causing a computer to execute a process for predicting a G protein activated when a G protein-coupled receptor (GPCR) and a ligand are bound. . This program extracts a characteristic parameter, which is a predetermined physicochemical parameter related to G protein selectivity, from an input step of inputting information on a prediction target GPCR and a ligand, and information input in the input step. Feature parameter extraction step, feature vector data generation step for generating feature vector data to be predicted including the feature parameter extracted in the feature parameter extraction step, information on GPCR and ligand with known activated G protein Classification information storage means for storing known data classification information for classifying feature vectors obtained from the above into a plurality of feature vector groups divided according to activated G protein species, and for reading the known data classification information A reading step and referring to the known data classification information A prediction step of determining which of the plurality of feature vector groups the feature vector of the prediction target belongs to and predicting a G protein activated by the GPCR and ligand of the prediction target; and a prediction result in the prediction step And causing the computer to execute an output step. Various configurations shown with respect to the above-described apparatus aspects can be applied to such a program aspect in the form of a program.

本発明の第三の態様は、G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質を予測する活性化G蛋白質予測方法である。この方法は、予測対象のGPCRおよびリガンドの情報を入力する入力ステップと、前記入力ステップにて入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出ステップと、前記特徴パラメータ抽出ステップにて抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成ステップと、活性化G蛋白質が既知のGPCRおよびリガンドの情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段を参照し、前記既知データ分類情報を読み出す分類情報読出ステップと、前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRおよびリガンドにより活性化されるG蛋白質を予測する予測ステップと、前記予測ステップでの予測結果を出力する出力ステップと、を含む。このような方法の態様にも、上述した装置の態様に関して示された各種の構成を方法のかたちで適用可能である。   The third aspect of the present invention is an activated G protein prediction method for predicting a G protein that is activated when a G protein-coupled receptor (GPCR) and a ligand bind to each other. According to this method, a feature parameter which is a predetermined physicochemical parameter related to G protein selectivity is extracted from an input step of inputting information on a GPCR to be predicted and a ligand, and information input in the input step. Feature parameter extraction step, feature vector data generation step for generating feature vector data to be predicted including the feature parameter extracted in the feature parameter extraction step, information on GPCR and ligand with known activated G protein Classification information storage means for storing known data classification information for classifying feature vectors obtained from the above into a plurality of feature vector groups divided according to activated G protein species, and for reading the known data classification information Refer to the reading step and the known data classification information, A prediction step for determining which of the plurality of feature vector groups the feature vector of the prediction target belongs to predicts the G protein activated by the GPCR and the ligand of the prediction target, and a prediction result in the prediction step And an output step for outputting. The various configurations shown with respect to the above-described apparatus aspects can also be applied to such a method aspect.

本発明の第四の態様は、G蛋白質共役型受容体(GPCR)により活性化されるG蛋白質を予測する活性化G蛋白質予測装置である。本装置は、予測対象のGPCRに関する情報を入力する入力手段と、前記入力手段により入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出手段と、前記特徴パラメータ抽出手段により抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成手段と、活性化G蛋白質が既知のGPCRに関する情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段と、前記分類情報記憶手段に記憶された前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRにより活性化されるG蛋白質を予測する予測処理手段と、前記予測処理手段による予測結果を出力する出力手段と、を含む。   A fourth aspect of the present invention is an activated G protein predicting apparatus that predicts a G protein activated by a G protein coupled receptor (GPCR). The apparatus includes: an input unit that inputs information about a GPCR to be predicted; and a feature parameter extraction that extracts a feature parameter that is a predetermined physicochemical parameter related to G protein selectivity from the information input by the input unit A feature vector data generating unit that generates feature vector data of a prediction target including the feature parameter extracted by the feature parameter extracting unit, and a feature vector obtained from information on a GPCR whose activated G protein is known Classification information storage means for storing known data classification information for classification into a plurality of feature vector groups divided according to activated G protein species, and the known data classification information stored in the classification information storage means The feature vector to be predicted is one of the plurality of feature vector groups. Whether a seeking belongs, it includes a prediction processing means for predicting the G protein which is activated by the prediction target GPCR, and output means for outputting a prediction result of the prediction processing means, a.

上記の第四の態様では、GPCRに関する情報が入力され、処理される。GPCRに関する情報は、GPCRの情報でもよい。また、GPCRに関する情報は、GPCRおよびリガンドの情報でもよい。本態様は、リガンドの情報が入力される場合も、リガンドの情報が入力されない場合も含む。本態様でも、後述するようにサポートベクターマシンの分類を使った予測が好適に行われてもよく、また、特徴ベクトルの適切なパラメータが抽出されてもよく、また、サポートベクターマシンの特性を活かす階層的な処理が行われてもよい。本態様は、上記の構成により、また、上記構成および下記の付加的構成により、GPCRに関する情報からG蛋白質を的確に予測するという目的を達成し、そして、本態様により、GPCRに関する情報からG蛋白質を的確に予測できるという作用効果が得られる。   In the fourth aspect, information on the GPCR is input and processed. The information related to the GPCR may be GPCR information. Further, the information on GPCR may be information on GPCR and ligand. This aspect includes a case where ligand information is input and a case where ligand information is not input. Also in this aspect, prediction using support vector machine classification may be suitably performed as described later, appropriate parameters of feature vectors may be extracted, and characteristics of the support vector machine may be utilized. Hierarchical processing may be performed. This aspect achieves the object of accurately predicting the G protein from the information on the GPCR by the above-described configuration and the above-described configuration and the following additional configuration, and, according to the present embodiment, the G protein from the information on the GPCR. It is possible to obtain an operational effect that can be accurately predicted.

第四の態様において、前記分類情報記憶手段は、前記既知データ分類情報として、活性化されるG蛋白質が既知のGPCRに関する情報から得られる特徴ベクトル群をサポートベクターマシンで処理することによって特徴ベクトル群をG蛋白質種に応じて分けるように設定された超平面を表す情報を記憶してもよい。前記予測処理手段は、予測対象の特徴ベクトルデータが前記超平面のどちら側の空間に属するかによって、活性化されるG蛋白質を予測してもよい。また、前記入力手段は、前記GPCRの配列情報を入力してもよい。 また、前記特徴パラメータ抽出手段は、前記特徴パラメータとして、GPCRのループ部分および膜貫通へリックス部分から複数のパラメータを抽出してもよい。また、前記特徴パラメータ抽出手段は、立体構造が既知のGPCRをテンプレートとして用いて、予測対象のGPCRのアライメントを行い、アライメント結果から特徴パラメータを抽出してもよい。また、前記特徴パラメータ抽出手段は、前記立体構造が既知のGPCRとしてロドプシンの情報を用いてもよい。   In the fourth aspect, the classification information storage means processes, as a known vector classification information, a feature vector group obtained from information on a GPCR whose G protein to be activated is known by a support vector machine. May be stored as information representing the hyperplane set so as to be divided according to the G protein species. The prediction processing means may predict an activated G protein depending on which side of the hyperplane the feature vector data to be predicted belongs. The input means may input sequence information of the GPCR. The feature parameter extracting means may extract a plurality of parameters from the loop portion and transmembrane helix portion of the GPCR as the feature parameter. Further, the feature parameter extraction means may perform alignment of the prediction target GPCR using a GPCR having a known three-dimensional structure as a template, and extract the feature parameter from the alignment result. The feature parameter extracting means may use rhodopsin information as a GPCR having a known three-dimensional structure.

また、第四の態様において、前記特徴パラメータ抽出手段は、前記特徴パラメータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、細胞内第3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、を抽出してもよい。   In the fourth aspect, the feature parameter extraction means includes, as the feature parameters, an intracellular third loop length, a C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, The total number of arginine and lysine in a plurality of predetermined residues on the C-terminal side of the intracellular third loop may be extracted.

また、第四の態様において、前記特徴パラメータ抽出手段は、前記特徴パラメータとして、アライメント結果から得られる膜貫通へリックスの情報からアミンプロファイルスコアおよびペプチドプロファイルスコアを求めてもよい。アミンプロファイルスコアは、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアであり、ペプチドプロファイルスコアは、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアである。   In the fourth aspect, the feature parameter extraction means may obtain an amine profile score and a peptide profile score from the transmembrane helix information obtained from the alignment result as the feature parameter. The amine profile score is a score indicating the similarity between the position-specific profile of the GPCR of the amine bond line and the transmembrane helix of the predicted GPCR, and the peptide profile score is the position-specific profile of the GPCR of the peptide bond line And a score indicating similarity between the transmembrane helix of the predicted GPCR.

また、第四の態様において、前記分類情報記憶手段は、第1種類のG蛋白質を選別するための第1の超平面と、第2種類と第3種類のG蛋白質を選別するための第2の超平面とを記憶していてもよい。前記予測処理手段は、予測対象の特徴ベクトルデータが第1種類のG蛋白質であるか否かを前記第1の超平面に基づいて予測し、さらに、予測対象の特徴ベクトルデータが第2種類および第3種類のG蛋白質のどちらであるかを前記第2の超平面に基づいて予測してもよい。また、前記第1種類のG蛋白質がGsであってもよい。また、前記特徴ベクトルデータ生成手段は、Gsを選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、細胞内第3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含むデータを生成してもよい。前記アミンプロファイルスコアは、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すスコアである。また、Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であってもよい。   In the fourth aspect, the classification information storage means includes a first hyperplane for selecting the first type of G protein, and a second for selecting the second type and the third type of G protein. May be stored. The prediction processing means predicts whether or not the feature vector data to be predicted is a first type G protein based on the first hyperplane, and further, the feature vector data to be predicted is a second type and Which of the third type of G protein may be predicted based on the second hyperplane. The first type G protein may be Gs. In addition, the feature vector data generating means includes, as feature vector data for selecting Gs, an intracellular third loop length, a C-terminal loop length, and the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin. Alternatively, data including the total number of arginine and lysine in a predetermined plurality of residues on the C-terminal side of the intracellular third loop and the amine profile score as parameters may be generated. The amine profile score is a score indicating similarity between the position-specific profile of the GPCR of the amine-binding line and the transmembrane helix of the GPCR to be predicted. In the first hyperplane for Gs selection, the kernel function of the support vector machine may be a radial basis function.

また、第四の態様において、前記入力手段は、前記GPCRに関する情報としてGPCRおよびリガンドの情報を入力し、前記特徴ベクトルデータ生成手段は、GPCRおよびリガンドの情報を含んだ特徴ベクトルデータを生成してもよい。   In the fourth aspect, the input means inputs GPCR and ligand information as information on the GPCR, and the feature vector data generation means generates feature vector data including GPCR and ligand information. Also good.

本発明の第五の態様は、G蛋白質共役型受容体(GPCR)により活性化されるG蛋白質を予測する処理をコンピュータに実行させるための活性化G蛋白質予測プログラムである。本プログラムは、予測対象のGPCRに関する情報を入力する入力ステップと、前記入力ステップにて入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出ステップと、前記特徴パラメータ抽出ステップにて抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成ステップと、活性化G蛋白質が既知のGPCRに関する情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段を参照し、前記既知データ分類情報を読み出す分類情報読出ステップと、前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRにより活性化されるG蛋白質を予測する予測ステップと、前記予測ステップでの予測結果を出力する出力ステップと、をコンピュータに実行させる。この第五の態様でも、上述の第四の態様と同様、GPCRに関する情報は、GPCRの情報でもよく、また、GPCRおよびリガンドの情報でもよい。本態様は、第四の態様と同様、GPCRに関する情報からG蛋白質を的確に予測するという目的を達成し、そして、本態様により、GPCRに関する情報からG蛋白質を的確に予測できるという作用効果が得られる。また、このようなプログラムの態様にも、上述した装置の態様に関して示された各種の構成をプログラムのかたちで適用可能である。   The fifth aspect of the present invention is an activated G protein prediction program for causing a computer to execute a process for predicting a G protein activated by a G protein coupled receptor (GPCR). This program includes an input step for inputting information on a GPCR to be predicted, and a feature parameter for extracting a feature parameter that is a predetermined physicochemical parameter related to G protein selectivity from the information input in the input step. An extraction step, a feature vector data generation step for generating feature vector data of a prediction target including the feature parameter extracted in the feature parameter extraction step, and a feature obtained from information on a GPCR whose activated G protein is known A classification information reading step of reading the known data classification information with reference to classification information storage means for storing known data classification information for classifying the vector into a plurality of feature vector groups divided according to the activated G protein species; With reference to the known data classification information, the prediction target A prediction step for determining to which of the plurality of feature vector groups a characteristic vector belongs, a G protein activated by a prediction target GPCR, and an output step for outputting a prediction result in the prediction step; , Execute on the computer. Also in the fifth aspect, as in the fourth aspect described above, the information related to the GPCR may be information on the GPCR, or information on the GPCR and the ligand. As in the fourth embodiment, this embodiment achieves the purpose of accurately predicting G protein from information related to GPCR, and according to this embodiment, the effect of being able to accurately predict G protein from information related to GPCR is obtained. It is done. In addition, the various configurations shown with respect to the above-described apparatus aspect can be applied to such a program aspect in the form of a program.

本発明の第六の態様は、G蛋白質共役型受容体(GPCR)により活性化されるG蛋白質を予測する活性化G蛋白質予測方法である。本方法は、予測対象のGPCRに関する情報を入力する入力ステップと、前記入力ステップにて入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する特徴パラメータ抽出ステップと、前記特徴パラメータ抽出ステップにて抽出された前記特徴パラメータを含んだ予測対象の特徴ベクトルデータを生成する特徴ベクトルデータ生成ステップと、活性化G蛋白質が既知のGPCRに関する情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための既知データ分類情報を記憶する分類情報記憶手段を参照し、前記既知データ分類情報を読み出す分類情報読出ステップと、前記既知データ分類情報を参照して、前記予測対象の特徴ベクトルが前記複数の特徴ベクトルグループのいずれへと属するかを求めて、予測対象のGPCRにより活性化されるG蛋白質を予測する予測ステップと、前記予測ステップでの予測結果を出力する出力ステップと、を含む。この第六の態様でも、上述の第四の態様と同様、GPCRに関する情報は、GPCRの情報でもよく、また、GPCRおよびリガンドの情報でもよい。本態様は、第四の態様と同様、GPCRに関する情報からG蛋白質を的確に予測するという目的を達成し、そして、本態様により、GPCRに関する情報からG蛋白質を的確に予測できるという作用効果が得られる。また、このような方法の態様にも、上述した装置の態様に関して示された各種の構成を方法のかたちで適用可能である。   The sixth aspect of the present invention is an activated G protein prediction method for predicting a G protein activated by a G protein coupled receptor (GPCR). The method includes an input step of inputting information on a GPCR to be predicted, and a feature parameter that extracts a feature parameter that is a predetermined physicochemical parameter related to G protein selectivity from the information input in the input step. An extraction step, a feature vector data generation step for generating feature vector data of a prediction target including the feature parameter extracted in the feature parameter extraction step, and a feature obtained from information on a GPCR whose activated G protein is known A classification information reading step of reading the known data classification information with reference to classification information storage means for storing known data classification information for classifying the vector into a plurality of feature vector groups divided according to the activated G protein species; With reference to the known data classification information, the feature vector of the prediction target To which of the plurality of feature vector groups the Tol belongs to, a prediction step of predicting a G protein activated by the prediction target GPCR, and an output step of outputting a prediction result in the prediction step; including. Also in the sixth aspect, as in the fourth aspect described above, the information related to the GPCR may be information on the GPCR, or information on the GPCR and the ligand. As in the fourth embodiment, this embodiment achieves the purpose of accurately predicting G protein from information related to GPCR, and according to this embodiment, the effect of being able to accurately predict G protein from information related to GPCR is obtained. It is done. In addition, the various configurations shown with respect to the above-described apparatus aspects can be applied to such a method aspect in the form of a method.

本発明によれば、GPCRとリガンドの情報を入力したとき、活性化されるG蛋白質種を予測するための技術を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, when the information of GPCR and a ligand is input, the technique for estimating the G protein kind activated can be provided.

以下、本発明の好適な実施の形態を説明する。以下の説明では、まず、本発明者らが行った研究に基づいて本発明を説明し、それから、本発明が適用された予測装置を、同装置で実行される予測方法および同装置を実現するプログラムとともに説明する。   Hereinafter, preferred embodiments of the present invention will be described. In the following description, first, the present invention will be described based on research conducted by the present inventors, and then a prediction method and apparatus in which the prediction apparatus to which the present invention is applied are executed by the apparatus will be realized. Explain with the program.

1)イントロダクション
G蛋白質共役型受容体(GPCR)の機能と重要性、課題などは、「背景技術」および「発明が解決しようとする課題」の項で述べた通りである。そこで、本研究は、GPCRとリガンドの情報を入力したとき、活性化されるG蛋白質を予測するためのアルゴリズムを構築することを目的としている。
1) Introduction The functions, importance, and problems of the G protein-coupled receptor (GPCR) are as described in the sections “Background Art” and “Problems to be Solved by the Invention”. The purpose of this study is to construct an algorithm for predicting the G protein that is activated when GPCR and ligand information is input.

このためにはGPCRを機能分類することが考えられる。ここで、最も一般的な方法は、FASTA、BLASTなど、通常の配列検索方法によりアミノ酸配列データベースに対して検索を行い、配列類似性が高い相同ファミリー同士を分類する。しかし、このような一般的な方法が必ずしも機能分類につながっていない。すなわち、相同性が高く同一リガンドに結合する配列同士において、結合Gタンパク質種が異なる場合がある。一方、Gタンパク質種が同じでも、異なるリガンドが結合する場合がある [1] (下記において、[ ] は関連文献の番号を示しており、関連文献の一覧は後述にて記載される)。また、配列の相同性が25%以下のGPCR同士が、同一リガンド、同一Gタンパク質と結合する場合もある。このため、これまでに配列相同性以外の方法を用いてGPCRの分類が行われている。しかも、従来は、リガンド種を基にした分類、あるいは、Gタンパク質種を基にした分類が行われ、これらの分類が別々に行われてきた。   For this purpose, it is conceivable to classify the functions of GPCRs. Here, the most common method is to search an amino acid sequence database by a normal sequence search method such as FASTA or BLAST, and classify homologous families having high sequence similarity. However, such general methods have not necessarily led to functional classification. That is, the binding G protein species may be different between sequences having high homology and binding to the same ligand. On the other hand, even if the G protein species is the same, different ligands may bind [1] (in the following, [] indicates the number of a related document, and a list of related documents will be described later). In addition, GPCRs having sequence homology of 25% or less may bind to the same ligand and the same G protein. For this reason, classification of GPCRs has so far been performed using methods other than sequence homology. Moreover, conventionally, classification based on ligand species or classification based on G protein species has been performed, and these classifications have been performed separately.

リガンド種を基にした分類としては、GPCRのFinger Printを用いて分類したPRINTSデータベース [2] があり、また、n-tupple method を用いた分類法 [3] がある。そして、どちらの方法でも高精度で判別ができることが示されている。Sigetaらは、GPCRに特化したHMMライブラリを作成し、精度良く分類できることを示している [4]。Lapnish, M.らは、GPCRの物理化学的なパラメータを用いて多変量解析を行い、97.4%の精度でGPCRのリガンドを予測している [5]。   The classification based on the ligand species includes the PRINTS database [2] classified using GPCR Finger Print, and the classification method [3] using the n-tupple method. It is shown that discrimination can be made with high accuracy by either method. Sigeta et al. Created an HMM library specialized for GPCRs and showed that it can be classified with high accuracy [4]. Lapnish, M. et al. Conducted multivariate analysis using physicochemical parameters of GPCRs and predicted GPCR ligands with an accuracy of 97.4% [5].

最近になって、サポートベクターマシン(SVM)による分類が試されている。SVMは、最初にVepnik, V. N.により提案された方法である [6]。SVMは、N次元空間にプロットされたデータ群を、カーネル関数と呼ばれる超平面を使ってエラーレートを最小化するように判別する。SVMは、多変量で表されるデータを判別する精度が極めて良く、様々なタンパク質分類にも応用されている(例えばEnzymeの分類 [7] )。 Hauslerらは、既知GPCR配列をSVMで分類し、BLAST、HMMより良い精度で分類を行えることを示した [8]。Manoj, Bhasinと P. S. Raghava は、GPCRの配列をSVM法でクラス分けして、高精度判別を可能にして、GPCRpredというWEBサーバーを立ち上げている [9]。   Recently, classification by support vector machine (SVM) has been tried. SVM is the method originally proposed by Vepnik, V. N. [6]. The SVM discriminates the data group plotted in the N-dimensional space so as to minimize the error rate using a hyperplane called a kernel function. SVM has an extremely high accuracy in discriminating multivariate data, and is applied to various protein classifications (for example, Enzyme classification [7]). Hausler et al. Classify known GPCR sequences by SVM and showed that they can be classified with better accuracy than BLAST and HMM [8]. Manoj, Bhasin and P. S. Raghava have set up a WEB server called GPCRpred by classifying GPCR sequences using the SVM method to enable high-precision discrimination [9].

一方、結合Gタンパク質を基にした分類という観点では、当初、GPCRとGタンパク質の結合モデルが構築され、モデルを基にした観察が行われ、Gタンパク質結合選択性に寄与する領域が議論されてきた。しかし、このような研究は、限られたGPCRのグループのみを扱った観察であり、そのため、一般性の議論ができない [10]、[11]。   On the other hand, from the viewpoint of classification based on bound G protein, initially, a binding model of GPCR and G protein is constructed, observation based on the model is performed, and regions contributing to G protein binding selectivity have been discussed. It was. However, such studies are observations that deal only with a limited group of GPCRs, and therefore generality cannot be discussed [10], [11].

G蛋白質の結合選択性予測という意味で、本格的に書かれた論文は以下のものである。Mollerらは、細胞内ループ部分の配列にデータマイニングの手法を適用して、Gタンパク質結合選択性に関する配列パターンを探している [12]。 Caoらは、ベイズモデルという統計手法を用いて、55個のGPCRから72%の感度で予測を行っている。Gi/oとGq/11に関して、最大85%と最低53%の精度が得られている [13]。さらに最近になって、Sreekumar, K. Rらは、GPCRの細胞内側のループ部分のHMMを作り、分類および予測を行っている。同研究は、それまでの先行研究に比較して、細胞内側ループを全て考慮に入れている点で新しい。そして、感度のエラーレートが1%以下までに押さえられている [14]。Qianらは、phylogenetic tree base のHMM(T−HMM)を作成して、リガンド種を基にした分類とGタンパク質種を基にした分類の両方を目指した。リガンド種を基にした分類では、Gタンパク質種を基にした分類よりも高い精度が得られた [15]。   In the sense of predicting G protein binding selectivity, a full-fledged paper is as follows. Moller et al. Are searching for a sequence pattern related to G protein binding selectivity by applying a data mining technique to the sequence of the intracellular loop [12]. Cao et al. Make a prediction with a sensitivity of 72% from 55 GPCRs using a statistical method called Bayesian model. For Gi / o and Gq / 11, an accuracy of up to 85% and a minimum of 53% has been obtained [13]. More recently, Sreekumar, K. R, et al. Have created HMMs for the loops inside the GPCR cells, and have classified and predicted them. The study is new in that it takes into account all the inner cell loops compared to previous studies. And the sensitivity error rate is kept below 1% [14]. Qian et al. Created a phylogenetic tree base HMM (T-HMM) and aimed at both classification based on ligand species and classification based on G protein species. Classification based on ligand species yielded higher accuracy than classification based on G protein species [15].

さて、本発明者らは、上記のように選択的にG蛋白質の活性化を制御できるリガンドを、効率的に、しかも網羅的にスクリーニングする計算機システムの構築を目的としている。この目的のため、本発明者らは、各々のリガンドとGPCR配列を入力としたときに、G蛋白質共役選択性を予測する方法を開発する。そのためには、一つの配列に対して、リガンドおよびGタンパク質とも精度良く指定できる分類法を確立する必要がある。GPCRが機能するためには、リガンドとGPCRおよびGタンパク質が結合複合体となって一つのシステムとして働くと考えられる。したがって、リガンド、細胞外ドメイン、膜貫通ヘリックス、細胞内ドメインおよびGタンパク質のすべての構造特徴、言い換えると物理化学的特徴に相関性があると考えられる。そこで、本発明者らは、リガンド−GPCR−Gタンパク質の各部位の物理化学的パラメータを網羅的に抽出した。そして、本発明者らは、それらの全ての組み合わせから、Gタンパク質の結合選択性と強く相関性を持つパラメータを選択した。さらに、本発明者らは、これらパラメータを特徴ベクトルとして並べ、特徴ベクトルをSVMにより分類した。上記システムを既知配列で評価したところ、判別感度と判別選択性は、Gsに対して87%、88%、Gi/o、Gq/11に対して85%、88%になった。この結果は、従来技術に比べてフォールスポジティブ(False positive) を大幅に減らすことが可能になったことを示している。   The present inventors have aimed to construct a computer system that efficiently and comprehensively screens ligands that can selectively control the activation of G protein as described above. To this end, the present inventors develop a method for predicting G protein coupling selectivity when each ligand and GPCR sequence are input. For this purpose, it is necessary to establish a classification method that can specify both ligand and G protein with high accuracy for one sequence. In order for GPCR to function, it is considered that the ligand, GPCR and G protein function as a binding complex and function as a single system. Thus, all structural features of the ligand, extracellular domain, transmembrane helix, intracellular domain and G protein, in other words physicochemical features, are considered correlated. Therefore, the inventors comprehensively extracted the physicochemical parameters of each site of the ligand-GPCR-G protein. And the present inventors selected the parameter which has a strong correlation with the binding selectivity of G protein from all those combinations. Furthermore, the present inventors arranged these parameters as feature vectors, and classified the feature vectors by SVM. When the above system was evaluated with known sequences, the discrimination sensitivity and discrimination selectivity were 87% and 88% for Gs, and 85% and 88% for Gi / o and Gq / 11, respectively. This result shows that it has become possible to significantly reduce false positives compared to the prior art.

2)解析材料および方法
「物理化学的記述子(Physico-chemical descriptor)について」
GPCRがGタンパク質を選択する場合、単に細胞内ループの局所部分が関連するのではないと考えられる。GPCRとリガンドが結合し、その状態がGPCR側の構造変化を誘導して、Gタンパク質の結合選択性を変化させると考えられる。したがって、Gタンパク質の結合選択性には、リガンド側の情報と、GPCRの構造全体とが関わっていると考えられる。そこで、本発明者らは、リガンド、ループ部分、膜貫通ヘリックス部分の各部分から物理化学的パラメータを抽出した。各部位で考慮したパラメータは以下のとおりである。
2) Analytical materials and methods “Physico-chemical descriptor”
When a GPCR selects a G protein, it is thought that the local portion of the intracellular loop is not simply relevant. It is thought that GPCR and a ligand bind | bond | couple, and the state induces the structural change by the side of GPCR, and changes the binding selectivity of G protein. Therefore, it is considered that information on the ligand side and the entire structure of the GPCR are related to the binding selectivity of the G protein. Accordingly, the present inventors have extracted physicochemical parameters from each of the ligand, loop portion, and transmembrane helix portion. The parameters considered in each part are as follows.

リガンド・・・(分子量、平均疎水性値、アミン性リガンド、ペプチド性リガンドに対応するGPCR側の配列位置特異的プロファイル)
GPCR ループ部分・・・・(細胞外N末端ループ(NL)、細胞外ループ(E1, E2, E3)、細胞内ループ(I1, I2, I3)、C末端ループ(CL)のループ長、平均疎水性値)
GPCRの膜貫通ヘリックス・・・(( TM1, TM2, TM3, TM4, TM5, TM6, TM7 )の膜内の極性環境値、平均疎水性値、Gタンパク質結合選択性に関わる残基の有無)
Ligand (GPL side sequence position specific profile corresponding to molecular weight, average hydrophobicity, amine ligand, peptide ligand)
GPCR loop part ... (extracellular N-terminal loop (NL), extracellular loop (E1, E2, E3), intracellular loop (I1, I2, I3), loop length of C-terminal loop (CL), average Hydrophobicity value)
GPCR transmembrane helix ... ((TM1, TM2, TM3, TM4, TM5, TM6, TM7) in-membrane polar environment value, average hydrophobicity value, presence of residues related to G protein binding selectivity)

本発明者らは、これらのパラメータとGタンパク質選択性の相関性を解析し、相関性の高いパラメータを選び出し、それらパラメータを、SVM (後述)で分類するときの特徴ベクトルとした。あまり多数のパラメータを用いると、分類後にそれぞれのパラメータの意味合いを考えるときに議論が複雑になってしまう。そこで、高い相関性をもつ数個程度のパラメータが選択された。   The present inventors analyzed the correlation between these parameters and G protein selectivity, selected highly correlated parameters, and used these parameters as feature vectors when classified by SVM (described later). If too many parameters are used, the discussion becomes complicated when considering the meaning of each parameter after classification. Therefore, several parameters with high correlation were selected.

GPCRの中でも、Class AファミリーのGPCRは、立体構造既知のロドプシンと同じ構造を有していると考えられている。そのため、ロドプシンとアラインメントをすることで、膜貫通ヘリックス領域を正確に予測可能できる。本研究は、Class Aファミリーに属するGPCRに的を絞って、膜貫通ヘリックス領域を決定し、膜貫通へリックス領域に関する物理化学的パラメータを抽出した。   Among GPCRs, Class A family GPCRs are considered to have the same structure as that of rhodopsin whose steric structure is known. Therefore, a transmembrane helix region can be accurately predicted by aligning with rhodopsin. This study focused on GPCRs belonging to the Class A family, determined the transmembrane helix region, and extracted the physicochemical parameters for the transmembrane helix region.

まず始めに、GPCRDB [非特許文献6] 中のClass A配列を30%の配列類似性でグループ化し、各グループからランダムに代表配列を選んで、代表配列をロドプシンの配列とともにClustalW [16]に適用し、膜貫通ヘリックス部分のマルチプルアラインメントを行った。この情報から、位置特異的なプロファイル(Class Aプロファイル)を作成する。一方、Class Aファミリー配列のアミン系リガンドに結合する配列とペプチド性リガンドに結合する配列とのそれぞれに対して、Class Aプロファイルをテンプレートにして、マルチプルアラインメントを行い、各々のPfam [17] の HMMモデルを作成する (アミンプロファイル、ペプチドプロファイル)。そして、HMMER [18]を用いてアミンプロファイルにクエリ配列を当てたときのスコアをアミンプロファイルスコアと定義し、一方、ペプチドプロファイルにクエリ配列を当てたときのスコアをペプチドプロファイルスコアと定義した。   First, Class A sequences in GPCRDB [Non-Patent Document 6] were grouped with 30% sequence similarity, representative sequences were randomly selected from each group, and the representative sequences were combined with rhodopsin sequences into ClustalW [16]. Applied, multiple alignment of the transmembrane helix part was performed. A position-specific profile (Class A profile) is created from this information. On the other hand, multiple alignments were performed using the Class A profile as a template for each of the sequence binding to the amine ligand of the Class A family sequence and the sequence binding to the peptidic ligand, and each Pfam [17] HMM Create a model (amine profile, peptide profile). The score when the query sequence was applied to the amine profile using HMMER [18] was defined as the amine profile score, while the score when the query sequence was applied to the peptide profile was defined as the peptide profile score.

さらに、Class Aの膜貫通ヘリックスのマルチプルアラインメントから、膜貫通ヘリックスの上で、20種類のアミノ酸残基の出現頻度を計算した。そして、Gタンパク質種の結合選択性に対する相関性が高いアミノ酸の位置も、抽出すべき物理化学的パラメータに加えた。   Furthermore, the frequency of occurrence of 20 amino acid residues on the transmembrane helix was calculated from the multiple alignment of the Class A transmembrane helix. And the position of the amino acid with high correlation with the binding selectivity of G protein species was also added to the physicochemical parameter to be extracted.

「データセット(Data set)について」
使用したデータセットについて説明すると、132のGPCRのアミノ酸配列が、TiPS [19] およびGPCRDB [非特許文献6]に記述されたリガンドおよびG蛋白質の情報とともに、SWISS−PROT、TrenBLデータベースから選ばれた。132の配列では、Gi/o結合タイプが61配列であり、Gq/11結合タイプが47配列であり、Gs結合タイプが24配列であった。
"About data sets"
Explaining the data set used, the amino acid sequences of 132 GPCRs were selected from the SWISS-PROT and the TrenBL database, together with the ligand and G protein information described in TiPS [19] and GPCRDB [Non-Patent Document 6]. . In the 132 sequences, the Gi / o binding type was 61 sequences, the Gq / 11 binding type was 47 sequences, and the Gs binding type was 24 sequences.

「サポートベクターマシンによる分類について」
サポートベクターマシン(SVM)は、無料ダウンロード可能なソフトウエアパッケージLIBSVM [20]を用いて本研究のシステムに組み込まれた。このパッケージから、カーネル関数とパラメータC、γについての幾種類かの組合せが用いられた。そして、線形(linear)、ポリノミアル(polynomial)、ラジアルベーシス(radial basis)(RBF)、シグモイダル(sigmoidal)といったような各種のカーネル関数が用いられた。SVMには固定長の特徴ベクトルが提供された。特徴ベクトルは、GPCRの幾つかの部分の領域の物理化学的パラメータから得られたデータである。
“Classification by Support Vector Machine”
A support vector machine (SVM) was incorporated into the system of this study using the free downloadable software package LIBSVM [20]. From this package several combinations of kernel functions and parameters C, γ were used. Various kernel functions such as linear, polynomial, radial basis (RBF), sigmoidal, etc. were used. SVM was provided with fixed-length feature vectors. A feature vector is data obtained from physicochemical parameters of regions of several parts of a GPCR.

SVMについて説明すると、図2に示すように、SVMは、2つの集団を分離する超平面を決める機能を有しており、超平面がカーネル関数で表される。SVMでは、インスタンスラベル対(xi , yi)のトレーニングセットが与えられたとき、下記の最適化問題の解が求められる。

Figure 0004845080
As shown in FIG. 2, the SVM has a function of determining a hyperplane that separates two groups, and the hyperplane is represented by a kernel function. In SVM, when a training set of instance label pairs (xi, yi) is given, a solution of the following optimization problem is obtained.
Figure 0004845080

トレーニングベクトルxiは、関数φによって、より高次元(無限次元も可能)の空間へとマッピングされる。SVMは、高次元空間で最大の余裕をもつ超平面を求める。C>0は、エラーターム(term)のペナルティパラメータである。K(xi , xj ) ≡ φ(xi)T・φ(xj) はカーネル関数と呼ばれている。例えば下記の4つのカーネル関数が使用可能である。ここで、γ、r、dはカーネルパラメータである。

Figure 0004845080
The training vector xi is mapped to a higher-dimensional (or infinite-dimensional) space by the function φ. SVM finds a hyperplane with the largest margin in a high dimensional space. C> 0 is an error term (term) penalty parameter. K (xi, xj) ≡ φ (xi) T · φ (xj) is called the kernel function. For example, the following four kernel functions can be used. Here, γ, r, and d are kernel parameters.
Figure 0004845080

SVMの結果は、下記のように定義される感度(sensitivity)、選択性(specificity)および精度(accuracy)によって評価される。
感度(%)=(正しく予測した数)÷(真の数)×100(%)
選択性(%)=(正しく予測した数)
÷((正しく予測した数)+(間違って予測した数))×100(%)
精度(%)=(A÷B)×100(%)
A=(真を真と予測した数+偽を偽と予測した数)
B=(真を真と予測した数+偽を偽と予測した数
+偽を真と予測した数+真を偽と予測した数)
SVM results are evaluated by sensitivity, specificity and accuracy defined as follows.
Sensitivity (%) = (Number correctly predicted) / (True number) x 100 (%)
Selectivity (%) = (correctly predicted number)
÷ ((number predicted correctly) + (number predicted incorrectly)) x 100 (%)
Accuracy (%) = (A / B) x 100 (%)
A = (number of predicted true true + number of predicted false false)
B = (number that predicted true as true + number predicted as false as false
+ Numbers that predicted false as true + Numbers that predicted true as false)

「評価テストについて(The n-fold Cross-validation test)」
本研究では、n-fold のCross-validation testを行った。このテストでは、既知のGi/o、Gq/11、Gs配列(N個の配列)をランダムにn等分し、N(1−1/n)配列をトレーニングセット、N/n配列をテストセットとして、この組換えをn回行い、こうして得られるセットを、1セットとする。そして、テストセットの判別を行い、判別結果から感度、選択性、精度を計算する。
“The n-fold Cross-validation test”
In this study, an n-fold cross-validation test was performed. In this test, known Gi / o, Gq / 11, and Gs sequences (N sequences) are randomly divided into n, N (1-1 / n) sequences are training sets, and N / n sequences are test sets. As described above, this recombination is performed n times, and a set obtained in this way is defined as one set. Then, a test set is discriminated, and sensitivity, selectivity, and accuracy are calculated from the discrimination result.

3)結果
本研究では、結合リガンドと、GPCRのドメイン(NL, I1 E1, I2, E2, I3, E3, CL , TM1,.....TM7)とに関する各種の物理化学的パラメータについて、パラメータ間の関係性を網羅的に解析し、Gタンパク質結合選択性との相関性が高いパラメータの組合せを抽出した。図3は、その中でも特にGタンパク質選択性と相関性が高いパラメータ同士の関係性を示している。図3では、横軸が細胞内第3ループ(I3ループ)であり、縦軸がC末端ループの長さである。このとき、Gs,Gq/11,Gi/oといった種類と、結合リガンドの分子量(丸印の大きさ)とには、相関性が見られた。例えば、I3ループが80残基よりも長いところでは、分子量が100〜200程度の小さなリガンドと結合するGi/o、Gq/11選択性の受容体がプロットされる。一方、C末端ループが100残基より長い領域では、結合リガンドサイズが小さくGs結合性の受容体がプロットされていた。図3において、それ以外の領域では、サイズが大きいペプチド性リガンドが結合する受容体がプロットされるが、これら受容体の結合Gタンパク質種を判定することは、図3のデータの範囲では困難である。
3) Results In this study, various physicochemical parameters related to binding ligands and GPCR domains (NL, I1 E1, I2, E2, I3, E3, CL, TM1,... TM7) The relationship between the two was comprehensively analyzed, and a combination of parameters having a high correlation with the G protein binding selectivity was extracted. FIG. 3 shows the relationship between parameters that are particularly highly correlated with G protein selectivity. In FIG. 3, the horizontal axis is the intracellular third loop (I3 loop), and the vertical axis is the length of the C-terminal loop. At this time, there was a correlation between the types of Gs, Gq / 11, Gi / o and the molecular weight of the binding ligand (the size of the circle). For example, when the I3 loop is longer than 80 residues, Gi / o and Gq / 11 selective receptors that bind to a small ligand having a molecular weight of about 100 to 200 are plotted. On the other hand, in the region where the C-terminal loop was longer than 100 residues, the binding ligand size was small and Gs-binding receptors were plotted. In FIG. 3, in other regions, receptors to which a large peptide ligand binds are plotted. However, it is difficult to determine the binding G protein species of these receptors in the range of the data in FIG. is there.

また、もう一つの例として、図4では、横軸がアミンプロファイルスコアであり、縦軸がペプチドプロファイルスコアであり、結合Gタンパク質種と結合リガンド種が示されている。Gs、Gq/11、Gi/oについて、結合リガンドサイズが丸の大きさで示されている。この場合は、Gsに関しては、アミンプロファイルで比較的容易にリガンドサイズが判定され、結合リガンドサイズが大きいもの(ペプチド性リガンド)に関しては、ペプチドプロファイルで分けることができるように見える。   As another example, in FIG. 4, the horizontal axis is the amine profile score, the vertical axis is the peptide profile score, and the bound G protein species and the bound ligand species are shown. For Gs, Gq / 11, Gi / o, the binding ligand size is shown as a circle. In this case, with respect to Gs, the ligand size can be determined relatively easily by the amine profile, and those having a large binding ligand size (peptidic ligand) can be separated by the peptide profile.

この2つの例に見られるように、様々な物理化学的パラメータの各々とGタンパク質選択性とに何らかの相関性は在る。しかし、完全に3種の結合Gタンパク質種を分離することはできない。おそらく様々な物理化学的なパラメータが、多変量として、Gタンパク質結合選択性と関与しており、これらの寄与を考慮に入れることが求められる。そこで本研究では、上述のようにSVMを利用することにした。これにより多次元空間での仮想的な平面での切分けを行うことができ、これにより、GPCRの配列とリガンド情報から結合Gタンパク質種を予測することができる。   As seen in these two examples, there is some correlation between each of the various physicochemical parameters and G protein selectivity. However, it is not possible to completely separate the three bound G protein species. Perhaps various physicochemical parameters are involved in G protein binding selectivity as multivariate and it is sought to take these contributions into account. Therefore, in this study, we decided to use SVM as described above. As a result, it is possible to perform cutting in a virtual plane in a multidimensional space, and thereby it is possible to predict the bound G protein species from the GPCR sequence and ligand information.

図5は、上記で挙げたパラメータを始めとして、リガンド、GPCRのループおよび膜貫通領域の様々な物理化学的なパラメータについて、SVMを使って、テストデータを分類判別する際の感度(Sensitivity)と選択性(Specificity)をプロットしたものである。ここでは、4-fold closs validation test の結果が示されている。
図5は、G蛋白質(Gs:三角印、Gi/o:丸印、Gq/11:四角印)判別能力が感度と選択性の関数としてプロットされている。各セットの物理化学的パラメータは下記の通りである。
Set1:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
Set2::I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+I3ループでのチロシン,トリプトファン総数
Set3:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+I3ループのC末端での電荷をもつ残基の数
Set4:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+リガンドサイズ
Set5:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+N末端ループ,E2ループ,I3ループ,C末端ループの全長
Set6:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+ペプチドプロファイルスコア
Set7:I3ループ長+C末端ループ長+アミンプロファイルスコア
+I3ループC末端側のリジン,アルギニン総数+170残基プロリン
+ペプチドプロファイルスコア+リガンドサイズ
FIG. 5 shows the sensitivity (Sensitivity) when classifying and discriminating test data using SVM for various physicochemical parameters of the ligand, GPCR loop and transmembrane region, including the parameters listed above. This is a plot of Specificity. Here, the result of 4-fold closs validation test is shown.
FIG. 5 plots the discrimination ability of G protein (Gs: triangle mark, Gi / o: circle mark, Gq / 11: square mark) as a function of sensitivity and selectivity. The physicochemical parameters of each set are as follows.
Set1: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on the C-terminal side of I3 loop + 170-residue proline
Set2 :: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on the I3 loop C-terminal side + 170 residue proline + total number of tyrosine and tryptophan in the I3 loop
Set3: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on the C-terminal side of I3 loop + 170 residue proline + number of charged residues at C-terminal of I3 loop
Set4: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on the C-terminal side of I3 loop + 170 residue proline + ligand size
Set5: I3 loop length + C-terminal loop length + amine profile score + I3 loop C-terminal lysine, arginine total + 170-residue proline + N-terminal loop, E2 loop, I3 loop, C-terminal loop total length
Set6: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on I3 loop C-terminal side + 170 residue proline + peptide profile score
Set7: I3 loop length + C-terminal loop length + amine profile score + total number of lysine and arginine on I3 loop C-terminal side + 170 residue proline + peptide profile score + ligand size

実際には、方法についての説明で述べた全てのパラメータの組合せについて、分類の感度と選択性が計算される。しかし、ここでは、特に感度および選択性の値が高いものだけをソートして、上位の組合せだけを示してある。Gs、Gi/o、Gq/11それぞれを判別する場合について、感度と選択性が最も高くなるパラメータは下記の通りである。   In practice, classification sensitivity and selectivity are calculated for all parameter combinations mentioned in the description of the method. However, here, only those with high values of sensitivity and selectivity are sorted, and only the upper combinations are shown. In the case of discriminating each of Gs, Gi / o, and Gq / 11, parameters with the highest sensitivity and selectivity are as follows.

まず、Gsを他の2種(Gi/o、Gq/11)から選別する場合、パラメータとして、(a)I3ループ長、(b)C末端ループ長、(c)アミンプロファイルスコア、(d)ロドプシン170残基目に存在するプロリンの有無、(e)I3ループC末端側の所定の残基(ロドプシン上で243、244、247、248、251番目の残基)におけるアルギニンおよびリジンの総数を使い、SVMとしてはC−SVC、カーネル関数としてはラジアルベーシス関数(RBF) [20]を使った場合に、一番高い値が得られることが判った(感度=83.33%、選択性=95.24%、精度=96.21%)。ここで、上記のアルギニンおよびリジンの総数とは、上記の5つの残基におけるアルギニンの数とリジンの数の合計であり、最大で5であり、この点は、下記のGi/o・Gq/11用パラメータにおいても同様である。   First, when selecting Gs from the other two types (Gi / o, Gq / 11), as parameters, (a) I3 loop length, (b) C-terminal loop length, (c) amine profile score, (d) Presence / absence of proline present at rhodopsin 170, (e) total number of arginine and lysine at a predetermined residue (residues 243, 244, 247, 248, 251 on rhodopsin) on the I3 loop C-terminal side It was found that the highest value was obtained when C-SVC was used as SVM and radial basis function (RBF) [20] was used as the kernel function (sensitivity = 83.33%, selectivity = 95.24%, accuracy = 96.21%). Here, the above-mentioned total number of arginine and lysine is the sum of the number of arginine and the number of lysine in the above five residues, which is 5 at the maximum. This point is the following Gi / o · Gq / The same applies to the 11 parameters.

一方、Gi/o、Gq/11それぞれを予測する場合には、判別に用いるパラメータが少し異なっていた。上記と同様の (a)I3ループ長、(b)C末端ループ長、(c)アミンプロファイルスコア、(d)ロドプシン170残基目に存在するプロリンの有無、(e)I3ループC末端側の所定の残基(ロドプシン上の243、244、247、248、251残基)におけるアルギニンおよびリジンの総数を使い、加えて、(f)ペプチドプロファイルスコア、(g)リガンドの分子量を導入し、SVMとしてはC−SVM、カーネル関数としてはポリノミアル関数を導入したときに、感度、選択性ともに最も高い値を示すことが判った(Gi/o:感度=91.80%、選択性=94.21%、精度=92.59%)(Gq/11:感度=93.617%、選択性=89.80%、精度=92.59%)。このようにして、各種Gタンパク質を判別するのには、最適な物理化学的なパラメータやカーネル関数等が異なることが判った。   On the other hand, when predicting Gi / o and Gq / 11, the parameters used for discrimination were slightly different. Same as above (a) I3 loop length, (b) C-terminal loop length, (c) amine profile score, (d) presence or absence of proline present at rhodopsin residue 170, (e) I3 loop C-terminal side Using the total number of arginine and lysine at a given residue (residues 243, 244, 247, 248, 251 on rhodopsin), in addition, introduce (f) peptide profile score, (g) molecular weight of the ligand, and SVM When C-SVM is used as the kernel function and the polynomial function is introduced as the kernel function, it is found that both the sensitivity and the selectivity are the highest (Gi / o: sensitivity = 91.80%, selectivity = 94.21). %, Accuracy = 92.59%) (Gq / 11: sensitivity = 93.617%, selectivity = 89.80%, accuracy = 92.59%). In this way, it was found that optimal physicochemical parameters, kernel functions, and the like are different for discriminating various G proteins.

「階層的予測システムについて」
そもそも、SVMは2者判別に用いられる。そこで、本発明者らは階層的なシステムを構築した。このシステムは、まず1種のGタンパク質を残りの2種から判別して、次に残ったGタンパク質同士で二者判別を行う。具体的には、本システムは、まず上記の結果に基づき、最も高い選択性で判別できると判ったGsについて、最適なパラメータ(物理化学的パラメータ、SVM、カーネル関数)を使って判別を行う。そして、本システムは、結合G蛋白質がGsでないと判定された場合に、SVMのパラメータを、Gi/oとGq/11の判別に最適なパラメータに代え、判別を行う。この階層的なシステムを使って学習セットを予測した結果が、図6〜図9のTable1に示されている。同時に2種類以上のGタンパク質に結合する配列(G-conjugate group)を除いた132配列のデータセットうち、126配列について正解(丸印)が示され、正しく予測した割合は、95.45%になった。これに、G-conjuagte groupを含めても、可能性のある複数種類の結合のうちの1種類が求められており、正解が求められていることが判った(三角印)。
"About hierarchical prediction systems"
In the first place, SVM is used for two-party discrimination. Therefore, the present inventors constructed a hierarchical system. In this system, first, one type of G protein is discriminated from the remaining two types, and then the remaining G proteins are discriminated from each other. Specifically, the present system first determines Gs that has been determined to be determined with the highest selectivity based on the above results, using optimum parameters (physicochemical parameters, SVM, kernel function). Then, when it is determined that the binding G protein is not Gs, the present system performs the determination by replacing the SVM parameter with a parameter that is optimal for determining Gi / o and Gq / 11. The result of predicting the learning set using this hierarchical system is shown in Table 1 of FIGS. Of the 132 sequence data sets excluding sequences that simultaneously bind to two or more G proteins (G-conjugate group), correct answers (circles) are shown for 126 sequences, and the correctly predicted ratio is 95.45%. became. Even if the G-conjuagte group was included in this, it was found that one of a plurality of possible combinations was required and the correct answer was required (triangle mark).

なお、図6〜図9において、IDはGPCRを示し、その次の欄はリガンド分子量である。予測の欄は、予測されたG蛋白質であり、判定の欄は、予測結果が正しいかどうかの判定である。そして、右端のTiPS annotationは、実際に結合するG蛋白質(予め分かっている正解)である。予測結果が正解のときは判定が丸印である。また、複数種類の結合対象が存在する場合において、部分的に正解の予測が得られたときは、判定が三角印である。   6 to 9, ID indicates GPCR, and the next column is ligand molecular weight. The prediction column is the predicted G protein, and the determination column is a determination of whether the prediction result is correct. The rightmost TiPS annotation is the G protein that is actually bound (correctly known in advance). When the prediction result is correct, the determination is a circle. In addition, when there are a plurality of types of objects to be combined and a partial correct prediction is obtained, the determination is a triangle mark.

図10のTable2は、テストセットに対して4-fold のcross validation を10000回行い、そして、3セットの計算を行ったときの、Gタンパク質結合選択性予測の平均の感度(Sensitivitiy)、選択性(Specificity)、精度(Accuracy)を示している。また、図11のTable3は、同様の評価を行った中で一番良い値を示している。Table2の平均値を上記の個別のGタンパク質種判別結果と比べると、多少値が低くなる。しかし、選択性は83%以上と高い水準を保っている。また、Table3の最高値は、個別判別の場合と同等の水準を示している。   Table 2 in FIG. 10 shows the average sensitivity (Sensitivitiy) and selectivity of G protein binding selectivity prediction when 10000 times of 4-fold cross validation is performed on the test set and 3 sets of calculations are performed. (Specificity) and accuracy (Accuracy). Table 3 in FIG. 11 shows the best value among the similar evaluations. When the average value of Table 2 is compared with the above individual G protein species discrimination results, the values are somewhat lower. However, selectivity remains at a high level of 83% or higher. Further, the highest value of Table 3 indicates a level equivalent to that in the case of individual determination.

4)検討
この仕事では、Class Aファミリーに属するGPCRファミリーについて、SVM法を用いてGタンパク質選択予測プログラムの構築を行った。リガンド−GPCR−Gタンパク質の複合体全体を考えて、各構造ドメインを網羅的に扱って、各々の物理化学的パラメーターを抽出した。そして、リガンドの分子量、膜貫通ヘリックス上のアミノ酸残基、ループ領域の長さ等と、Gタンパク質の選択性とには、相関性が見られることが判った。次に、SVMによる機械学習を行い、Gタンパク質結合選択性に最も効くパラメータセットを抽出した。Gsを選択するときには5個のパラメータセットを用い、Gi/o、Gq/11を選択するときには7個のパラメータセットを用いると、高精度にG蛋白質を判別できることが判った。各判別に効くパラメータを段階的に用いる階層的な予測システムを作成した。これにより、感度、選択性とも高いレベルで、Gタンパク質結合選択性を予測することが可能になった。
4) Investigation In this work, a G protein selection prediction program was constructed using the SVM method for the GPCR family belonging to the Class A family. Considering the whole ligand-GPCR-G protein complex, each structural domain was exhaustively treated and each physicochemical parameter was extracted. It was also found that there was a correlation between the ligand molecular weight, the amino acid residues on the transmembrane helix, the length of the loop region, and the selectivity of the G protein. Next, machine learning by SVM was performed, and a parameter set most effective for G protein binding selectivity was extracted. It was found that G protein can be discriminated with high accuracy by using five parameter sets when selecting Gs and using seven parameter sets when selecting Gi / o and Gq / 11. A hierarchical prediction system that uses the parameters for each discrimination step by step was created. This makes it possible to predict G protein binding selectivity at a high level of both sensitivity and selectivity.

今回の仕事は、結合リガンド種類による分類を示したものではない。GPCR配列とリガンド分子量の2つを入力として、結合Gタンパク質種予測を行うものである。その意味で、リガンドによる分類の先行研究 [2]、[3]、[4]、[5]、[8]、[9]と本研究は直接は比較できない。しかし、Gタンパク質判別を行う際に、リガンド分子量、アミンプロファイルスコアおよびペプチドプロファイルスコアを導入すると、判別精度が上がる。このことからみても、リガンド情報とGタンパク質結合選択性情報には相関性があり、また、これら2つの指標で分類が可能であることは間違いない。ただし、リガンドによるものか、Gタンパク質によるものかというような二次元的な分類では無く、他のパラメータも含めた多次元的な観点からの分類が必要である。実際、多変量解析を用いた方法が高精度で判別を行っているが [5]、この方法を、Gタンパク種を含めた分類まで拡張できる可能性がある。今回の本研究の分類は、SVM法を用いたリガンド種類に対応した(ファミリーレベル)分類にて、高精度分類が可能になっていることを踏まえている [8] [9]。そして、本研究は、SVM法をGタンパク質結合選択性予測まで拡張している。   This work does not show classification by type of binding ligand. The two types of GPCR sequence and ligand molecular weight are used as inputs to perform binding G protein species prediction. In that sense, prior studies of classification by ligand [2], [3], [4], [5], [8], [9] and this study cannot be directly compared. However, when the G protein discrimination is performed, the discrimination accuracy is improved by introducing the ligand molecular weight, the amine profile score, and the peptide profile score. From this point of view, there is a correlation between the ligand information and the G protein binding selectivity information, and there is no doubt that classification is possible with these two indicators. However, it is not a two-dimensional classification of whether it is based on a ligand or a G protein, but classification from a multidimensional viewpoint including other parameters is necessary. In fact, the method using multivariate analysis discriminates with high accuracy [5], but this method may be extended to classification including G protein species. The classification of this study is based on the fact that high-precision classification is possible by (family level) classification corresponding to the type of ligand using the SVM method [8] [9]. And this study extends the SVM method to G protein binding selectivity prediction.

本研究と直接関係のある先行研究としては、Mollerら [12]、Caoら [13]、Sreekumarら [14]、Qianら [15]の仕事がある。Moller らは細胞内ループ分の配列に、データマイニングの手法を適用して、Gタンパク質結合選択性に関する配列パターンを探している [12]。この場合、選択性を90%以上にしたときに、感度が30%−40%程度になってしまう。Caoらのベイズモデルを用いた方法では、55個のGPCRから72%の感度で予測が行われている。そして、Gi/oとGq/11に関して、最大85%と最低53%の精度が得られている [13]。さらに最近になって、Sreekumar, K. Rらは、GPCRの細胞内側のループ部分のHMMを作って、分類および予測を行っている。感度のエラーレートが1%以下までに押さえられている [14]。しかし、これらの分類では、選択性の計算値が示されていない。そのため、どのくらいフォールスポジティブ(False Positive)が含まれているかが判断できない。それに対して、本発明では、選択性を高水準に保ったまま、感度を90%以上にすることができる。Qian らは、phylogenetic-tree baseのHMM(T−HMM)を作成して、リガンド種を基にした分類とGタンパク質種を基にした分類との両方を目指した。リガンド種を基にした分類は、99%の精度を示した。しかし、Gタンパク質種を基にした分類では、精度が下がり、83%となった [15]。   Previous work directly related to this study includes the work of Moller et al. [12], Cao et al. [13], Sreekumar et al. [14], and Qian et al. [15]. Moller et al. Are searching for a sequence pattern related to G protein binding selectivity by applying a data mining technique to the sequence of intracellular loops [12]. In this case, when the selectivity is 90% or more, the sensitivity becomes about 30% -40%. In the method using the Bayesian model of Cao et al., Prediction is performed with a sensitivity of 72% from 55 GPCRs. For Gi / o and Gq / 11, a maximum accuracy of 85% and a minimum of 53% have been obtained [13]. More recently, Sreekumar, K. R, et al. Have created and classified and predicted HMMs for the inner loop of GPCRs. The sensitivity error rate is kept below 1% [14]. However, these classifications do not show calculated selectivity. Therefore, it cannot be judged how much false positive is included. On the other hand, in the present invention, the sensitivity can be increased to 90% or more while keeping the selectivity at a high level. Qian et al. Created a phylogenetic-tree base HMM (T-HMM) and aimed at both classification based on ligand species and classification based on G protein species. Classification based on ligand species showed 99% accuracy. However, the classification based on G protein species decreased accuracy to 83% [15].

判別精度について、本研究で得られた感度は、上記の先行研究を超えてはいない。しかし、このような結果が得られているのは、判別の選択性をできる限り最大化したためである。本研究は、先行研究のように感度を最大化することも可能である。その場合は、最大99%以上まで判別精度を上げることが可能である。しかしながら、今後発表されるであろう未知のorphan受容体を予測する場合には、なるべく選択性が高い技術が適している。   Regarding the discrimination accuracy, the sensitivity obtained in this study does not exceed the previous studies. However, such a result is obtained because the selectivity of discrimination is maximized as much as possible. This study can maximize sensitivity as in previous studies. In that case, the discrimination accuracy can be increased up to 99% or more. However, in order to predict an unknown orphan receptor that will be announced in the future, a technique with as high a selectivity as possible is suitable.

上記先行研究の方法に比べて本研究の方法が有利になっている理由を検討する。まず、使っている技術の観点で言えば、SVM法を使っており、これが多次元空間での高精度判別を可能にしている。Hausslarらがファミリー分類で示したとおり、SVMは、BLAST、pairwise-HMMより高精度で判別を行うことができる。この効果が判別結果に出ていると思われる。   The reason why the method of this research is advantageous compared with the method of the previous research is examined. First, in terms of the technology used, the SVM method is used, which enables high-precision discrimination in a multidimensional space. As Hausslar et al. Showed by family classification, SVM can perform discrimination with higher accuracy than BLAST and pairwise-HMM. This effect seems to have appeared in the discrimination results.

一方、本方法における生物学的な意味合いの観点で言っても、本研究は先行研究と異なっている。MollerらやCaoらは、細胞内側の各ループを別々に扱っている。また、Sreekumarは、細胞内側のループの組合せを網羅的に扱っており、この網羅性が判別精度を上げたと議論している。一方、本発明の場合、配列情報だけではなく、立体構造情報(ロドプシン)を用いて、パラメータが抽出されている。膜貫通へリックス領域を決めるときに、ロドプシンの膜貫通ヘリックス部分をテンプレートとして利用し、アライメントが行われた。そして、テンプレート上に配置されたプロリン170やリジン、アルギニンの有無が、用いられている。図5を見ると、これらが判別の感度、選択性を高める方向に働いていることが判る。また、ロドプシンをテンプレートとして、テンプレートからプロファイルが作られており(アミンプロファイルスコア、ペプチドプロファイルスコア)、これらも判別の感度および選択性を高めていた。このことは、GPCRがGタンパク質と結合する場合、細胞内側の領域が局所的に効くのではなく、構造全体が効くのであるという考え方が妥当であることを示唆している。実際、Wessらは、ループだけではなく、膜貫通へリックス部分がGタンパク質結合選択性に効いていることを実験的に示している [21]。ここで、もし、膜貫通部分も効くのであれば、配列全体を使って分類すれば良い。しかし、本発明者らの行った計算では、Gタンパク質結合性の判別率は高くならなかった(ここではデータを示していない)。この理由は、配列全体を使った場合に、Gタンパク質の結合選択性に関わる特徴が薄められた結果が得られてしまうためと思われる。これに対して、例えば、細胞内第3ループや、C末端側ループが結合選択性に重要であり、このことが、実験で示されている [21]、[22]、[23]。このような特徴は、強調して組み込んだ方が判別に寄与すると考えられる。   On the other hand, even from the viewpoint of biological implications in this method, this study differs from previous studies. Moller et al. And Cao et al. Handle each loop inside the cell separately. In addition, Sreekumar argues that the combination of loops inside the cell is comprehensively handled, and that this comprehensiveness has improved the discrimination accuracy. On the other hand, in the case of the present invention, parameters are extracted using not only sequence information but also three-dimensional structure information (rhodopsin). When determining the transmembrane helix region, alignment was performed using the transmembrane helix portion of rhodopsin as a template. The presence or absence of proline 170, lysine or arginine arranged on the template is used. It can be seen from FIG. 5 that these work in the direction of increasing the sensitivity and selectivity of discrimination. In addition, rhodopsin was used as a template, and a profile was created from the template (amine profile score, peptide profile score), which also increased the sensitivity and selectivity of discrimination. This suggests that when the GPCR binds to the G protein, the idea that the region inside the cell does not work locally but the whole structure works is valid. In fact, Wess et al. Have shown experimentally that not only the loop but also the transmembrane helix moiety has an effect on G protein binding selectivity [21]. Here, if the transmembrane portion is also effective, the entire array may be classified. However, in the calculation performed by the present inventors, the discrimination rate for G protein binding did not increase (data is not shown here). The reason for this seems to be that when the entire sequence is used, a result of diminishing the characteristics related to the binding selectivity of the G protein is obtained. In contrast, for example, the intracellular third loop and the C-terminal loop are important for binding selectivity, and this has been shown in experiments [21], [22], [23]. It is thought that emphasizing and incorporating such features contributes to discrimination.

現在のシステムは、Class A のみの予測システムになっている。Gタンパク質の結合選択性予測が最も重要になるのは、おそらく現在、ヒトである。ヒトの場合はClass AのGPCRが約8割を占めるので、現在のシステムが充分に有効であると考えられる。   The current system is a Class A only prediction system. Probably the most important for G protein binding selectivity prediction is now humans. In the case of humans, Class A GPCRs account for about 80%, so the current system is considered to be sufficiently effective.

本研究で示した予測システムは、GPCRの配列とリガンドの分子量を入力することで、結合G蛋白質を高精度で予測することができる。このシステムを用いれば、リガンドや機能が不明な受容体、いわゆるオーファン受容体の機能を予測することが可能である。ここで、オーファン受容体について本発明を適用する場合、リガンドの分子量については、適当な分子量の範囲を定めてやれば良い。入力範囲の分子量情報からGタンパク質結合選択性が予測できるが、仮に実験等で、結合Gタンパク質種が確定すれば、逆にリガンド分子量等が推定できる。   The prediction system shown in this study can predict the binding G protein with high accuracy by inputting the GPCR sequence and the molecular weight of the ligand. By using this system, it is possible to predict the function of a receptor whose ligand or function is unknown, so-called orphan receptor. Here, when the present invention is applied to the orphan receptor, an appropriate molecular weight range may be determined for the molecular weight of the ligand. The G protein binding selectivity can be predicted from the molecular weight information in the input range. However, if the binding G protein species is determined by experiments or the like, the ligand molecular weight or the like can be estimated conversely.

現在、ヒトにおいては、最低限1000程度のGPCR遺伝子が得られており、このうち約数十〜百数十のオーファン受容体がまだ存在すると考えられている。本発明者らは、まず、このシステムで全てのオーファン受容体についてG蛋白質結合選択性を予測し、実験サイドとの共同研究を通じて機能を確認して行こうと考えている。本発明に係るシステムが、GPCRが関わる疾病原因の解明に貢献できると期待する。   Currently, at least about 1000 GPCR genes have been obtained in humans, and it is thought that about several tens to a few tens of orphan receptors still exist. The present inventors first predict G protein binding selectivity for all orphan receptors using this system, and intend to confirm the function through joint research with the experimental side. The system according to the present invention is expected to contribute to the elucidation of the cause of diseases related to GPCRs.

ここまでの説明で、[ ]で示された番号に対応する文献等は下記の通りである。
[1] Nucreic Acids, Res. 31, 400-402 (Gaulton, A., Attwood, T. K., Bioinformatics approaches for the classification of G-protein-coupled receptors, Current Opinion in pharmocology, 3: 114-120,2003.)
[2] Attwood, T. K., Bradley, P., Flower, D. R., Gaulton, A., Maud-ling, N., Michell, A. L., Moulton, G., Norde, A., Paine, K., Taylor, P., Uddin, A. and Zygouri, C. (2003)
[3] Daeyaert, F., Moereels, H., and Lewi, P. J. (1998) Compt. Methods Programs Biomed. 56, 221-233.
[4] Shigeta R, Cline M, Liu G, Siani-Rose MA. GPCR-GRAPA-LIB--a refined library of hidden Markov Models for annotating GPCRs. Bioinformatics. 2003 Mar 22;19(5):667-8.
[5] Lapnish, M., Gutcaits, A., Prusis, P., Post, C., Lundsteds, T. and Wikberg, J. E. (2002) Classification of G-protein coupled receptors by alignment-independent extraction of proncipal chemical properties of promary amino acid sequences, Protein Sci.: 11 795-805.
[6] Vepnik, V. N. (1979) Estimation of Dependencies Based on Emprical Data. Nauka, Birmingham, AL.
[7] C. Z., Cai, L. Y., Han, Z. L. Ji, and Y. Z., Chen Ezyme Family Classification by Support Vector Macines PROTEINS: Struct. Funct. and Gennet, 55: 66-76. (2004)
[8] Karchin R, Karplus K, Haussler D. Classifying G-protein coupled receptors with support vector machines. Bioinformatics. 2002 Jan;18(1):147-59.
[9] Manoj Bhasin and G. P. S. Raghava GPCRpred: an SVM-based method for prediction of families and subfamilies of G-protein coupled receptors. Nucleic Acids Research, 2004, 32, Web Seaver issue W383-389 DOI:10.1093/nar/gkh416.
[10] Horn, F., van der Wenden, E. M., Oliveira, L., AP, I. J. and Vriend, G. (2000) : Receptors coupling to G proteins: is there a signal behind the sequence ?, Proteins, 41: 448-459.
[11] Oliveira, L. Paiva, A. C. and Vriend, G. (1999) A low resolution model for the interaction of G proteins with G-protein coupled receptors, Protein Eng., 12: 1087-1095.
[12] Moller S, Vilo J, Croning MD. Prediction of the coupling specificity of G protein coupled receptors to their G proteins. Bioinformatics. 2001;17 Suppl 1:S174-81.
[13] Cao J, Panetta R, Yue S, Steyaert A, Young-Bellido M, Ahmad S. Related Articles, Links A naive Bayes model to predict coupling between seven transmembrane domain receptors and G-proteins. Bioinformatics. 2003 Jan 22;19(2):234-40.
[14] Sreekumar KR, Huang Y, Pausch MH, Gulukota K. Predicting GPCR - G protein coupling using hidden Markov models. Bioinformatics. 2004 Aug 5 [Epub ahead of print]
[15] Qian B, Soyer OS, Neubig RR, Goldstein RA. Depicting a protein's two faces: GPCR classification by phylogenetic tree-based HMMs. FEBS Lett. 2003 Nov 6;554(1-2):95-99.
[16] Thompson, J. D., iggins, D. G., and Gibson, T. J. (1994.CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting position-specific gap penalties and weight matrix chioce. Nucleic Acids Res. 22: 4673-4680.
[17] Eddy, S. R. 1998. Profile hidden Markov models. Bioinformaics. 14: 755-763.
[18] Eddy, S. R. (2001) HMMER: Profile hidden Markov models for biological sequence analysis. HYPERLINK "http://hmmer.wustl.edu/" http://hmmer.wustl.edu/
[19] Alexander, S., Mathie, A., Peters, J., Mackenzie, G. and Smith, A (2001) TiPS Receptor nomenclature supplement.
[20] Numerical experiments on nu-SVM using LIBSVM can be found in Training nu-Support Vector Classifiers: Theory and Algorithms. Neural Computation 13(9), 2001, 2119-2147.
[21] Wess, J.(1998) Molecular basis of receptor G-protein-coupling selectivity, Pharmacol Ther, 80: 231-264
[22] Wong, S. K. (2003) G protein selectivity is regulated by multiple intracellular regions of GPCRs, Neurosignals, 12: 1-12.
[23] Wang, H. L (1997) Basic amino acids at the C-terminus of the third intercellular loop are required foe the activation of phospholopase C by chholecystokinin-B receptors. J Neurochem. 68: 1728-1735.
In the description so far, documents and the like corresponding to the numbers indicated by [] are as follows.
[1] Nucreic Acids, Res. 31, 400-402 (Gaulton, A., Attwood, TK, Bioinformatics approaches for the classification of G-protein-coupled receptors, Current Opinion in pharmocology, 3: 114-120, 2003.)
[2] Attwood, TK, Bradley, P., Flower, DR, Gaulton, A., Maud-ling, N., Michell, AL, Moulton, G., Norde, A., Paine, K., Taylor, P ., Uddin, A. and Zygouri, C. (2003)
[3] Daeyaert, F., Moereels, H., and Lewi, PJ (1998) Compt. Methods Programs Biomed. 56, 221-233.
[4] Shigeta R, Cline M, Liu G, Siani-Rose MA. GPCR-GRAPA-LIB--a refined library of hidden Markov Models for annotating GPCRs. Bioinformatics. 2003 Mar 22; 19 (5): 667-8.
[5] Lapnish, M., Gutcaits, A., Prusis, P., Post, C., Lundsteds, T. and Wikberg, JE (2002) Classification of G-protein coupled receptors by alignment-independent extraction of proncipal chemical properties of promary amino acid sequences, Protein Sci .: 11 795-805.
[6] Vepnik, VN (1979) Estimation of Dependencies Based on Emprical Data. Nauka, Birmingham, AL.
[7] CZ, Cai, LY, Han, ZL Ji, and YZ, Chen Ezyme Family Classification by Support Vector Macines PROTEINS: Struct. Funct. And Gennet, 55: 66-76. (2004)
[8] Karchin R, Karplus K, Haussler D. Classifying G-protein coupled receptors with support vector machines. Bioinformatics. 2002 Jan; 18 (1): 147-59.
[9] Manoj Bhasin and GPS Raghava GPCRpred: an SVM-based method for prediction of families and subfamilies of G-protein coupled receptors. Nucleic Acids Research, 2004, 32, Web Seaver issue W383-389 DOI: 10.1093 / nar / gkh416.
[10] Horn, F., van der Wenden, EM, Oliveira, L., AP, IJ and Vriend, G. (2000): Receptors coupling to G proteins: is there a signal behind the sequence?, Proteins, 41: 448-459.
[11] Oliveira, L. Paiva, AC and Vriend, G. (1999) A low resolution model for the interaction of G proteins with G-protein coupled receptors, Protein Eng., 12: 1087-1095.
[12] Moller S, Vilo J, Croning MD. Prediction of the coupling specificity of G protein coupled receptors to their G proteins. Bioinformatics. 2001; 17 Suppl 1: S174-81.
[13] Cao J, Panetta R, Yue S, Steyaert A, Young-Bellido M, Ahmad S. Related Articles, Links A naive Bayes model to predict coupling between seven transmembrane domain receptors and G-proteins. Bioinformatics. 2003 Jan 22; 19 (2): 234-40.
[14] Sreekumar KR, Huang Y, Pausch MH, Gulukota K. Predicting GPCR-G protein coupling using hidden Markov models. Bioinformatics. 2004 Aug 5 [Epub ahead of print]
[15] Qian B, Soyer OS, Neubig RR, Goldstein RA. Depicting a protein's two faces: GPCR classification by phylogenetic tree-based HMMs. FEBS Lett. 2003 Nov 6; 554 (1-2): 95-99.
[16] Thompson, JD, iggins, DG, and Gibson, TJ (1994. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting position-specific gap penalties and weight matrix chioce. Nucleic Acids Res. 22: 4673- 4680.
[17] Eddy, SR 1998. Profile hidden Markov models. Bioinformaics. 14: 755-763.
[18] Eddy, SR (2001) HMMER: Profile hidden Markov models for biological sequence analysis. HYPERLINK "http://hmmer.wustl.edu/" http://hmmer.wustl.edu/
[19] Alexander, S., Mathie, A., Peters, J., Mackenzie, G. and Smith, A (2001) TiPS Receptor nomenclature supplement.
[20] Numerical experiments on nu-SVM using LIBSVM can be found in Training nu-Support Vector Classifiers: Theory and Algorithms. Neural Computation 13 (9), 2001, 2119-2147.
[21] Wess, J. (1998) Molecular basis of receptor G-protein-coupling selectivity, Pharmacol Ther, 80: 231-264
[22] Wong, SK (2003) G protein selectivity is regulated by multiple intracellular regions of GPCRs, Neurosignals, 12: 1-12.
[23] Wang, H. L (1997) Basic amino acids at the C-terminus of the third intercellular loop are required foe the activation of phospholopase C by chholecystokinin-B receptors. J Neurochem. 68: 1728-1735.

次に、本発明の実施の形態に係る活性化G蛋白質予測装置を、同装置を実現するプログラムおよび同装置で実行される方法と併せて説明する。この活性化G蛋白質予測装置は、上述した発明に従い、GPCRおよびリガンドの入力情報から、活性化されるG蛋白質を予測する装置である。   Next, the activated G protein predicting apparatus according to the embodiment of the present invention will be described together with a program for realizing the apparatus and a method executed by the apparatus. This activated G protein prediction apparatus is an apparatus for predicting an activated G protein from GPCR and ligand input information according to the above-described invention.

図12は、本実施の形態の活性化G蛋白質予測装置の構成を示している。活性化G蛋白質予測装置10は、入力部12、特徴パラメータ抽出部14、特徴ベクトルデータ生成部16、予測処理部18、分類情報記憶部20および出力部22を備えている。   FIG. 12 shows the configuration of the activated G protein prediction device of the present embodiment. The activated G protein prediction apparatus 10 includes an input unit 12, a feature parameter extraction unit 14, a feature vector data generation unit 16, a prediction processing unit 18, a classification information storage unit 20, and an output unit 22.

活性化G蛋白質予測装置10は、アミノ酸配列の情報処理能力を備えたバイオインフォマティクスに適したコンピュータ装置で構成されており、このコンピュータ装置が本予測装置の各種機能を実現するプログラムを記憶しており、同プログラムを実行し、これにより本発明のG蛋白質予測方法が実行されて、活性化G蛋白質予測装置10が実現される。   The activated G protein predicting device 10 is composed of a computer device suitable for bioinformatics having an information processing capability of amino acid sequences, and this computer device stores programs for realizing various functions of the predicting device. Then, the program is executed, whereby the G protein prediction method of the present invention is executed, and the activated G protein prediction apparatus 10 is realized.

活性化G蛋白質予測装置10において、入力部12は、予測対象のGPCRおよびリガンドの情報を入力する。本実施の形態では、GPCRの配列情報およびリガンドの分子量情報が入力される。なお、各種のリガンドの情報が予め記憶されており、それらが提示されて、提示された複数の候補からリガンドを選択する指示が入力されてもよく、このような構成も、リガンドの情報を入力する構成に含まれる。GPCRについても同様である。特徴パラメータ抽出部14は、入力部12により入力された情報から、G蛋白質選択性に関係する所定の物理化学的パラメータである特徴パラメータを抽出する。特徴ベクトルデータ生成部16は、特徴パラメータ抽出部14で抽出された特徴パラメータを含んだ特徴ベクトルデータを生成する。予測処理部18は、分類情報記憶部20に記憶された情報を参照し、特徴ベクトルデータ生成部16から提供される特徴ベクトルデータに基づいて、予測対象のGPCRおよびリガンドの組合せにより活性化されるG蛋白質を予測する。分類情報記憶部20は既知データ分類情報を記憶しており、既知データ分類情報は、活性化G蛋白質が既知のGPCRおよびリガンドの情報から得られる特徴ベクトルを、活性化G蛋白質種に応じて分かれる複数の特徴ベクトルグループに分類するための情報であり、そして、本実施の形態では、既知データ分類情報は後述のようにSVMの超平面を表す情報である。出力部22は、予測処理部18による予測結果を出力する。   In the activated G protein predicting apparatus 10, the input unit 12 inputs information on a prediction target GPCR and a ligand. In this embodiment, GPCR sequence information and ligand molecular weight information are input. In addition, information on various ligands is stored in advance, and they may be presented, and an instruction to select a ligand from a plurality of presented candidates may be input. Included in the configuration. The same applies to GPCRs. The feature parameter extraction unit 14 extracts a feature parameter that is a predetermined physicochemical parameter related to G protein selectivity from the information input by the input unit 12. The feature vector data generation unit 16 generates feature vector data including the feature parameters extracted by the feature parameter extraction unit 14. The prediction processing unit 18 refers to the information stored in the classification information storage unit 20 and is activated by the combination of the prediction target GPCR and the ligand based on the feature vector data provided from the feature vector data generation unit 16. Predict G protein. The classification information storage unit 20 stores known data classification information, and the known data classification information divides a feature vector obtained from information on a GPCR and a ligand with known activated G protein according to the activated G protein type. In this embodiment, the known data classification information is information representing the hyperplane of the SVM as will be described later. The output unit 22 outputs the prediction result obtained by the prediction processing unit 18.

図13は、活性化G蛋白質予測装置10による処理の全体的な流れを示している。入力部12が、予測対象のGPCRおよびリガンドの情報を入力すると(S10)、特徴パラメータ抽出部14がHMMERを用いて特徴パラメータを抽出する処理を行う(S12)。特徴ベクトルデータ生成部16は、抽出された特徴パラメータを含んだ特徴ベクトルデータを生成する(S14)。特徴ベクトルデータは、予測処理部18での予測処理に適合するように生成されたデータであり、後述のSVM用の入力ファイルが特徴ベクトルデータに相当する。そして、予測処理部18が、特徴ベクトルデータを用いて、SVMによるG蛋白質の予測処理を行い(S16)、出力部22が予測結果を出力する(S18)。   FIG. 13 shows the overall flow of processing by the activated G protein predicting apparatus 10. When the input unit 12 inputs GPCR and ligand information to be predicted (S10), the feature parameter extraction unit 14 performs a process of extracting feature parameters using HMMER (S12). The feature vector data generation unit 16 generates feature vector data including the extracted feature parameters (S14). The feature vector data is data generated so as to conform to the prediction processing in the prediction processing unit 18, and an input file for SVM described later corresponds to the feature vector data. And the prediction process part 18 performs the prediction process of G protein by SVM using feature vector data (S16), and the output part 22 outputs a prediction result (S18).

図14は、特徴パラメータ抽出部14における処理を示している。まず、特徴パラメータ抽出部14は、予測対象のGPCRに対してアライメント処理を実行する(S20)。ここでは、特徴パラメータ抽出部14は、立体構造が既知のGPCRであるロドプシンをテンプレートとして使用し、HMMER用いたアライメントを実行する。ロドプシンの情報はコンピュータ内に予め記憶されている。このアライメントにより、予測対象のGPCRの立体構造が得られ、どの部分が膜貫通へリックスであるかなどの情報が得られる。   FIG. 14 shows processing in the feature parameter extraction unit 14. First, the feature parameter extraction unit 14 performs alignment processing on the prediction target GPCR (S20). Here, the feature parameter extraction unit 14 uses rhodopsin, which is a GPCR having a known three-dimensional structure, as a template, and executes alignment using HMMER. The rhodopsin information is stored in advance in the computer. By this alignment, the three-dimensional structure of the GPCR to be predicted is obtained, and information such as which part is a transmembrane helix is obtained.

次に、特徴パラメータ抽出部14は、アライメント結果から、以下の4つの特徴パラメータ(特徴量)を抽出する(S22)。4つの特徴パラメータは、(1)I3ループ長、(2)C末端ループ長、(3)ロドプシンの170残基目に対応するプロリン残基の有無、(4)I3ループのC末端側の所定の複数の残基(ロドプシン上の243、244、247、248、251残基)におけるアルギニンとリジンの総数、である。ここで、上記のアルギニンとリジンの総数とは、上記の5つの残基におけるアルギニンの数とリジンの数の合計であり、最大で5である。   Next, the feature parameter extraction unit 14 extracts the following four feature parameters (feature amounts) from the alignment result (S22). The four characteristic parameters are (1) I3 loop length, (2) C-terminal loop length, (3) Presence / absence of proline residue corresponding to the 170th residue of rhodopsin, (4) Predetermined C-terminal side of I3 loop Of arginine and lysine at a plurality of residues (residues 243, 244, 247, 248, 251 on rhodopsin). Here, the above-mentioned total number of arginine and lysine is the sum of the number of arginines and the number of lysines in the above five residues, and is 5 at the maximum.

特徴パラメータ抽出部14は、さらに、アライメントにて決定された膜貫通ヘリクス領域の情報を用いて、アミンプロファイルスコアを算出し(S24)、ペプチドプロファイルスコアを算出する(S26)。これらスコアも、G蛋白質予測のための特徴パラメータとして抽出される。   The feature parameter extraction unit 14 further calculates an amine profile score using information on the transmembrane helix region determined by the alignment (S24), and calculates a peptide profile score (S26). These scores are also extracted as feature parameters for G protein prediction.

図15は、アミンプロファイルスコアおよびペプチドプロファイルスコアの計算の原理を示している。図15は、前段で既に説明したスコア計算処理を簡略的に説明するためのモデル図である。図15の上方に示されるように、まず、Class Aの複数のGPCRの配列が用意される。そして、用意されたGPCR配列から位置特異的なプロファイル(Class A profile)が作成される。   FIG. 15 shows the principle of calculation of amine profile score and peptide profile score. FIG. 15 is a model diagram for briefly explaining the score calculation process already described in the previous stage. As shown in the upper part of FIG. 15, first, sequences of a plurality of Class A GPCRs are prepared. Then, a position-specific profile (Class A profile) is created from the prepared GPCR sequence.

図15では、プロファイルがマトリクスで表されており、縦方向にアミノ酸(20種)が示され、横方向に配列中の位置が示されており、各欄の値は出現確率である。出現確率は、用意されたGPCR総数に対する、該当位置に該当アミノ酸を有するGPCRの数の割合である。したがって、位置特異的プロファイルは、GPCR配列群における各位置での各アミノ酸の出現確率(頻度)を表している。   In FIG. 15, the profile is represented by a matrix, the amino acids (20 types) are shown in the vertical direction, the positions in the sequence are shown in the horizontal direction, and the value in each column is the appearance probability. The appearance probability is a ratio of the number of GPCRs having a corresponding amino acid at a corresponding position to the total number of prepared GPCRs. Therefore, the position-specific profile represents the appearance probability (frequency) of each amino acid at each position in the GPCR sequence group.

図15の中段に示されるように、GPCR配列には、アミン系リガンドに結合する配列(アミン結合系統の配列)と、ペプチド性リガンドに結合する配列(ペプチド結合系統の配列)とがある。上記のClass Aプロファイルをテンプレートにして、アミノ結合系統の配列のアライメントが行われ、アミンプロファイルのHMMモデルが作成される。同様に、上記のClass Aプロファイルをテンプレートにして、ペプチド結合系統の配列のアライメントが行われ、ペプチドプロファイルのHMMモデルが作成される。これらHMMモデルは予め作成され、本実施の形態の活性化G蛋白質予測装置に予め記憶されている。   As shown in the middle of FIG. 15, the GPCR sequence includes a sequence that binds to an amine-based ligand (sequence of an amine-binding line) and a sequence that binds to a peptide ligand (sequence of a peptide-binding line). Using the above Class A profile as a template, alignment of the amino bond sequence is performed, and an HMM model of the amine profile is created. Similarly, the above-mentioned Class A profile is used as a template to align the sequences of peptide binding lines, and an HMM model of the peptide profile is created. These HMM models are created in advance and stored in advance in the activated G protein prediction apparatus of the present embodiment.

スコア算出処理ではHMMERが用いられる。そして、予測対象のGPCRの配列情報が、クエリ配列として、アミンプロファイルのHMMモデルに当てられ、類似性を表すスコアがアミンプロファイルスコアとして算出される。ここでは、アミンプロファイルに対するホモロジー検索が実行されて、類似性を表すスコアが求められる。同様に、予測対象のGPCRの配列情報が、クエリ配列として、ペプチドプロファイルのHMMモデルに当てられ、類似性を表すスコアがペプチドプロファイルスコアとして算出される。   In the score calculation process, HMMER is used. Then, the sequence information of the GPCR to be predicted is applied as a query sequence to the amine profile HMM model, and a score representing similarity is calculated as an amine profile score. Here, a homology search is performed on the amine profile, and a score representing similarity is obtained. Similarly, the sequence information of the prediction target GPCR is applied as a query sequence to the HMM model of the peptide profile, and a score representing similarity is calculated as the peptide profile score.

以上により、アミンプロファイルスコアおよびペプチドプロファイルスコアが算出される。   As described above, the amine profile score and the peptide profile score are calculated.

次に、特徴ベクトルデータ生成部16の処理を説明する。特徴ベクトルデータ生成部16は、上述の特徴パラメータ抽出部14で抽出された特徴パラメータを含んだ特徴ベクトルデータを生成する。本実施の形態では、特徴ベクトルデータ生成部16は、下記のように、特徴ベクトルデータを含んだ入力ファイルを生成する。   Next, processing of the feature vector data generation unit 16 will be described. The feature vector data generation unit 16 generates feature vector data including the feature parameters extracted by the feature parameter extraction unit 14 described above. In the present embodiment, the feature vector data generation unit 16 generates an input file including feature vector data as described below.

図16は、特徴ベクトルデータ生成部16で生成される入力ファイルを示しており、本実施の形態では2種類の入力ファイルが生成される。2種類の入力ファイルは、Gs用入力ファイルおよびGi/o・Gq/11用入力ファイルである。各入力ファイルは特徴ベクトルを構成するパラメータを持っており、この観点で入力ファイルは特徴ベクトルデータを有しているといえる。また、入力ファイルは、後述にてG蛋白質の予測のためにSVMに入力されるファイルであり、そのために本実施の形態では入力ファイルという用語が使われている。   FIG. 16 shows an input file generated by the feature vector data generation unit 16, and in this embodiment, two types of input files are generated. The two types of input files are a Gs input file and a Gi / o · Gq / 11 input file. Each input file has parameters constituting a feature vector. From this viewpoint, it can be said that the input file has feature vector data. In addition, the input file is a file that is input to the SVM for the prediction of G protein, and the term “input file” is used in this embodiment.

図16の各ファイルについて説明すると、まず、Gs用入力ファイルは、Gs判別用入力パラメータファイルであり、下記の5つのパラメータで構成されている。(1)I3ループ長、(2)C末端ループ長、(3)アミンプロファイルスコア、(4)ロドプシンの170残基目に対応するプロリン残基の有無、(5)I3ループのC末端側の所定の複数の残基(ロドプシン上の243、244、247、248、251残基)におけるアルギニンとリジンの総数。   16 will be described. First, the Gs input file is a Gs determination input parameter file, and includes the following five parameters. (1) I3 loop length, (2) C-terminal loop length, (3) amine profile score, (4) presence or absence of a proline residue corresponding to residue 170 of rhodopsin, (5) C-terminal side of I3 loop Total number of arginine and lysine at a given plurality of residues (residues 243, 244, 247, 248, 251 on rhodopsin).

一方、Gi/o・Gq/11用入力ファイルは、Gi/o・Gq/11判別用入力パラメータファイルであり、下記の7つのパラメータで構成されている。(1)I3ループ長、(2)C末端ループ長、(3)アミンプロファイルスコア、(4)ロドプシンの170残基目に対応するプロリン残基の有無、(5)I3ループのC末端側の所定の複数の残基(ロドプシン上の243、244、247、248、251残基)におけるアルギニンとリジンの総数、(6)ペプチドプロファイルスコア、(7)リガンドの分子量。すなわち、Gs用入力ファイルに対して(6)と(7)が追加されている。   On the other hand, the Gi / o · Gq / 11 input file is a Gi / o · Gq / 11 discrimination input parameter file, and is composed of the following seven parameters. (1) I3 loop length, (2) C-terminal loop length, (3) amine profile score, (4) presence or absence of a proline residue corresponding to residue 170 of rhodopsin, (5) C-terminal side of I3 loop Total number of arginine and lysine at a given plurality of residues (residues 243, 244, 247, 248, 251 on rhodopsin), (6) peptide profile score, (7) molecular weight of the ligand. That is, (6) and (7) are added to the Gs input file.

上述より明らかなように、入力ファイルのパラメータは、特徴パラメータ抽出部14で抽出された特徴パラメータ、および、入力部12で入力されたリガンド分子量である。   As is clear from the above, the parameters of the input file are the feature parameters extracted by the feature parameter extraction unit 14 and the ligand molecular weight input by the input unit 12.

次に、図17は、分類情報記憶部20に記憶されている情報を示している。分類情報記憶部20は、Gs用モデルファイルおよびGi/o・Gq/11用モデルファイルを記憶している。図17は、これらモデルファイルの作成処理も示しており、まず、モデル作成処理について説明する。   Next, FIG. 17 shows information stored in the classification information storage unit 20. The classification information storage unit 20 stores a Gs model file and a Gi / o · Gq / 11 model file. FIG. 17 also shows the creation process of these model files. First, the model creation process will be described.

図17の下方に示されるように、モデル作成のためには、活性化されるG蛋白質が既知のGPCRおよびリガンドのデータが用意される。図示のように、Gs結合タイプのデータセット、Gi/o結合タイプのデータセット、Gq/11結合タイプのデータセットが用意される。   As shown in the lower part of FIG. 17, GPCRs with known G proteins and ligand data are prepared for model creation. As shown in the figure, a data set of Gs coupling type, a data set of Gi / o coupling type, and a data set of Gq / 11 coupling type are prepared.

Gs用モデル作成のためには、Gs結合タイプのデータセットから、Gs用入力ファイルが作成される。このGs用入力ファイルは、上述の特徴ベクトルデータ生成部16に関して図16を参照して説明されたGs用入力ファイルと同じであり、特徴ベクトルを含んだファイルである。すなわち、実際の予測で使うのと同じ形式のファイルが、モデル作成段階では既知データから生成される。また、Gi/o結合タイプおよびGq/11結合タイプのデータセットからも、Gs用入力ファイルが生成される。   In order to create a model for Gs, an input file for Gs is created from a data set of Gs coupling type. This Gs input file is the same as the Gs input file described with reference to FIG. 16 regarding the above-described feature vector data generation unit 16, and is a file including a feature vector. That is, a file in the same format as that used in actual prediction is generated from known data at the model creation stage. An input file for Gs is also generated from the data sets of the Gi / o connection type and the Gq / 11 connection type.

次に、これらのGs用入力ファイルがSVMに入力され、SVMで入力ファイルの特徴ベクトルデータが処理され、これにより超平面が求められる。超平面は、SVMの空間上で、Gs結合タイプのデータセットから得られた特徴ベクトルグループと、Gi/o結合タイプおよびGq/11結合タイプのデータセットから得られた特徴ベクトルグループと、を分ける面である。Gs用モデルは、このような超平面の情報を含んだSVM用のファイルである。   Next, these Gs input files are input to the SVM, and the feature vector data of the input file is processed by the SVM, thereby obtaining a hyperplane. The hyperplane divides, in the SVM space, a feature vector group obtained from a Gs combined type data set and a feature vector group obtained from a Gi / o combined type and Gq / 11 combined type data set. Surface. The Gs model is an SVM file including such hyperplane information.

一方、Gi/o・Gq/11用モデルの作成のためには、Gi/o結合タイプのデータセットから、Gi/o・Gq/11用入力ファイルが作成される。このGi/o・Gq/11用入力ファイルも、特徴ベクトルデータ生成部16に関して説明されたファイルと同じである。同様に、Gq/11結合タイプのデータセットからも、Gi/o・Gq/11用入力ファイルが生成される。   On the other hand, in order to create a model for Gi / o · Gq / 11, an input file for Gi / o · Gq / 11 is created from a Gi / o combined type data set. This input file for Gi / o · Gq / 11 is also the same as the file described for the feature vector data generation unit 16. Similarly, an input file for Gi / o · Gq / 11 is generated from a Gq / 11 combined type data set.

次に、Gi/o・Gq/11用入力ファイルがSVMに入力され、SVMで入力ファイルの特徴ベクトルデータが処理され、これにより超平面が求められる。超平面は、SVMの空間上で、Gi/o結合タイプのデータセットから得られた特徴ベクトルグループを、Gq/11結合タイプのデータセットから得られた特徴ベクトルグループから分ける面である。Gi/o・Gq/11用モデルは、このような超平面の情報を含んだSVM用のファイルである。   Next, the input file for Gi / o · Gq / 11 is input to the SVM, and the feature vector data of the input file is processed by the SVM, whereby the hyperplane is obtained. The hyperplane is a surface that divides a feature vector group obtained from a Gi / o connection type data set from a feature vector group obtained from a Gq / 11 connection type data set on the SVM space. The model for Gi / o · Gq / 11 is a file for SVM including such hyperplane information.

前述の研究のデータセットでは、Gs結合タイプのGPCRが24配列、Gi/o結合タイプのGPCRが61配列、Gq/11結合タイプのGPCRが47配列で、合計132配列が使用された。そして、Gs用モデルファイルでは、超平面のカーネル関数がラジアルベーシス関数(RBF)であり、Gi/o・Gq/11用モデルファイルでは、超平面のカーネル関数がポリノミアルであった。   In the data set of the previous study, 24 Gs-binding GPCRs, 61 Gi / o binding GPCRs, 61 Gq / 11 binding GPCRs, 47 sequences, a total of 132 sequences were used. In the Gs model file, the hyperplane kernel function is a radial basis function (RBF), and in the Gi / o · Gq / 11 model file, the hyperplane kernel function is polynomial.

次に、予測処理部18および出力部22について説明する。予測処理部18は、SVMを備えており、SVMの機能を利用して予測処理を行う。実際のコンピュータ構成では、SVMのプログラムがコンピュータハードウエアに組み込まれており、コンピュータにより実行される。そして、予測処理部18は、SVMの機能を利用して予測を行う。このとき、予測処理部18はSVMにデータを入力し、SVMから出力されるデータを利用する。   Next, the prediction processing unit 18 and the output unit 22 will be described. The prediction processing unit 18 includes an SVM and performs a prediction process using the function of the SVM. In an actual computer configuration, the SVM program is incorporated in computer hardware and executed by the computer. And the prediction process part 18 performs prediction using the function of SVM. At this time, the prediction processing unit 18 inputs data to the SVM and uses data output from the SVM.

図18は、予測処理部18および出力部22の処理を示している。図示のように、予測処理部18は、階層処理を行うように構成されており、Gsの判別を行い、それからGi/o・Gq/11の判別を行う。すなわち、予測処理部18は、まず、特徴ベクトルデータ生成部16で生成されたGs用入力ファイルと、分類情報記憶部20に記憶されたGs用モデルとを用いて、SVMによる予測を行う(S30)。SVMは、Gs用入力ファイルの予測対象の特徴ベクトルが、Gs用モデルの超平面のどちら側に位置するかを判定する。予測処理部18は、特徴ベクトルが超平面のGs側に位置すれば、予測対象のGPCRおよびリガンドがGsと結合すると予測し、特徴ベクトルが超平面の反対に位置すれば、予測対象がGi/oまたはGq/11と結合すると予測する。   FIG. 18 shows processing of the prediction processing unit 18 and the output unit 22. As shown in the figure, the prediction processing unit 18 is configured to perform hierarchical processing, determines Gs, and then determines Gi / o · Gq / 11. That is, the prediction processing unit 18 first performs prediction by SVM using the Gs input file generated by the feature vector data generation unit 16 and the Gs model stored in the classification information storage unit 20 (S30). ). The SVM determines on which side the feature vector to be predicted of the Gs input file is located on the hyperplane of the Gs model. When the feature vector is located on the Gs side of the hyperplane, the prediction processing unit 18 predicts that the prediction target GPCR and the ligand are combined with Gs. When the feature vector is located opposite to the hyperplane, the prediction target is Gi / Expected to bind o or Gq / 11.

予測処理部18が結合対象がGsか否かを判定し(S32)、S32の判定がYESであれば、出力部22が予測結果を出力する(S34)。例えば、予測結果がGsである旨のメッセージを画面上に表示される。   The prediction processing unit 18 determines whether or not the connection target is Gs (S32). If the determination in S32 is YES, the output unit 22 outputs the prediction result (S34). For example, a message indicating that the prediction result is Gs is displayed on the screen.

S32の判定がNOであれば、次に、予測処理部18は、特徴ベクトルデータ生成部16で生成されたGi/o・Gq/11用入力ファイルと、分類情報記憶部20に記憶されたGi/o・Gq/11用モデルとを用いて、SVMによる予測を行う(S36)。ここでも、SVMは、入力ファイルの予測対象の特徴ベクトルが、モデルの超平面のどちら側に位置するかを判定する。予測処理部18は、特徴ベクトルが超平面のGi/o側に位置すれば、予測対象がGi/oと結合すると予測し、特徴ベクトルデータが超平面の反対に位置すれば、予測対象がGq/11と結合すると予測する。S44の予測の後、出力部22が予測結果を出力する(S38)。例えば、予測結果がGi/oまたはGq/11であったことを示すメッセージが画面上に表示される。   If the determination in S32 is NO, the prediction processing unit 18 then outputs the Gi / o · Gq / 11 input file generated by the feature vector data generation unit 16 and the Gi stored in the classification information storage unit 20. The prediction by SVM is performed using the / o · Gq / 11 model (S36). Again, the SVM determines which side of the model's hyperplane is the feature vector to be predicted of the input file. The prediction processing unit 18 predicts that the prediction target is combined with Gi / o if the feature vector is located on the Gi / o side of the hyperplane, and if the feature vector data is positioned opposite to the hyperplane, the prediction target is Gq. / 11. After the prediction of S44, the output unit 22 outputs the prediction result (S38). For example, a message indicating that the prediction result is Gi / o or Gq / 11 is displayed on the screen.

以上に、本実施の形態に係る活性化G蛋白質予測装置10の全体および各部の構成と動作について説明した。図19は、活性化G蛋白質予測装置10の好適な適用例を示している。図19では、活性化G蛋白質予測装置10が、WEBサーバを含むシステム100に設けられている。システム100は、インターネット等のネットワークN経由で、コンピュータ102と接続される。コンピュータ102は、GPCRとリガンドの情報をシステム100に送る。そして、GPCRとリガンドの情報に対して、上述した処理が行われて、結合対象のG蛋白質種が予測され、予測結果がコンピュータ102に返され、画面上に表示される。この場合、システム100では、通信手段が活性化G蛋白質予測装置10の入力部および出力部を構成しているといえ、また、WEBサーバの情報受付、提示機能が入力部および出力部を構成しているといえる。   In the above, the whole activated G protein prediction apparatus 10 concerning this Embodiment and the structure and operation | movement of each part were demonstrated. FIG. 19 shows a preferred application example of the activated G protein prediction device 10. In FIG. 19, the activated G protein prediction apparatus 10 is provided in a system 100 including a WEB server. The system 100 is connected to a computer 102 via a network N such as the Internet. The computer 102 sends GPCR and ligand information to the system 100. Then, the above-described processing is performed on the information on the GPCR and the ligand, the G protein species to be bound is predicted, and the prediction result is returned to the computer 102 and displayed on the screen. In this case, in the system 100, it can be said that the communication means constitutes the input part and the output part of the activated G protein prediction device 10, and the information reception and presentation function of the WEB server constitutes the input part and the output part. It can be said that.

以上に本発明の好適な実施の形態について説明した。本発明は、上述のように、GPCRとリガンドの情報を入力し、入力情報から特徴パラメータを抽出して特徴ベクトルデータを生成し、そして、活性化G蛋白質が既知の特徴ベクトル群を分類する既知データ分類情報を参照して特徴ベクトルデータから活性化G蛋白質を求めており、このようにして、GPCRおよびリガンドの情報から活性化G蛋白質を好適に予測することができる。   The preferred embodiments of the present invention have been described above. As described above, the present invention inputs GPCR and ligand information, extracts feature parameters from the input information, generates feature vector data, and classifies a feature vector group whose activated G protein is known. The activated G protein is obtained from the feature vector data with reference to the data classification information. Thus, the activated G protein can be suitably predicted from the information of the GPCR and the ligand.

また、本発明は、活性化されるG蛋白質が既知のGPCRおよびリガンドのデータセットからサポートベクターマシンを用いて得られた超平面を基準としてG蛋白質を予測しており、これにより、G蛋白質を正確に予測できる。   In addition, the present invention predicts a G protein on the basis of a hyperplane obtained by using a support vector machine from a GPCR and a ligand data set in which the G protein to be activated is known. Predict accurately.

また、本発明は、GPCRの配列情報およびリガンドの分子量情報が入力されており、これにより、GPCRとリガンドの両者の情報に基づいた予測が行われ、GPCR、リガンドおよびG蛋白質の3者の相関性を反映した適切な予測を行える。   In the present invention, the sequence information of GPCR and the molecular weight information of ligand are input, so that prediction based on the information of both GPCR and ligand is performed, and the correlation between GPCR, ligand and G protein is correlated. Make appropriate predictions that reflect sex.

また、本発明によれば、GPCRのループ部分および膜貫通へリックス部分から複数の特徴パラメータが抽出されており、これにより、GPCRの全体的構造のG蛋白質選択性への影響を反映した適切な予測を行える。   In addition, according to the present invention, a plurality of characteristic parameters are extracted from the loop portion and transmembrane helix portion of the GPCR, which makes it possible to appropriately reflect the influence of the overall structure of the GPCR on the G protein selectivity. Make predictions.

また、本発明によれば、立体構造が既知のGPCRをテンプレートとして用いて、予測対象のGPCRの構造を求めるアライメントを行い、アライメント結果から特徴パラメータを抽出しており、これにより、適切な特徴パラメータを用いることができ、G蛋白質を正確に予測できる。   Further, according to the present invention, alignment for obtaining the structure of the prediction target GPCR is performed using a GPCR having a known three-dimensional structure as a template, and a feature parameter is extracted from the alignment result. G protein can be accurately predicted.

また、本発明によれば、立体構造が既知のGPCRとしてロドプシンの情報を用いており、これにより、適切な特徴パラメータを用いることができ、G蛋白質を正確に予測できる。   In addition, according to the present invention, rhodopsin information is used as a GPCR with a known three-dimensional structure, whereby appropriate characteristic parameters can be used and G protein can be accurately predicted.

また、本発明によれば、特徴パラメータとして、I3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、I3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、を抽出しており、これにより、適切な特徴パラメータを用いることができ、G蛋白質を正確に予測できる。   Further, according to the present invention, the characteristic parameters include the I3 loop length, the C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, The total number of arginine and lysine in the residue is extracted, so that an appropriate characteristic parameter can be used and the G protein can be accurately predicted.

また、本発明によれば、特徴パラメータとして、アライメント結果から得られる膜貫通へリックスの情報からアミンプロファイルスコアおよびペプチドプロファイルスコアを求めており、アミンプロファイルスコアは、アミン結合系統のGPCRと予測対象のGPCRの膜貫通へリックスの位置特異的プロファイルの類似性を示すスコアであり、ペプチドプロファイルスコアは、ペプチド結合系統のGPCRと予測対象のGPCRの膜貫通へリックスの位置特異的プロファイルの類似性を示すスコアである。このようにして、本発明によれば、GPCRの構造に関連する適切な特徴パラメータを用いることができ、G蛋白質を正確に予測できる。   Further, according to the present invention, the amine profile score and the peptide profile score are obtained from the information on the transmembrane helix obtained from the alignment result as the characteristic parameter, and the amine profile score is calculated based on the GPCR of the amine-binding strain and the prediction target. A score indicating the similarity of the position-specific profile of the transmembrane helix of the GPCR, where the peptide profile score indicates the similarity of the position-specific profile of the transmembrane helix of the GPCR of the peptide binding strain to the predicted GPCR It is a score. Thus, according to the present invention, appropriate characteristic parameters related to the structure of the GPCR can be used, and the G protein can be accurately predicted.

また、本発明によれば、第1種類のG蛋白質を選別するための第1の超平面と、第2種類と第3種類のG蛋白質を選別するための第2の超平面とを用いて、上述のような階層的処理を行い、段階的にG蛋白質を予測している。これにより、2者選別を前提とするSVMに適合した処理を行え、SVMを活用でき、G蛋白質を正確に予測できる。   According to the present invention, the first hyperplane for selecting the first type of G protein and the second hyperplane for selecting the second type and the third type of G protein are used. The G protein is predicted stepwise by performing the hierarchical processing as described above. Thereby, processing suitable for SVM on the premise of two-party selection can be performed, SVM can be utilized, and G protein can be accurately predicted.

また、本発明によれば、第1種類のG蛋白質がGsであり、第2種類および第3種類のG蛋白質がGi/oおよびGq/11であり、このような階層処理によってG蛋白質を正確に予測できる。   According to the present invention, the first type G protein is Gs, and the second type and third type G proteins are Gi / o and Gq / 11. Can be predicted.

また、本発明によれば、Gsを選別するための特徴量情報が、I3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、I3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含んでいた。そして、Gi/oおよびGq/11を選別するための特徴量情報が、I3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応するプロリン残基の有無と、I3ループのC末端側の所定の複数の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、ペプチドプロファイルスコアと、リガンドの分子量と、をパラメータとして含んでいた。このような情報を用いることで、上述のようにG蛋白質を正確に予測できる。   According to the present invention, the feature amount information for selecting Gs includes the I3 loop length, the C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, and the C3 of the I3 loop. The parameters included the total number of arginine and lysine in a predetermined plurality of residues on the terminal side, and the amine profile score. The feature amount information for selecting Gi / o and Gq / 11 includes the I3 loop length, the C-terminal loop length, the presence or absence of a proline residue corresponding to the 170th residue of rhodopsin, and the C3 of the I3 loop. The parameters included the total number of arginine and lysine in a predetermined plurality of residues on the terminal side, the amine profile score, the peptide profile score, and the molecular weight of the ligand. By using such information, the G protein can be accurately predicted as described above.

また、本発明によれば、Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であり、Gi/oとGq/11を選別するための第2の超平面は、サポートベクターマシンのカーネル関数がポリノミアルであり、このような超平面を用いることでG蛋白質を正確に予測できる。   Further, according to the present invention, the first hyperplane for Gs selection is such that the kernel function of the support vector machine is a radial basis function, and the second hyperplane for selecting Gi / o and Gq / 11 is The kernel function of the support vector machine is polynomial, and the G protein can be accurately predicted by using such a hyperplane.

なお、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。   In addition, this invention is not limited to the above-mentioned embodiment, Of course, those skilled in the art can modify the above-mentioned embodiment within the scope of the present invention.

本発明は、GPCRシステムにより活性化されるG蛋白質を予測できるバイオインフォマティクス技術であり、創薬などに有用な情報を提供できる。   The present invention is a bioinformatics technique capable of predicting a G protein activated by a GPCR system, and can provide useful information for drug discovery and the like.

GPCRの構造を示す図である。It is a figure which shows the structure of GPCR. サポートベクターマシンの原理を示す図である。It is a figure which shows the principle of a support vector machine. G蛋白質選択性と相関性が高いパラメータ同士の関係性を示しており、横軸に細胞内第3ループ長、縦軸にC末端ループ長をとった図である。It shows the relationship between parameters highly correlated with G protein selectivity, with the horizontal axis representing the intracellular third loop length and the vertical axis representing the C-terminal loop length. G蛋白質選択性と相関性が高いパラメータ同士の関係性を示しており、横軸にアミンプロファイルスコア、縦軸にペプチドプロファイルスコアをとった図である。It is the figure which shows the relationship between parameters with high correlation with G protein selectivity, and took the amine profile score on the horizontal axis and the peptide profile score on the vertical axis. サポートベクターマシンを使ってテストデータを分類判別する際の感度および選択性を示す図である。It is a figure which shows the sensitivity and selectivity at the time of classifying and discriminating test data using a support vector machine. 本発明のシステムを使って学習セットを予測した結果を示す図である。It is a figure which shows the result of having predicted the learning set using the system of this invention. 本発明のシステムを使って学習セットを予測した結果を示す図である。It is a figure which shows the result of having predicted the learning set using the system of this invention. 本発明のシステムを使って学習セットを予測した結果を示す図である。It is a figure which shows the result of having predicted the learning set using the system of this invention. 本発明のシステムを使って学習セットを予測した結果を示す図である。It is a figure which shows the result of having predicted the learning set using the system of this invention. 本発明のシステムを使ったテスト結果を示す図である。It is a figure which shows the test result using the system of this invention. 本発明のシステムを使ったテスト結果を示す図である。It is a figure which shows the test result using the system of this invention. 実施の形態に係る活性化G蛋白質予測装置の構成を示すブロック図である。It is a block diagram which shows the structure of the activated G protein prediction apparatus which concerns on embodiment. 活性化G蛋白質予測装置の全体的な処理を示すフローチャートである。It is a flowchart which shows the whole process of the activated G protein prediction apparatus. 特徴パラメータ抽出部の処理を示すフローチャートである。It is a flowchart which shows the process of a feature parameter extraction part. アミンプロファイルスコアおよびペプチドプロファイルスコアの計算処理を示す図である。It is a figure which shows the calculation process of an amine profile score and a peptide profile score. 入力ファイルの特徴ベクトルデータを示す図である。It is a figure which shows the feature vector data of an input file. 予測用のモデルファイルの作成処理を示す図である。It is a figure which shows the creation process of the model file for prediction. 予測処理部によるG蛋白質の予測処理を示す図である。It is a figure which shows the prediction process of G protein by a prediction process part. ネットワークに接続される場合の活性化G蛋白質予測装置の構成例を示す図である。It is a figure which shows the structural example of the activated G protein prediction apparatus in the case of connecting to a network.

符号の説明Explanation of symbols

10 活性化G蛋白質予測装置
12 入力部
14 特徴パラメータ抽出部
16 特徴ベクトルデータ生成部
18 予測処理部
20 分類情報記憶部
22 出力部
DESCRIPTION OF SYMBOLS 10 Activated G protein prediction apparatus 12 Input part 14 Feature parameter extraction part 16 Feature vector data generation part 18 Prediction processing part 20 Classification information storage part 22 Output part

Claims (6)

G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質種を予測する、活性化G蛋白質予測装置であって、以下の手段を含むことを特徴とする活性化G蛋白質予測装置。
(1)既知データ分類情報として、活性化されるG蛋白質が既知のGPCRおよびリガンドから得られる特徴ベクトル群をサポートベクターマシンで処理することによって、最初にGsを選別するための第1の超平面と、次に残りのGi/oおよびGq/11を選別するための第2の超平面とを設定した結果を記憶する分類情報記憶手段。
(2)予測対象のGPCRの配列情報およびリガンドの分子量情報を入力する入力手段。
(3)前記入力手段により入力された予測対象GPCRの配列情報を立体構造が既知のGPCRであるロドプシンをテンプレートにアラインメントして得られた膜貫通へリックス領域情報から、特徴パラメータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシン上で170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すアミンプロファイルスコアと、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すペプチドプロファイルスコアを求める特徴パラメータ抽出手段。
(4)前記入力手段によって入力されたリガンドの分子量情報と前記特徴パラメータ抽出手段により抽出された前記特徴パラメータから、Gsを選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含むデータを生成し、Gi/oおよびGq/11を選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、ペプチドプロファイルスコアと、リガンドの分子量と、をパラメータとして含むデータを生成する特徴ベクトルデータ生成手段。
(5)前記分類情報記憶手段に記憶された前記既知データ分類情報を参照して、予測対象の特徴ベクトルデータがGsであるか否かを前記第1の超平面のどちら側の空間に属するかによって予測し、さらに、予測対象の特徴ベクトルデータがGi/oおよびGq/11のどちらであるかを前記第2の超平面のどちら側の空間に属するかによって予測する予測処理手段。
(6)前記予測処理手段による予測結果を出力する出力手段。
An activated G protein prediction apparatus for predicting a G protein species to be activated when a G protein-coupled receptor (GPCR) and a ligand bind to each other, comprising the following means: Protein prediction device.
(1) As a known data classification information, a first hyperplane for first selecting Gs by processing a feature vector group obtained from GPCRs and ligands whose activated G proteins are known with a support vector machine And classification information storage means for storing the result of setting the second hyperplane for selecting the remaining G i / o and G q / 11 next.
(2) Input means for inputting the sequence information of the GPCR to be predicted and the molecular weight information of the ligand.
(3) From the transmembrane helix region information obtained by aligning the sequence information of the prediction target GPCR input by the input means with rhodopsin , which is a GPCR having a known three-dimensional structure, as a template, 3 loop length, C-terminal loop length, presence or absence of a proline residue at a position corresponding to the 170th residue on rhodopsin, and 243, 244, 247 on rhodopsin on the C-terminal side of the intracellular third loop , 248, 251 and the total number of arginine and lysine in the residue corresponding to the residue, and the amine profile showing similarity between the position-specific profile of the GPCR of the amine-binding line and the transmembrane helix of the predicted GPCR Peptides showing scores and similarities between the position-specific profile of GPCRs of peptide-binding strains and the transmembrane helix of the predicted GPCR Feature parameter extracting means for obtaining a profile score.
(4) As the feature vector data for selecting Gs from the molecular weight information of the ligand inputted by the input means and the feature parameters extracted by the feature parameter extraction means, an intracellular third loop length and a C terminal Loop length, presence or absence of proline residue at position corresponding to residue 170 of rhodopsin, and residues 243, 244, 247, 248, 251 on rhodopsin on the C-terminal side of intracellular third loop Data including the total number of arginine and lysine at the residue at the corresponding position and the amine profile score as parameters is generated as feature vector data for selecting G i / o and G q / 11 . 3 and the loop length, the C-terminal loop length, the presence of proline residue at the position corresponding to 170 residues th rhodopsin, the C-terminal intracellular third loop, rhodopsin In generating the total number of arginine and lysine at residue positions corresponding to 243,244,247,248,251 th residues, with an amine profile score, and a peptide profile score, and the molecular weight of the ligand, the data including as a parameter Feature vector data generating means.
(5) With reference to the known data classification information stored in the classification information storage means, whether the feature vector data to be predicted belongs to Gs belongs to which space of the first hyperplane Prediction processing means for predicting whether the feature vector data to be predicted is G i / o or G q / 11 depending on which side of the space of the second hyperplane.
(6) Output means for outputting a prediction result by the prediction processing means.
Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であり、Gi/oとGq/11を選別するための第2の超平面は、サポートベクターマシンのカーネル関数がポリノミアルであることを特徴とする請求項1に記載の活性化G蛋白質予測装置。 The first hyperplane for Gs selection is the support vector machine kernel function is a radial basis function, and the second hyperplane for selecting G i / o and G q / 11 is the support vector machine kernel. The activated G protein predicting apparatus according to claim 1, wherein the function is polynomial. G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質を予測する処理をコンピュータに実行させるための活性化G蛋白質予測プログラムであって、以下のステップをコンピュータに実行させることを特徴とする活性化G蛋白質予測プログラム。
(1)予測対象のGPCRの配列情報およびリガンドの分子量情報を入力する入力ステップ。
(2)前記入力ステップにより入力された情報から、立体構造が既知のGPCRであるロドプシンをテンプレートとして予測対象のGPCRのアライメントを行い、アライメント結果から得られる膜貫通へリックスの情報から、特徴パラメータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシン上で170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すアミンプロファイルスコアと、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すペプチドプロファイルスコアを求める特徴パラメータ抽出ステップ。
(3)前記入力ステップによって入力されたリガンドの分子量情報と前記特徴パラメータ抽出ステップにより抽出された前記特徴パラメータから、Gsを選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含むデータを生成し、Gi/oおよびGq/11を選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、ペプチドプロファイルスコアと、リガンドの分子量と、をパラメータとして含むデータを生成する特徴ベクトルデータ生成ステップ。
(4)分類情報記憶手段に既知データ分類情報として記憶された、活性化されるG蛋白質が既知のGPCRおよびリガンドから得られる特徴ベクトル群をサポートベクターマシンで処理することによって設定されたGsを選別するための第1の超平面と、Gi/oおよびGq/11のG蛋白質を選別するための第2の超平面の情報を参照して、予測対象の特徴ベクトルデータがGsであるか否かを前記第1の超平面のどちら側の空間に属するかによって予測し、さらに、予測対象の特徴ベクトルデータがGi/oおよびGq/11のどちらであるかを前記第2の超平面のどちら側の空間に属するかによって予測する予測処理ステップ。
(5)前記予測処理ステップによる予測結果を出力する出力ステップ。
An activated G protein prediction program for causing a computer to execute a process for predicting a G protein that is activated when a G protein-coupled receptor (GPCR) and a ligand are bound to each other. An activated G protein prediction program characterized in that
(1) An input step for inputting sequence information of a GPCR to be predicted and molecular weight information of a ligand.
(2) From the information input in the input step, alignment of the prediction target GPCR is performed using rhodopsin , which is a GPCR having a known three-dimensional structure as a template, and from the information on the transmembrane helix obtained from the alignment result, as a characteristic parameter The intracellular third loop length, the C-terminal loop length, the presence or absence of a proline residue at a position corresponding to the 170th residue on rhodopsin, and 243 on the rhodopsin at the C-terminal side of the intracellular third loop. , 244, 247, 248, the total number of lysine at the residues corresponding to residues 251 and the similarity between the position-specific profile of the GPCR of the amine-binding line and the transmembrane helix of the predicted GPCR Amine profile score indicating GPC, position-specific profile of GPCR of peptide-binding strain and transmembrane of predicted GPCR Characteristic parameter extraction step of obtaining a peptide profile score indicating the similarity of the box.
(3) Intracellular third loop length and C-terminal as feature vector data for selecting Gs from the molecular weight information of the ligand input in the input step and the feature parameter extracted in the feature parameter extraction step Loop length, presence or absence of proline residue at position corresponding to residue 170 of rhodopsin, and residues 243, 244, 247, 248, 251 on rhodopsin on the C-terminal side of intracellular third loop Data including the total number of arginine and lysine at the residue at the corresponding position and the amine profile score as parameters is generated as feature vector data for selecting G i / o and G q / 11 . 3 and the loop length, the C-terminal loop length, the presence of proline residue at the position corresponding to 170 residues th rhodopsin, the C-terminal intracellular third loop, b Data including the total number of arginine and lysine at residue positions corresponding to 243,244,247,248,251 th residue on trypsin, and amine profile score, and a peptide profile score, and the molecular weight of the ligand, as parameters Generating feature vector data.
(4) Select Gs set by processing a feature vector group obtained from GPCRs and ligands whose activated G proteins are known and stored in the classification information storage means as known data classification information with a support vector machine Whether the feature vector data to be predicted is Gs with reference to the information of the first hyperplane for the selection and the second hyperplane for selection of G proteins of G i / o and G q / 11 Whether or not the feature vector data to be predicted is G i / o or G q / 11 is predicted based on which side of the space of the first hyperplane. A prediction processing step for predicting depending on which side of the plane the space belongs.
(5) An output step for outputting a prediction result obtained by the prediction processing step.
Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であり、Gi/oとGq/11を選別するための第2の超平面は、サポートベクターマシンのカーネル関数がポリノミアルであることを特徴とする請求項に記載の活性化G蛋白質予測プログラム。 The first hyperplane for Gs selection is the support vector machine kernel function is a radial basis function, and the second hyperplane for selecting G i / o and G q / 11 is the support vector machine kernel. 4. The activated G protein prediction program according to claim 3 , wherein the function is polynomial. G蛋白質共役型受容体(GPCR)とリガンドが結合したときに活性化されるG蛋白質を活性化G蛋白質予測装置によって予測する活性化G蛋白質予測方法であって、以下のステップを含むことを特徴とする活性化G蛋白質予測方法。
(1)活性化G蛋白質予測装置が、予測対象のGPCRの配列情報およびリガンドの分子量情報を入力する入力ステップ。
(2)活性化G蛋白質予測装置が、前記入力ステップにより入力された情報から、立体構造が既知のGPCRであるロドプシンをテンプレートとして予測対象のGPCRのアライメントを行い、アライメント結果から得られる膜貫通へリックスの情報から、特徴パラメータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミン結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すアミンプロファイルスコアと、ペプチド結合系統のGPCRの位置特異的プロファイルと予測対象のGPCRの膜貫通へリックスとの類似性を示すペプチドプロファイルスコアを求める特徴パラメータ抽出ステップ。
(3)活性化G蛋白質予測装置が、前記入力ステップによって入力されたリガンドの分子量情報と前記特徴パラメータ抽出ステップにより抽出された前記特徴パラメータから、Gsを選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、をパラメータとして含むデータを生成し、Gi/oおよびGq/11を選別するための特徴ベクトルデータとして、細胞内第3ループ長と、C末端ループ長と、ロドプシンの170残基目に対応する位置でのプロリン残基の有無と、細胞内第3ループのC末端側の、ロドプシン上で243、244、247、248、251残基目に対応する位置の残基におけるアルギニンとリジンの総数と、アミンプロファイルスコアと、ペプチドプロファイルスコアと、リガンドの分子量と、をパラメータとして含むデータを生成する特徴ベクトルデータ生成ステップ。
(4)活性化G蛋白質予測装置が、分類情報記憶手段に既知データ分類情報として記憶された、活性化されるG蛋白質が既知のGPCRおよびリガンドから得られる特徴ベクトル群をサポートベクターマシンで処理することによって設定されたGsを選別するための第1の超平面と、Gi/oおよびGq/11のG蛋白質を選別するための第2の超平面の情報を参照して、予測対象の特徴ベクトルデータがGsであるか否かを前記第1の超平面のどちら側の空間に属するかによって予測し、さらに、予測対象の特徴ベクトルデータがGi/oおよびGq/11のどちらであるかを前記第2の超平面のどちら側の空間に属するかによって予測する予測処理ステップ。
(5)活性化G蛋白質予測装置が、前記予測処理ステップによる予測結果を出力する出力ステップ。
An activated G protein prediction method for predicting, by an activated G protein predictor, a G protein that is activated when a G protein-coupled receptor (GPCR) and a ligand bind to each other, comprising the following steps: An activated G protein prediction method.
(1) An input step in which the activated G protein prediction device inputs sequence information of a GPCR to be predicted and molecular weight information of a ligand.
(2) The activated G protein prediction device performs alignment of the GPCR to be predicted from the information input in the input step using rhodopsin , which is a GPCR having a known three-dimensional structure, as a template, and goes through the transmembrane obtained from the alignment result From the information on the Rix, as the characteristic parameters, the intracellular third loop length, the C-terminal loop length, the presence or absence of a proline residue at the position corresponding to the 170th residue of rhodopsin, and the C-terminal of the intracellular third loop , The total number of arginine and lysine at residues corresponding to residues 243, 244, 247, 248, 251 on rhodopsin, the position-specific profile of the GPCR of the amine-binding line and the GPCR membrane to be predicted Amine profile score showing similarity to the penetrating helix and position-specific profile and prediction of GPCRs for peptide-bound strains Characteristic parameter extraction step of obtaining a peptide profile score indicating the similarity between the transmembrane helices elephant GPCR.
(3) The activated G protein prediction device uses the molecular weight information of the ligand input in the input step and the feature parameter extracted in the feature parameter extraction step as feature vector data for selecting Gs. The third loop length, the C-terminal loop length, the presence or absence of a proline residue at the position corresponding to the 170th residue of rhodopsin, and 243, 244, 247 on rhodopsin on the C-terminal side of the intracellular third loop , 248, 251 to generate data including the total number of arginine and lysine at the residue corresponding to residues 251 and amine profile score as parameters, and to select G i / o and G q / 11 Feature vector data includes the intracellular third loop length, the C-terminal loop length, the presence or absence of a proline residue at the position corresponding to the 170th residue of rhodopsin, 3 Loop C-terminal, the total number of arginine and lysine at residue positions corresponding to 243,244,247,248,251 th residue on rhodopsin, and amine profile score, and a peptide profile score, the ligand A feature vector data generation step for generating data including molecular weight as a parameter.
(4) The activated G protein prediction device processes the feature vector group obtained from the known GPCR and ligand of the activated G protein stored as the known data classification information in the classification information storage means by the support vector machine. By referring to the information of the first hyperplane for sorting Gs set by the second hyperplane for sorting Gi / o and G q / 11 G proteins, Whether or not the feature vector data is Gs is predicted depending on which side of the first hyperplane the space belongs to, and whether the feature vector data to be predicted is G i / o or G q / 11 A prediction processing step of predicting whether there is a space depending on which side of the space of the second hyperplane.
(5) An output step in which the activated G protein prediction device outputs a prediction result of the prediction processing step.
Gs選別用の第1の超平面は、サポートベクターマシンのカーネル関数がラジアルベーシス関数であり、Gi/oとGq/11を選別するための第2の超平面は、サポートベクターマシンのカーネル関数がポリノミアルであることを特徴とする請求項に記載の活性化G蛋白質予測方法。

The first hyperplane for Gs selection is the support vector machine kernel function is a radial basis function, and the second hyperplane for selecting G i / o and G q / 11 is the support vector machine kernel. 6. The activated G protein prediction method according to claim 5 , wherein the function is polynomial.

JP2004316279A 2004-10-29 2004-10-29 Activated G protein prediction apparatus, program and method Expired - Fee Related JP4845080B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004316279A JP4845080B2 (en) 2004-10-29 2004-10-29 Activated G protein prediction apparatus, program and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004316279A JP4845080B2 (en) 2004-10-29 2004-10-29 Activated G protein prediction apparatus, program and method

Publications (2)

Publication Number Publication Date
JP2006127248A JP2006127248A (en) 2006-05-18
JP4845080B2 true JP4845080B2 (en) 2011-12-28

Family

ID=36721931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004316279A Expired - Fee Related JP4845080B2 (en) 2004-10-29 2004-10-29 Activated G protein prediction apparatus, program and method

Country Status (1)

Country Link
JP (1) JP4845080B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5448447B2 (en) * 2006-05-26 2014-03-19 国立大学法人京都大学 Predict protein-compound interactions and rational design of compound libraries based on chemical genome information
DE102007011912A1 (en) * 2007-03-13 2008-09-18 Sanofi-Aventis Method for generating peptide libraries and their use
JP5170630B2 (en) * 2007-12-19 2013-03-27 独立行政法人産業技術総合研究所 Protein function identification device
WO2014192927A1 (en) * 2013-05-30 2014-12-04 国立大学法人京都大学 Computer simulation system
CN104502103A (en) * 2014-12-07 2015-04-08 北京工业大学 Bearing fault diagnosis method based on fuzzy support vector machine
CN105447340A (en) * 2015-07-21 2016-03-30 郑州轻工业学院 Protein subchloroplast multi-position prediction method
EP3540043B1 (en) * 2016-11-10 2023-11-01 The University Of Tokyo Analysis device, analysis method, and program

Also Published As

Publication number Publication date
JP2006127248A (en) 2006-05-18

Similar Documents

Publication Publication Date Title
Yariv et al. Using evolutionary data to make sense of macromolecules with a “face‐lifted” ConSurf
Zhu et al. NOXclass: prediction of protein-protein interaction types
Zarin et al. Identifying molecular features that are associated with biological function of intrinsically disordered protein regions
Wang et al. Critical evaluation of bioinformatics tools for the prediction of protein crystallization propensity
Feng et al. Topology prediction improvement of α-helical transmembrane proteins through helix-tail modeling and multiscale deep learning fusion
Sgourakis et al. A method for the prediction of GPCRs coupling specificity to G-proteins using refined profile Hidden Markov Models
JP4845080B2 (en) Activated G protein prediction apparatus, program and method
Chen et al. Computational prediction of secondary and supersecondary structures
Zheng et al. An ensemble method for prediction of conformational B-cell epitopes from antigen sequences
Milighetti et al. Predicting T cell receptor antigen specificity from structural features derived from homology models of receptor-peptide-major histocompatibility complexes
Qian et al. Depicting a protein’s two faces: GPCR classification by phylogenetic tree-based HMMs
Nanni et al. A new encoding technique for peptide classification
Flot et al. StackSSSPred: a stacking-based prediction of supersecondary structure from sequence
Xu et al. NetBCE: an interpretable deep neural network for accurate prediction of linear B-cell epitopes
Chan et al. Learning to predict expression efficacy of vectors in recombinant protein production
Joseph et al. Local structure alphabets
Nugent De novo membrane protein structure prediction
Tiwari et al. Topology prediction of insect olfactory receptors
Xuan et al. Clpred: a sequence-based protein crystallization predictor using blstm neural network
Ingolfsson et al. Protein domain prediction
Bravi Development and use of machine learning algorithms in vaccine target selection
Hassan et al. An integrative machine learning model for the identification of tumor T-cell antigens
Sadowski et al. Automated generation and refinement of protein signatures: case study with G-protein coupled receptors
Yuan et al. Genome-scale annotation of protein binding sites via language model and geometric deep learning
Reeb et al. Predictive methods using protein sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110318

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110920

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111006

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees