WO2003107218A1 - 相互作用予測装置 - Google Patents

相互作用予測装置 Download PDF

Info

Publication number
WO2003107218A1
WO2003107218A1 PCT/JP2003/006952 JP0306952W WO03107218A1 WO 2003107218 A1 WO2003107218 A1 WO 2003107218A1 JP 0306952 W JP0306952 W JP 0306952W WO 03107218 A1 WO03107218 A1 WO 03107218A1
Authority
WO
WIPO (PCT)
Prior art keywords
amino acid
acid residue
protein
energy
site
Prior art date
Application number
PCT/JP2003/006952
Other languages
English (en)
French (fr)
Inventor
静司 齋藤
大野 一樹
和田 光人
今井 建策
細木 信也
島田 尚
Original Assignee
セレスター・レキシコ・サイエンシズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002160781A external-priority patent/JP2004002238A/ja
Priority claimed from JP2002275300A external-priority patent/JP3990963B2/ja
Priority claimed from JP2002371038A external-priority patent/JP2004206171A/ja
Application filed by セレスター・レキシコ・サイエンシズ株式会社 filed Critical セレスター・レキシコ・サイエンシズ株式会社
Priority to US10/516,133 priority Critical patent/US20050130224A1/en
Priority to EP03733232A priority patent/EP1510943A4/en
Publication of WO2003107218A1 publication Critical patent/WO2003107218A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Definitions

  • the present invention relates to an interaction site prediction device, an Aida interaction site prediction method, a program, and a recording medium, and in particular, to an interaction site prediction device that predicts an interaction site based on frustration of a local site, an interaction
  • the present invention relates to a site prediction method, a program, and a recording medium.
  • the present invention also relates to an active site predicting device, an active site predicting method, a program, and a recording medium, and in particular, an active site predicting device for estimating an active site of a physiologically active polypeptide or protein with high accuracy, an active site It relates to prediction methods, programs, and recording media.
  • the present invention also relates to a protein interaction information processing apparatus, a protein interaction information processing method, a program, and a recording medium, and more particularly to a protein interaction information processing apparatus, a protein interaction information processing apparatus, a protein interaction information processing apparatus, and a recording medium.
  • the present invention relates to a protein interaction information processing apparatus, a protein interaction information processing method, a program, and a recording medium, which can identify a site having high instability when a single protein is used and identify an interaction site.
  • the present invention also relates to a binding site predicting apparatus, a binding site predicting method, a program, and a recording medium, and particularly to three-dimensional structural information (amino acid sequence) predicted from amino acid sequence data or experimentally determined.
  • amino acid sequence amino acid sequence
  • the present invention relates to a binding site prediction device, a binding site prediction method, a program, and a recording medium.
  • the present invention relates to a protein structure optimizing device, a protein structure optimizing method, a program, and a recording medium, and more particularly to a protein structure capable of optimizing a desired atomic coordinate while dividing a protein structure.
  • the present invention relates to an optimization device, a protein structure optimization method, a program, and a recording medium.
  • the conventional interaction site analysis method registers a primary sequence specific to an interaction site that has been known in advance in a motif database or the like, and predicts the interaction site using that information. Therefore, it was not possible to analyze the interaction sites that had not been discovered so far. Therefore, when predicting unknown interaction sites that have not been discovered so far on a computer using bioinformatics technology, it is necessary to use a completely different method, but an effective method has not yet been established. .
  • the native tertiary structure of a protein is shaped so that interaction between amino acids has as little frustration as possible. In other words, it is said that the energy curve of a protein is designed in a funnel shape toward the entire structure (native structure) without frustration (folding funnel).
  • the native structure is a structure with little frustration, but the frustration has been completely eliminated due to the complexity of interaction between elements, the degree of freedom, the evolutionary process, etc. Do not mean.
  • protein interaction can be said to be a process of further stabilization due to the interaction between two proteins having stable overall structures.
  • proteins A and B interact, a change occurs in the structure of a portion of protein A and the structure of a portion of protein B, resulting in binding.
  • a local structure that is locally and generally stable does not need to be further stabilized.
  • the part that is stable as a whole but unstable when viewed locally is stabilized by binding to other proteins, etc., and further stabilized by further binding.
  • a locally unstable structural region can be considered to be relatively likely to be a protein interaction site.
  • protein secondary structure prediction predicts a locally stable structural pattern from the primary sequence.
  • the method of Chou—Fa sman based on the information on the secondary structure assignment of amino acids was replaced with a method of predicting the structure that also takes into account evolutionarily related sequences, now called 3rd generation.
  • a method using neural net wo rk, (2) A cow method using linearstatistics, and (3) a method using the nearest neighbor method have been devised. Secondary structure prediction using various different methods It can be performed.
  • the present invention provides an interaction site prediction apparatus, an interaction site prediction method, a program, and a program that can effectively predict an interaction site by finding a frustrated local site in the primary sequence information of a protein. And to provide a recording medium.
  • the conventional method for predicting an active site has a problem that the prediction accuracy is low.
  • Prediction method and prediction apparatus for protein functional site A method for predicting a functional site using the frequency of occurrence of an oligopeptide is mentioned.
  • the former method has advantages in that it is superior in terms of time and computational cost, and can be used for the analysis of proteins without information on the three-dimensional structure.
  • the accuracy is lower than when there is information on the three-dimensional structure.
  • the most commonly used method for predicting the active site using the latter three-dimensional structure is a method of searching for a large groove in a protein. Most active sites are located in protein grooves called binding pockets.
  • This technology predicts the active site of the enzyme by searching for the groove.
  • a plurality of grooves are found or the positions of the grooves do not coincide with the active sites, which has a problem that accuracy is not high.
  • accuracy is not high.
  • Ondreche n et al. have published a system for predicting the active site, taking advantage of the fact that the pH titration curve of dissociable amino acid residues tends to be abnormal in the active site (Proc. Natl. USA, Vol.
  • the present invention provides an active site prediction device, an active site prediction method, a program, and a recording medium that can predict an active site of a protein from information on the energy and spread of molecular orbitals obtained by molecular orbital calculation.
  • the purpose is to provide
  • the conventional interaction site analysis method registers a primary sequence specific to the interaction site that has been known in advance in a motif database or the like, and predicts the interaction site using that information. Therefore, it was not possible to analyze the interaction sites that had not been discovered so far. Therefore, it is necessary to use a completely different method to predict unknown interaction sites on a computer using bioinformatics technology, but an effective method has not yet been established. .
  • protein interaction can be said to be a process of further stabilization due to the interaction between two proteins having stable overall structures.
  • proteins A and B interact, a change occurs in the structure of a portion of protein A and the structure of a portion of protein B, resulting in binding.
  • a local structure that is locally stable and overall stable does not need to be further stabilized.
  • a portion that is stable as a whole but unstable when viewed locally is stabilized by binding to other proteins and the like, and further stabilized by further binding.
  • a situation where a dagger is considered is conceivable.
  • a locally unstable structural region can be considered to be relatively likely to be a protein interaction site.
  • local unstable parts are Predicting from the column may allow the candidate interaction sites to be identified.
  • the present invention provides a protein interaction that can identify a site with high instability in a single protein and identify an interaction site based on hydrophobic interaction and electrostatic interaction obtained from protein structural data. It is an object of the present invention to provide an information processing device, a protein interaction information processing method, a program, and a recording medium.
  • the present invention provides a binding site prediction device, a binding site prediction method, a program, and a recording medium that enable prediction of protein interaction by bioinformatics in a very short time and enable comprehensive analysis. It aims to provide
  • MOP AC 2000 is generally more reliable for small molecules.
  • the EF method is used, and for polymers, the BFGS method is used, which converges quickly and requires a small amount of memory.
  • an object of the present invention is to provide a protein structure optimizing apparatus, a protein structure optimizing method, a program, and a recording medium that can optimize a desired atomic coordinate while dividing a protein structure.
  • an interaction site prediction device, an interaction site prediction method, and a program according to the present invention comprise: An input means (input step) for inputting information; and the primary sequence input by the input means (input step) to a secondary structure prediction program for predicting a secondary structure of the protein from the primary sequence information of the protein.
  • the secondary structure prediction program execution means (secondary structure prediction program execution step) for executing the secondary structure prediction simulation of information, and the secondary structure prediction program execution means (secondary structure prediction program execution step) Based on the comparison result by the prediction result comparison means (prediction result comparison step) for comparing the secondary structure prediction results of the secondary structure prediction program and the prediction result comparison means (prediction result comparison step),
  • a frustration meter that calculates the frustration of the local part of the primary sequence information of the protein Means (frustration calculation step) and interaction site prediction for predicting an interaction site of the target protein by the frustration of the local portion calculated by the frustration calculation means (frustration calculation step) Means (interaction site prediction step).
  • the primary sequence information of the target protein is input, and the secondary sequence prediction program that predicts the secondary structure of the protein from the primary sequence information of the protein is input.
  • Execute the secondary structure prediction simulation of the primary sequence information compare the secondary structure measurement results of the secondary structure prediction program, and, based on the comparison result, estimate the local fraction of the primary sequence information of the target protein.
  • the interaction site of the target protein is predicted based on the calculated local fraction frustration, so that the interaction site can be identified by finding a local site with a frustration in the primary sequence information of the protein. Can be predicted effectively.
  • An interaction site prediction device, an interaction site prediction method, and a program according to the next invention include an input means (input step) for inputting primary sequence information of a target protein; and the secondary structure data of the target protein. Means for acquiring secondary structure data (secondary structure data acquisition step) and primary sequence information A secondary structure prediction program executing means for executing a secondary structure prediction simulation of the primary sequence information input by the input means (input step) with respect to a secondary structure prediction program for predicting a secondary structure of the protein.
  • Secondary structure prediction program execution step secondary structure prediction result of the secondary structure prediction program by the secondary structure prediction program execution means (secondary structure prediction program execution step); and acquisition of the secondary structure data Means for comparing the secondary structure data acquired by the means (secondary structure data acquisition step) with the prediction result comparison means (predicted result comparison step) and the comparison result obtained by the prediction result comparison means (predicted result comparison step)
  • the primary sequence information of the target protein is input, the secondary structure data of the target protein is obtained, and the secondary structure of the protein is predicted from the primary sequence information of the protein.
  • a secondary structure prediction simulation program based on the primary sequence information input to the secondary structure prediction program, and compares the secondary structure prediction results of the secondary structure prediction program with the acquired secondary structure data. Based on the comparison results, the frustration of the local portion of the primary sequence information of the target protein is calculated, and the interaction site of the target protein is predicted based on the calculated blasting of the local portion. By looking at the difference between the predicted results of the program and the actual secondary structure of the protein of interest, the frustration can be more clearly defined.
  • a ® emission becomes possible to find the local region (a high probability that is the interaction site of the site).
  • An interaction site prediction device, an interaction site prediction method, and a program according to the next invention are the above-described interaction site prediction device, interaction site prediction method, And a program further comprising: confidence information setting means (confidence information setting step) for setting confidence information indicating confidence for the secondary structure prediction result of the secondary structure prediction program (including).
  • the frustration calculation means (the frustration calculation step) is based on the certainty information set by the certainty information setting means (the certainty information setting step) and the comparison result, and the frustration of the local portion is performed. Calculating the ratio. This more specifically shows an example of the frustration calculation.
  • certainty information indicating the certainty regarding the secondary structure prediction result of the secondary structure prediction program is set, and the locality is determined based on the set certainty information and the comparison result. Since the frustration of the part is calculated, the confidence of the simulation result in the frustration calculation is increased by increasing the weight for the secondary structure prediction result data by a program with high confidence information (that is, high simulation accuracy). Degree can be reflected.
  • the present invention relates to a recording medium, and the recording medium according to the present invention has the program described above recorded thereon.
  • the program described above can be realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. Similar effects can be obtained.
  • the present invention uses molecular orbital calculations, which are said to be highly accurate, and 2) has been proposed by Kenichi Fukui et al. And has been demonstrated by many scientists. Since the relationship between the position of the frontier orbital and the reaction site is applied to a protein system, it has the feature that high-precision prediction can be expected because of its theoretical basis.
  • the active site prediction device, the active site prediction method, the program, and the recording medium of the present invention are based on the following idea.
  • the highest occupied orbital (HOMO) is involved in the electron donating reaction of a chemical
  • the lowest unoccupied orbital (LUMO) is involved in the electron accepting reaction of a chemical.
  • This theory is well documented for small molecules. Therefore, the present inventor thought that a similar theory holds for a macromolecule such as a protein.
  • the possibility is presented by a computational chemistry approach 3 ⁇ 4 (Journ a l o f t h e Am e r l i c a n (ch em i c a l
  • the present inventor improved the calculation conditions, changed the abstract concept of the frontier orbit and its orbits to a specific definition, examined the calculation conditions in detail, and added more examples.
  • the present invention has been completed in which the active site is predicted from the electronic state.
  • the active site prediction method obtains the electronic state of a protein or a biologically active polypeptide by molecular orbital calculation, and calculates a frontier orbital and its peripheral orbitals, and Z or main chain.
  • the orbital energy localized in the heavy atom is identified, the position of the frontier orbital and its peripheral orbitals, and z or the amino acid residue that becomes the active site of the protein or bioactive polypeptide based on the orbital energy It is characterized by predicting a group.
  • the electronic state of a protein or a bioactive polypeptide is determined by molecular orbital analysis. Determine the frontier orbital and its peripheral orbitals and / or orbital energies localized in heavy atoms in the main chain, and determine the position of the frontier orbital and its peripheral orbitals and Z or Based on the orbital energy, the amino acid residue which is the active site of the protein or bioactive polypeptide is predicted, so the molecular orbital calculation, which is said to be highly accurate, is used to calculate the position or the position of the frontier orbital. Since the relationship between the position of high orbital energy and the reaction site is applied to a protein or bioactive polypeptide system, it is possible to perform highly accurate prediction of the active site.
  • An active site predicting apparatus, an active site predicting method, and a program according to the next invention are a structure data obtaining means (structure data obtaining step) for obtaining structure data of a target protein or a physiologically active polypeptide; Frontier orbital calculation means (frontier orbital) for determining the electronic state of the protein or bioactive polypeptide by molecular orbital calculation based on the structural data obtained in the data obtaining means (structure data obtaining step) and specifying the frontier orbital Calculation step), a peripheral orbit determining means (peripheral orbit determining step) for determining a molecular orbital having a predetermined energy difference from the frontier orbit as a peripheral orbit of the frontier orbit, and a peripheral orbit determining the peripheral orbit.
  • Active amino acid residues are candidates for the active site.
  • a candidate amino acid residue determining means (candidate amino acid residue determining step) to be determined as an amino acid residue; and a candidate amino acid residue determined by the candidate amino acid residue determining means (candidate amino acid residue determining step).
  • Active site prediction means (active site prediction step) for selecting an active site from the active site and predicting the active site.
  • the apparatus the method, and the program, structural data of a target protein or a physiologically active polypeptide is obtained, and the electronic state of the protein or the biologically active polypeptide is calculated based on the obtained structural data.
  • the frontier orbital determine the molecular orbital that has a predetermined energy difference from the frontier orbital as the peripheral orbital of the frontier orbital, and Since the amino acid residues in which the edge orbitals are distributed are determined as candidate amino acid residues for the active site, and the active site is selected from the determined candidate amino acid residues and the active site is predicted, the accuracy is high.
  • the molecular orbital calculation which is said to be expensive, to apply the relationship between the position of the frontier orbital and the reactive site to a protein or bioactive polypeptide system, it is possible to perform highly accurate active site prediction. become.
  • An active site prediction apparatus, an active site prediction method, and a program according to the next invention include a structure data obtaining means (structure data obtaining step) for obtaining structure data of a target protein or a physiologically active polypeptide;
  • structure data obtaining step for obtaining structure data of a target protein or a physiologically active polypeptide;
  • the electronic state of the protein or the biologically active polypeptide is determined by molecular orbital calculation based on the structural data obtained in the structural data obtaining means (structure data obtaining step), and the orbital energy localized in heavy atoms in the main chain is obtained.
  • Orbital energy calculating means for specifying "" and molecular orbitals having an orbital energy exceeding a predetermined value among the orbital energies specified by the orbital energy calculating means (orbital energy calculating step) And / or amino with relatively high orbital energy
  • a candidate amino acid residue determining means for determining an acid residue as an active site candidate amino acid residue.
  • structural data of a target protein or a physiologically active polypeptide is obtained, and an electronic state of the protein or the biologically active polypeptide is calculated based on the obtained structural data.
  • the orbital energy localized in the heavy atom of the main chain is determined, and the molecular orbital whose orbital energy exceeds a predetermined value among the specified orbital energies and / or the molecular orbital with relatively high orbital energy Since the distributed amino acid residues are determined as the amino acid residues of the active site, the relationship between the position of high orbital energy and the reaction site is determined using molecular orbital calculation, which is said to be highly accurate. Since it is applied to protein or bioactive polypeptide systems, highly accurate prediction of active sites can be performed.
  • An active site predicting apparatus, an active site predicting method, and a program according to the next invention include a structure data obtaining means (structure data obtaining step) for obtaining structure data of a target protein or a physiologically active polypeptide; A frontier orbit for determining the electronic orbit of the protein or bioactive polypeptide by molecular orbital calculation based on the structural data obtained in the structural data obtaining means (structure data obtaining step); Based on the calculation means (frontier orbit calculation step) and the structure data obtained by the structure data obtaining means (structure data obtaining step), the electronic state of the protein or bioactive polypeptide is calculated by molecular orbital calculation.
  • Orbital energy calculation to determine orbital energies localized in heavy atoms in the main chain A step (orbit energy calculation step), a peripheral orbit determining means (peripheral orbit determining step) for determining a molecular orbit having a predetermined energy difference from the frontier orbit as a peripheral orbit of the frontier orbit, Amino acid residues in which the peripheral orbitals are distributed, and Z or molecules having an orbital energy exceeding a predetermined value among the orbital energies specified by the orbital energy calculating means (orbital energy calculating step)
  • a candidate amino acid residue determining means (candidate amino acid residue determining step) for determining an amino acid residue in which an orbital and Z or a molecular orbital having a relatively high orbital energy is distributed as an active site candidate amino acid residue; Determined by the above-mentioned candidate amino acid residue determination means (candidate amino acid residue determination step)
  • Active site prediction means active site prediction step for selecting an active site from the determined candidate amino acid residues and predicting the active site.
  • structural data of a target protein or a physiologically active polypeptide is obtained, and the electronic state of the protein or the biologically active polypeptide is calculated based on the obtained structural data.
  • To determine the orbital energy localized in the main chain heavy atom by calculating the electronic state of the protein or biologically active polypeptide by molecular orbital calculation based on the acquired structural data. And a predetermined energy difference
  • the molecular orbital is determined as the peripheral orbit of the frontier orbital, and the orbital energy at which the frontier: and the amino acid residue where the peripheral orbital is distributed, and / or the specified orbital energy exceeds a predetermined value.
  • the molecular orbital z or the amino acid residue where the molecular orbital with relatively high orbital energy is distributed is determined as a candidate amino acid residue for the active site, and the active site is determined from among the determined candidate amino acid residues. Since the active site is selected and predicted, the molecular orbital calculation, which is said to be highly accurate, is used to determine the position of the frontier orbital or the high V of the orbital energy, and the relationship between the position and the reactive site. Since it is applied to peptide systems, highly accurate prediction of active sites can be performed.
  • the active site prediction device, the active site prediction method, and the program Calculation conditions, 1) Generate water molecules around protein or bioactive polypeptide, 2) Place continuous dielectric around protein or bioactive polypeptide, 3) Protein or bioactive polypeptide
  • a calculation condition setting means for setting at least one calculation condition of: setting a dissociable amino acid residue on a surface to an uncharged state and setting a dissociable amino acid embedded therein to a charged state. (Including).
  • molecular orbital calculation in molecular orbital calculation, the following three calculation conditions are used: 1) a water molecule is generated around a protein or a bioactive polypeptide; 2) a protein or a bioactive polypeptide is generated. Place a continuous dielectric around it, 3) Make the dissociable amino acid residues on the surface of the protein or bioactive polypeptide uncharged, and charge the dissociable amino acids buried inside it. Since at least one calculation condition is set, by appropriately setting the three calculation conditions, molecular orbital calculation can be executed efficiently, and the accuracy of active site prediction can be greatly improved. Become like Further, the present invention relates to a recording medium, and the recording medium according to the present invention has the program described above recorded thereon.
  • the program described above can be realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. The same effect can be obtained.
  • a protein interaction information processing apparatus, a protein interaction information processing method, and a program according to the present invention comprise: Structure data acquisition means (structure data acquisition step) for acquiring structure data including data and z or three-dimensional structure data at the time of complex formation; and the structure data acquired by the structure data acquisition means (structure data acquisition step)
  • the information is obtained by the hydrophobic surface specifying means (hydrophobic surface specifying step) for specifying the hydrophobic interaction energy for each amino acid residue constituting the primary structure data
  • the structural data obtaining means structure data obtaining step
  • the electrostatic interaction energy is generated for each amino acid residue constituting the primary structural data.
  • the electrostatic interaction site specifying means for specifying the energy, the hydrophobic interaction energy specified by the hydrophobic surface specifying means (hydrophobic surface specifying step), and the static The interaction is determined by specifying the site of the highly unstable amino acid residue based on the electrostatic interaction energy specified by the electrostatic interaction site specifying means (electrostatic interaction site specifying step).
  • an interaction site identification means for identifying a site.
  • structural data including primary structural data of a plurality of interacting proteins and three-dimensional structural data of a single substance and / or a complex is obtained, and the acquired structure is obtained.
  • the hydrophobic interaction energy is specified for each amino acid residue constituting the primary structure data
  • the electrostatic interaction is performed for each amino acid residue constituting the primary structure data according to the acquired structure data.
  • the interaction site is specified by specifying the energy and the site of highly unstable amino acid residue based on the specified hydrophobic interaction energy and the electrostatic interaction energy. The data makes it easy to identify protein interaction sites.
  • the protein interaction information processing apparatus, the protein interaction information processing method, and the program according to the next invention are the above-described protein interaction information processing apparatus, the protein interaction information processing method, and the program.
  • a solvent-contact surface specifying means for specifying a solvent-contact surface for each amino acid residue constituting the primary structure data.
  • the apparatus further includes (including) the above-mentioned interaction site specifying means (interaction site specifying step), wherein the above-mentioned solvent contact surface specified by the above-mentioned solvent contact surface specifying means (solvent contact surface specifying step), and the above-mentioned hydrophobic surface specifying means.
  • hydrophobic interaction energy specified in the (hydrophobic surface specifying step) and By identifying the site of the amino acid residue having high instability based on the electrostatic interaction energy specified by the electrostatic interaction site specifying means (electrostatic interaction site specifying step), It is characterized by specifying the site of action. .
  • the solvent contact surface is specified for each amino acid residue constituting the primary structure data according to the acquired structure data, and the specified solvent contact surface, hydrophobic interaction,
  • the interaction site is identified by identifying the site of the highly unstable amino acid residue based on the action energy and the electrostatic interaction energy, so if there is structural data for the complex, the protein Can be more accurately and easily identified.
  • the protein interaction information processing apparatus, the protein interaction information processing method, and the program according to the next invention are the above-described protein interaction information processing apparatus, the protein interaction information processing method, and the program.
  • the above specified by the site specifying means (interaction site specifying step)
  • (Candidate protein search step) further comprising (including) the candidate protein searched by the candidate protein search means (candidate protein search step), wherein the primary sequence portion of the partner is an interaction site of the candidate protein Or not.
  • the primary sequence of the partner on the interaction side is identified, and the primary sequence is identified.
  • a candidate protein having a primary structure including a sequence is searched, and for the searched candidate protein, the above-described structure data acquisition means (structure data acquisition step), solvent contact surface identification means (solvent contact surface identification step) ( If there is structural data at the time of the complex), hydrophobic surface identification means (hydrophobic surface identification step), electrostatic interaction site identification means (electrostatic interaction site identification step), ohio, interaction site identification means ( (Interaction site identification step) to confirm whether or not the primary sequence portion of the partner is identified as an interaction site of the candidate protein. Because, it can easily be used to predict the unknown interaction Uninaru.
  • the present invention relates to a recording medium, and the recording medium according to the present invention has the program described above recorded thereon.
  • the program described above can be realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. A similar effect can be obtained.
  • a central concept of the present invention is that a region that is more unstable than other sites in the structure of a protein is more likely to be a binding site. That is, the present invention predicts a binding site by obtaining a locally unstable region by relatively simple calculation.
  • the present invention mainly enables a binding site to be predicted with high accuracy basically from only protein sequence information (however, three-dimensional structure information can be added as necessary.) It is characterized by the two points of being able to perform calculations and comprehensive analysis. .
  • the present invention predicts three-dimensional structure information (space distance between amino acids) from amino acid information of a protein, and predicts an electrostatically unstable portion from three-dimensional structure and charge information, and / or A binding site prediction device, a binding site prediction method, a program, and a record that can predict a binding site and a binding partner by calculating an electrostatic energy when two proteins bind.
  • a method for predicting a binding site uses a method for predicting a binding site between amino acid residues in a three-dimensional structure of a protein or a biologically active polypeptide from amino acid sequence data of the protein or the biologically active polypeptide. The distance data of the amino acids is determined, and the binding site is predicted by identifying an amino acid residue which is electrostatically unstable according to the huge separation data and the charge of each amino acid.
  • spatial distance data between each amino acid residue in the three-dimensional structure of the protein or the biologically active polypeptide is obtained from the amino acid sequence data of the protein or the biologically active polypeptide, and the distance data and The binding site is predicted by identifying the amino acid residue that is electrostatically unstable according to the charge of each amino acid, so that it is electrostatically unstable from the amino acid sequence of the protein or bioactive polypeptide
  • a binding site prediction device, a binding site prediction method, and a program according to the next invention include an amino acid sequence data acquisition unit (amino acid sequence data acquisition step) for acquiring amino acid sequence data of a target protein or a biologically active polypeptide.
  • a spatial distance determining means (spatial distance determining means) for determining a spatial distance between each amino acid residue contained in the amino acid sequence data obtained by the amino acid sequence data obtaining means (amino acid sequence data obtaining step) Step), charge determining means (charge determining step) for determining the charge of each amino acid residue contained in the amino acid sequence data, and each amino acid residue determined by the spatial distance determining means (spatial distance determining step).
  • the energy calculation means for calculating the energy of each amino acid residue according to the charge of each amino acid residue, and the energy calculated by the energy calculation means (energy calculation step).
  • a candidate amino acid residue determining means for determining a candidate amino acid residue to be a site.
  • the amino acid sequence data of a target protein or a physiologically active polypeptide is obtained, and the space between each amino acid residue contained in the obtained amino acid sequence data is obtained. Is determined, the charge of each amino acid residue contained in the amino acid sequence data is determined, and the determined spatial distance between each amino acid residue and each determined amino acid residue are The energy of each amino acid residue is calculated in accordance with the charge and the candidate amino acid residue serving as a binding site is determined in accordance with the calculated energy, so that the amino acid sequence of a protein or a bioactive polypeptide can be statically determined.
  • a binding site predicting apparatus, a binding site predicting method, and a program according to the next invention include an amino acid sequence data obtaining means (amino acid sequence data obtaining method) for obtaining amino acid sequence data of a plurality of target proteins or biologically active polypeptides. Step), a complex structure generating means (complex structure generating step) for generating three-dimensional structure information of a complex in which the plurality of desired proteins or physiologically active polypeptides are bound, and an amino acid sequence data obtaining means (amino acid) The distance in the space between each amino acid residue included in the plurality of amino acid sequence data obtained in the sequence data obtaining step is obtained by the above-mentioned complex structure generating means (the complex structure generating step).
  • a spatial distance determining means (a spatial distance determining step) for determining according to the three-dimensional structure information of the complex;
  • a charge determining means charge determining step) for determining a charge of each amino acid residue contained in a plurality of amino acid sequence data, and a space between each amino acid residue determined by the spatial distance determining means (spatial distance determining step).
  • Energy calculation means (energy calculation step) for calculating the energy of each amino acid residue according to the distance in space and the charge of each amino acid residue determined by the charge determination means (charge determination step)
  • the complex structure generation means changes the binding site of the complex to generate three-dimensional structure information of the complex, and the energy calculation means (energy calculation step) generates each amino acid residue.
  • Energy minimization method to calculate the energy of the group and find the binding site that minimizes the sum of the energies
  • Group determining means candidate amino acid residue determining step).
  • amino acid sequence data of a plurality of target proteins or biologically active polypeptides is obtained, and a three-dimensional structure of a complex in which the target proteins or biologically active polypeptides are bound is obtained. Spatial distance between each amino acid residue contained in multiple amino acid sequence data generated by generating structural information Is determined according to the three-dimensional structure information of the generated complex, the charge of each amino acid residue included in the plurality of amino acid sequence data is determined, and the spatial distance between the determined amino acid residues is determined.
  • the amino acid of a protein or a physiologically active polypeptide is Utilizing the fact that amino acid residues that are likely to be electrostatically unstable from the acid sequence easily become binding sites, it is possible to predict binding sites at high speed and with high accuracy. .
  • a binding site predicting apparatus, a binding site predicting method, and a program according to the next invention comprise amino acid sequence data of a target protein or a biologically active polypeptide, and one or more proteins or biologically active polypeptides as binding candidates.
  • An amino acid sequence data obtaining means for obtaining amino acid sequence data of a peptide (an amino acid sequence data obtaining step); the target protein or the biologically active polypeptide; and the protein or the biologically active polypeptide as the binding candidate
  • the complex structure generating means (complex structure generating step) for generating the three-dimensional structure information of the complex bound to the peptide, and the amino acid sequence data obtaining means (amino acid sequence data obtaining step) are obtained.
  • a spatial distance determining means for determining a distance according to the three-dimensional structure information of the complex generated by the complex structure generating means (complex structure generating step);
  • Charge determining means for determining the charge of each amino acid residue contained in the amino acid sequence data of the binding candidate; and each amino acid residue determined by the spatial distance determining means (spatial distance determining step)
  • Energy calculating means for calculating the energy of each amino acid residue according to the distance in space between them and the charge of each amino acid residue determined by the charge determining means (charge determining step) (Energy calculation step) and the complex structure generation means (complex structure generation step) change the binding site of the complex to generate the three-dimensional structure information of the complex, and the energy calculation means (energy calculation step) Energy minimizing means (energy minimizing step) for calculating the energy of each amino acid residue and calculating the bond position that minimizes the sum of the energy,
  • amino acid sequence data of a protein or a bioactive polypeptide of interest, and amino acid sequence data of one or more proteins or bioactive polypeptides as binding candidates are obtained.
  • the spatial distance between each amino acid residue contained in the sequence data and the amino acid sequence data of the binding candidate is determined according to the three-dimensional structure information of the generated complex, and the desired amino acid sequence data and the amino sequence of the binding candidate are determined.
  • the charge of each amino acid residue included in the data is determined, and the determined spatial distance between each amino acid residue and each determined amino acid residue.
  • the energy of each amino acid residue is calculated according to the charge, the steric structure information of the complex is generated by changing the binding site for the complex, the energy of each amino acid residue is calculated, and the sum of the energies is minimized.
  • the binding site having the binding site with the minimum total energy is determined. Therefore, the amino acids of the protein or the bioactive polypeptide are determined.
  • the present invention relates to a recording medium, the recording medium according to the present invention, The program described above is recorded.
  • the program described above can be realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. Similar effects can be obtained.
  • a protein structure optimizing apparatus comprises: a coordinate data obtaining means (coordinate data obtaining means) for obtaining coordinate data of a protein; Step), a neighborhood amino acid residue group extracting means for extracting coordinates of neighborhood amino acid residues within a predetermined distance from a specific amino acid residue with respect to the coordinate data of the protein.
  • cap addition means for adding a capping substituent to the cut portion of the adjacent amino acid residue group
  • cap addition means cap addition means
  • the charge calculating means charge calculating step) for calculating the total charge of the neighboring amino acid residue group to which the cap substituent has been added, and the capping substituent is formed by the cap adding means (cap adding step). Structural optimization is performed on the added neighboring amino acid residue group by performing structure optimization on the atomic coordinates of the specific amino acid residue using the charge calculated by the charge calculation means (charge calculation step).
  • Structure optimization step and the above optimized by the structure optimization means (structure optimization step) Child coordinates, characterized by comprising a atomic coordinates replacing means (atomic coordinates substitution step) to replace the corresponding atomic coordinates of the coordinate data of the protein (including).
  • coordinate data of a protein is obtained, and coordinates of a group of neighboring amino acid residues included within a predetermined distance from a specific amino acid residue are extracted from the coordinate data of the protein.
  • a capping substituent is added to the cut portion of the neighboring amino acid residue group, and the overall charge of the neighboring amino acid residue group to which the capping substituent is added is calculated.
  • Neighbor key added for the amino acid residue group the structure optimization is performed on the atomic coordinates of a specific amino acid residue using the calculated charges, and the optimized atomic coordinates are compared with the corresponding atomic coordinates on the protein coordinate data. Because of the substitution, it is possible to determine the hydrogen position and eliminate the packing problem using practical computational resources.
  • the speed of the optimization processing can be increased without modifying the existing calculation program. That is, the present apparatus can be executed using an input / output file of an existing molecular orbital calculation program or molecular mechanics calculation program. However, it is possible to incorporate the algorithm of this device into existing molecular orbital calculation programs and molecular mechanics calculation programs.
  • the device, method, and program allow for optimization of protein structure that takes into account solvent effects not possible with conventional methods.
  • the protein structure optimizing apparatus, the protein structure optimizing method, and the program according to the next invention are the above-described protein structure optimizing apparatus, the protein structure optimizing method, and the program, wherein the cap substituent is: It is characterized by being a hydrogen atom (H) or a methyl group (CH 3 ).
  • the cap substituent is a hydrogen atom (H) or a methyl group (CH 3 ), so the coordinates of the neighboring amino acid residues were mechanically cut off. It is possible to easily solve the problem that the radicals become radicals and cause inconvenience in calculations.
  • the protein structure optimizing device, the protein structure optimizing method, and the program according to the next invention are the above-described protein structure optimizing device, the protein structure optimizing method, and the program
  • the means (a step of extracting a group of neighboring amino acid residues) includes, if the extracted group of neighboring amino acid residues contains cysteine (CYS), a disulfide bond with the cysteine (CYS); Included in neighboring amino acid residues It is characterized in that it is determined whether or not another cysteine (CYS) exists, and if the other cysteine (CYS) exists, the other cysteine (CYS) is also added to the neighboring amino acid residue group.
  • the nearby amino acid residue group extracting means (neighboring amino acid residue group extracting step) is used when the extracted nearby amino acid residue group contains cysteine (CYS). It is determined whether there is another cysteine (CYS) that has a disulfide bond with the cysteine (CYS) and is not included in the neighboring amino acid residue group. If present, the other cysteine (CYS) is also added to the neighboring amino acid residue group, so that the structure can be optimized in consideration of the disulfide bond between the cysteines.
  • cysteine cysteine
  • the present invention relates to a recording medium, and the recording medium according to the present invention has the program described above recorded thereon.
  • the program described above can be realized by using a computer by causing a computer to read and execute the program recorded on the recording medium. Similar effects can be obtained.
  • FIG. 1 is a principle configuration diagram showing a basic principle of the present invention
  • FIG. 2 is a block diagram showing an example of a configuration of the present system to which the present invention is applied
  • FIG. 3 is a prediction result database.
  • FIG. 4 is a diagram showing an example of information stored in 1 ⁇ 6a
  • FIG. 4 is a flowchart showing an example of main processing of the present system in the present embodiment
  • FIG. 6 is a flowchart illustrating an example of a secondary structure data acquisition process of the system.
  • FIG. 6 is a flowchart illustrating an example of a frustration execution process executed by the frustration calculation unit 102e of the present system.
  • FIG. 1 is a principle configuration diagram showing a basic principle of the present invention
  • FIG. 2 is a block diagram showing an example of a configuration of the present system to which the present invention is applied
  • FIG. 3 is a prediction result database.
  • FIG. 4 is a diagram showing an example of information stored in 1 ⁇ 6a
  • FIG. 4 is a flow
  • FIG. 7 is a diagram showing an example of a display screen of the interaction site prediction result displayed on the output device 114 of the interaction site prediction device 100
  • FIG. FIG. 9 is a diagram showing an example of a processing result output screen of the present embodiment displayed on the monitor of the action site prediction device 100.
  • FIG. 9 shows a known docking site where the frustration is large due to simulation.
  • FIG. 10 is a diagram for confirming whether the predicted site actually functions as an interaction site.
  • FIG. 10 is a principle configuration diagram showing the basic principle of the present invention.
  • FIG. 12 is a block diagram illustrating an example of a configuration of the present system to which the present invention is applied.
  • FIG. 12 is a block diagram illustrating an example of a configuration of a frontier orbit calculation unit 1102a.
  • FIG. 14 is a flowchart showing an example of a main process of the present system in the present embodiment.
  • FIG. 15 is an example of a molecular orbit calculation process of the present system in the present embodiment.
  • FIG. 16 is a flowchart showing an example of a candidate amino acid residue determination process using the frontier trajectory and peripheral trajectories of the present system in the present embodiment.
  • FIG. 17 is a flowchart showing the present embodiment.
  • FIG. 18 is a flowchart illustrating an example of a process of determining information on the assignment of each molecular orbital to an amino acid in the system according to the embodiment.
  • FIG. 18 is a flowchart illustrating an example of a candidate amino acid residue comparison process of the system according to the embodiment.
  • FIG. 19 shows an example of the process of determining candidate amino acid residues based on orbital energies localized in heavy atoms in the main chain of the present system in the present embodiment.
  • FIG. 20 is a diagram showing an example of a calculation result obtained by molecular orbital calculation
  • FIG. 21 is a diagram showing where a candidate amino acid residue exists in a three-dimensional structure of a protein.
  • FIG. 22 is a diagram showing an example of a display screen for confirming whether the calculation is performed.
  • FIG. 22 is a diagram showing an example of calculation results obtained by molecular orbital calculation.
  • FIG. 19 shows an example of the process of determining candidate amino acid residues based on orbital energies localized in heavy atoms in the main chain of the present system in the present embodiment.
  • FIG. 20 is a diagram showing an example of a calculation result obtained by molecular orbital calculation
  • FIG. 24 is a chart showing the amino acid residues in which the frontier orbitals of ribonuclease T1 are distributed.
  • FIG. 24 shows the orbital energies of the molecular orbitals distributed in the main chain nitrogen atoms in Example 1 as the amino acid residue numbers.
  • FIG. 25 shows that the orbital energy is high in the first embodiment.
  • FIG. 26 is a table showing extracted amino acid residues and orbital energies.
  • FIG. 26 shows candidate amino acid residues based on the frontier orbitals shown in FIG. 23 in Example 1 and FIGS. 24 and 25.
  • FIG. 27 is a chart in which common portions of amino acid residues captured by the orbital energies of main chain atoms have been extracted.FIG.
  • FIG. 27 is a chart showing amino acid residues in which the frontier orbitals of liponuclease A are distributed in Example 2.
  • FIG. 28 is a diagram in which orbital energies of molecular orbitals distributed in the main chain nitrogen atoms in Example 2 are plotted against amino acid residue numbers
  • FIG. FIG. 30 is a table in which amino acid residues having high orbital energies and orbital energies are extracted in FIG. 2.
  • FIG. 30 shows candidate amino acid residues based on the frontier orbitals shown in FIG.
  • FIG. 28 is a table in which common portions of candidate amino acid residues are extracted based on the orbital energies of the main chain atoms shown in FIGS. 28 and 29, and
  • FIG. 31 is a principle configuration diagram showing the basic principle of the present invention.
  • FIG. 28 is a diagram in which orbital energies of molecular orbitals distributed in the main chain nitrogen atoms in Example 2 are plotted against amino acid residue numbers
  • FIG. 30 is a table in which amino acid residues having high orbital
  • FIG. 32 is a block diagram showing an example of a configuration of the present system to which the present invention is applied.
  • FIG. 33 is a flowchart showing an example of main processing of the present system in the present embodiment.
  • FIG. 35 is a flowchart showing an example of the solvent contact surface specifying process of the present system in the present embodiment.
  • FIG. 35 is a flowchart showing an example of the hydrophobic surface specifying process of the present system in the present embodiment.
  • FIG. 37 is a flowchart showing an example of an electrostatic interaction site specifying process of the present system in the present embodiment.
  • FIG. 37 is an interactive site specifying process of the present system in the present embodiment.
  • FIG. 38 is a flowchart showing an example of an interaction site prediction process of the present system in the present embodiment.
  • FIG. 10 is a processing diagram in which the solvent contact area difference ⁇ S of barnase is calculated for each amino acid residue based on the crystal structure of the barnase-barstar complex by the processing of the solvent contact surface identification unit 102b.
  • Fig. 40 shows the protein interaction information processing device. 100 The hydrophobic interaction energy is calculated for each amino acid residue for barnase based on the crystal structure of barnase by processing the hydrophobic surface identification unit 102c.
  • FIG. 41 shows that the protein interaction information processing apparatus 100 performs static processing for each amino acid residue of barnase based on the crystal structure of barnase alone by the processing of the electrostatic interaction identification unit 102d.
  • FIG. 10 is a processing diagram in which the solvent contact area difference ⁇ S of barnase is calculated for each amino acid residue based on the crystal structure of the barnase-barstar complex by the processing of the solvent contact surface identification unit 102b.
  • Fig. 40 shows the protein interaction information processing device. 100 The hydrophobic interaction energy
  • FIG. 42 is a diagram showing a calculation result of the electric interaction energy.
  • FIG. 42 shows a protein interaction information processing device 100 0 force and a solvent contact surface identification unit 102 b, and based on the crystal structure of barnase-barstar complex
  • FIG. 43 is a processing diagram showing a calculation of a difference AS in a solvent contact area for each amino acid residue
  • FIG. 43 shows a protein interaction information processing apparatus 100 force.
  • FIG. 44 is a processing diagram in which hydrophobic interaction energy was calculated for each amino acid residue for barstar
  • FIG. 44 shows that the protein interaction information processing device 100
  • Fig. 45 is a processing diagram of calculating the electrostatic interaction energy for each amino acid residue for barstar based on the crystal structure of barstar alone, and Fig.
  • FIG. 46 is a processing diagram in which a difference ⁇ S of a solvent contact area for each amino acid residue is calculated for Ribonuclease based on the crystal structure of the Ribonclease e-inhibitor complex by the processing of the specific part 102b.
  • the figure shows that the protein interaction information processing device 100, based on the crystal structure of Ribo nuclease alone by the treatment of the hydrophobic surface identification unit 102c, has a hydrophobic interaction for each amino acid residue for Ribo nuclease.
  • Fig. 47 is a processing diagram in which the action energy is calculated. Fig.
  • FIG. 47 shows that the protein interaction information processing device 100 force and the electrostatic interaction identification unit 102d process the Ribo nuclease based on the crystal structure of the Ribo nuclease alone.
  • FIG. 48 is a processing diagram in which the electrostatic interaction energy is calculated for each acid residue.
  • FIG. 48 shows that the protein interaction information processing device 100 processes the Ribonuclease—inh ibitor
  • FIG. 49 is a processing diagram in which the difference ⁇ S in the solvent contact area for each amino acid residue is calculated for each inh ibitor based on the crystal structure of the complex.
  • FIG. 50 is a processing diagram in which the hydrophobic interaction energy is calculated for each amino acid residue for the inh ibitor based on the crystal structure of the inhibitor alone by the processing of the information processing device 100 and the hydrophobic surface identification unit 102c.
  • the protein interaction information processing apparatus 100 calculates the electrostatic interaction energy for each amino acid residue for the inh ibitor based on the crystal structure of the inhibitor alone by the processing of the electrostatic interaction specifying unit 102d.
  • FIG. 51 is a processing diagram.
  • FIG. 51 is a diagram for explaining the concept of predicting the binding site of one protein from the amino acid sequence information of one protein according to the present invention.
  • FIG. 53 is a diagram for explaining the concept of predicting a binding site when a complex is formed by a plurality of proteins based on the amino acid sequence information of the proteins.
  • FIG. 53 is a diagram illustrating the present system to which the present invention is applied.
  • Composition FIG. 54 is a block diagram showing an example.
  • FIG. 54 is a block diagram showing an example of the configuration of a spatial distance determination unit 3102b to which the present invention is applied.
  • FIG. FIG. 56 is a block diagram showing an example of the configuration of the calculation unit 3102d.
  • FIG. 56 is a diagram showing the concept of the high-speed calculation method of the present invention.
  • FIG. 58 is a view for explaining the concept of the residue of interest, and FIG.
  • Fig. 60 is a diagram showing an example of the energy and the like of the candidate amino acid residue as a result of the treatment.
  • Fig. 61 is a diagram showing an example of a case where unstable portions on the three-dimensional structure are clustered.
  • Figure 62 shows a composite using docking simulation
  • FIG. 63 is a diagram showing the concept when a structure is generated.
  • FIG. 63 is an example of a diagram plotting the total energy when each amino acid residue of protein A and protein B is a binding residue.
  • Fig. 64 is a diagram showing the relationship between the distance in sequence and the distance in space of two glutamic acids, and Fig.
  • FIG. 65 plots the energy of each amino acid residue of liponuclease A against the amino acid residue number.
  • FIG. 66 is a table in which ribonuclease A amino acid residues having energies of 0 or more are listed as possible binding sites in a table
  • FIG. 67 is a diagram illustrating the acetylcholine stored in the PDB. W
  • FIG. 68 is a diagram showing a part of the three-dimensional structure information data of phosphorus esterase inhibitor.
  • FIG. 68 is a diagram showing the energy of acetylcholine esterase inhibitor obtained according to the present invention.
  • FIG. 69 is a diagram showing acetylcholine Fig. 10 shows the results of taking out ten binding inhibitors with an energy of 0 or more as potential binding sites and experimentally examining whether or not the binding sites are actually binding sites. Then, the binding number of huntingtin-associated protein integral protein was determined.
  • the amino acid residue number of the 5-position was taken, and the amino acid residue number of the binding site of nitricoxidesynthase 2A was taken vertically to form a complex at each binding site.
  • FIG. 71 is a diagram showing contours of the sum of the energy at the time, and FIG. 71 is a histogram of the interaction energy of each candidate protein and the number of genes.
  • FIG. 73 is a flowchart showing the basic principle of the present invention.
  • FIG. 73 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and
  • FIG. 74 is a block diagram showing the present system in the present embodiment.
  • FIG. 75 is a flowchart showing an example of a main process.
  • FIG. 75 is a diagram showing an example of protein coordinate data.
  • FIG. 76 is a diagram showing a cap when adding a hydrogen atom to a cut surface in the present embodiment.
  • FIG. 77 is a flowchart showing an example of the addition process.
  • FIG. 77 is a diagram showing the concept of the original coordinates and the coordinates after adding the cap substituent
  • FIG. 78 is a diagram showing hydrogen at the cut end in the present embodiment.
  • FIG. 79 is a flowchart showing an example of a cap adding process in the case of adding an atom.
  • FIG. 79 is a diagram showing the concept of the original coordinates and the coordinates after adding a cap substituent, and FIG. ,
  • This implementation Fig. 81 is a flowchart showing an example of cap addition processing in the case where a methyl group is added to the cut in the embodiment.
  • Fig. 81 is a diagram showing the concept of the original coordinates and the coordinates after the cap substituent is added. Yes, FIG.
  • FIG. 82 is a flowchart showing an example of a cap addition process in the case where a methyl group is added to a cut face in the present embodiment, and FIG. 83 shows a diagram after the original coordinates and the cap substituent are added.
  • Fig. 84 is a diagram showing the concept of coordinates.
  • Fig. 84 explains the concept of determining the amino acid type by the three-letter notation of PDB format data (characters in 18-20 columns).
  • Fig. 85 shows an example of setting an optimization flag for the hydrogen atom of amino acid residue i.
  • Fig. 86 shows an example of optimization for the hydrogen atom and side chain atom of amino acid residue i.
  • FIG. 87 is a diagram showing an example of setting a flag.
  • FIG. 87 is a diagram showing an example of an input file of MOPAC 2000.
  • FIG. 88 is an output showing a result of a structure optimization process by MOP AC 20000.
  • Fig. 89 is a diagram showing an example of a file.
  • Fig. 89 is a diagram showing a calculation result when the hydrogen structure is optimized by the conventional optimization method (MOZ YME method + BFGS method) and the method of the present invention.
  • FIG. 90 is a diagram showing calculation results when the side chain structure is optimized by the conventional optimization method (MOZYME method + BFGS method) and the method of the present invention.
  • FIG. 1 is a principle configuration diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features.
  • a user inputs target sequence data 10, which is primary sequence information of a target protein, to the interaction site prediction device of the present invention.
  • the input of the target sequence data 10 may be performed, for example, by the user selecting primary sequence information registered in an external database such as SWISS-PROT, PIR, TrEMBL, or the like.
  • desired primary array information may be directly input.
  • the interaction site prediction apparatus of the present invention provides a secondary structure prediction program for predicting the secondary structure of a protein from the primary sequence information of the protein.
  • the secondary structure programs 20 a to 20 d are, for example, Ch ou— Perform secondary structure prediction simulations using the method of Fasman, the method using neuralnetork, the method using 1 inearstatistics ⁇ 3 ⁇ 4 :, the method using nearest neighbor method, and so on.
  • the interaction site prediction apparatus of the present invention compares the secondary structure prediction results 30a to 30d of the respective secondary structure prediction programs 20a to 20d (60). That is, the execution results of each prediction program corresponding to the target sequence data 61 are juxtaposed and compared (63 to 66).
  • the interaction site prediction device of the present invention calculates the frustration of the local portion of the primary sequence information of the target protein based on the comparison result (70). That is, a local part where a different secondary structure is predicted in each prediction result data (63 to 66) is extracted from the comparison result, and the frustration of that part is calculated.
  • Existing secondary structure prediction programs 20a to 20d basically make predictions by looking at some local sequences in the primary sequence information, but the secondary structure is related to the overall structure of the protein. Since the final decision is made, secondary structure prediction results often deviate at sites where consistency between the whole and local parts is not ensured, that is, at local sites where the frustration is large. Therefore, it can be assumed that the frustration is large for the local part where the prediction result is incorrect in a plurality of programs.
  • the frustration calculation method may be, for example, to increase or decrease the frustration according to the number of secondary structure prediction programs that output different prediction result data, or to calculate an average value of certainty factor for each structure of different prediction results.
  • the amount of frustration may be increased or decreased according to the variance value or the fluctuating value. May be calculated.
  • the interaction site prediction apparatus of the present invention predicts the interaction site of the target protein based on the calculated local fraction frustration (80). sand That is, for example, a local portion (67) where frustration exceeding a certain threshold value exists is predicted as an interaction site.
  • the interaction site prediction apparatus of the present invention acquires secondary structure data 40 of the target protein when the secondary structure data is registered in an external database such as a PDB or SCOP. Used in the comparison of the prediction results (60). That is, the secondary structure data 62 actually taken by the target protein is compared with the prediction result data 63 to 66 of the prediction program.
  • the prediction results of various secondary structure prediction methods are used. By looking at the difference between this and the actual structure, it is possible to find a more localized local site (a site with a high probability of being an interaction site). For example, the frustration may be increased or decreased according to the number of secondary structure prediction programs that output prediction result data different from the actual secondary structure data 62.
  • the interaction site prediction apparatus of the present invention sets confidence information 50 indicating confidence for the secondary structure prediction result data 30 a to 30 d of the secondary structure prediction program 20 a to 20 d. I do. That is, the simulation accuracy of the secondary structure prediction programs 20a to 20d is set based on actual secondary structure data and the like.
  • the interaction site prediction device of the present invention calculates the frustration of the local part based on the set certainty factor information and the comparison result. In other words, by increasing the weight on the secondary structure prediction result data by a program with high confidence information (that is, high simulation accuracy), the confidence in the simulation result can be reflected in the frustration calculation. .
  • FIG. 2 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only a portion related to the present invention in the configuration.
  • This system is roughly composed of an interaction site prediction device 100 and an external system 200 that provides an external database for sequence information and three-dimensional structure, and an external program for homology search and secondary structure prediction. 0 are communicably connected via a network 300.
  • the network 300 has a function of interconnecting the interaction site prediction device 100 and the external system 200, and is, for example, the Internet.
  • the external system 200 is interconnected with the interaction site prediction device 100 via the network 300, and provides the user with an external database on sequence information, three-dimensional structure, and the like, and It has a function to provide a website for executing external programs such as homology search, motif search, and secondary structure prediction.
  • the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is generally configured by an information processing device such as a commercially available workstation or personal computer, and its attached devices. You may do it.
  • the functions of the external system 200 are controlled by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200, and a program for controlling them. Is achieved.
  • the interaction site prediction device 100 generally includes a control unit 102 such as a CPU that comprehensively controls the entire interaction site prediction device 100, and a router connected to a communication line or the like.
  • Communication interface unit 104 connected to communication devices (not shown) such as, input / output control interface unit 108 connected to input device 112 and output device 114, and various types It has a storage unit 106 for storing databases and tables (prediction result database 106a to protein structure database 106c), and these units can communicate via any communication channel It is connected to the.
  • this interaction site prediction device 100 It is communicably connected to the network 300 via a communication device such as a personal computer and a wired or wireless communication line such as a dedicated line.
  • various databases and tables stored in the storage unit 106 are storage means such as a fixed disk device, and are used for various processing. Stores various program tables and files for file database base web pages used for the application.
  • the prediction result database 106a is a prediction result information storage unit that stores information on a prediction result of the secondary structure prediction program and the like.
  • FIG. 3 is a diagram showing an example of information stored in the prediction result database 106a.
  • the information stored in the prediction result database 106a includes target sequence data that is primary sequence information (amino acid sequence information) of the target protein and target sequence data obtained from the protein structure database.
  • the secondary structure data and the prediction result data of each secondary structure prediction program are associated with each other.
  • the certainty information database 106 b is a prediction result information storage unit that stores certainty information indicating the certainty for the secondary structure prediction result data of the secondary structure prediction program. For example, if the standard value of the accuracy of the simulation result (for example, the simulation accuracy, which is the coincidence rate between the secondary structure prediction result and the actual secondary structure data is 60%) is set to 1, If the accuracy is higher than the value, the confidence value may be increased according to the accuracy, and if the accuracy is lower than the standard value, the confidence value may be decreased according to the accuracy. Furthermore, the confidence factor may be set for each secondary structure program, each structure, and each amino acid in each sequence.
  • the protein structure database 106c is a database that stores the three-dimensional structure data of proteins.
  • the protein structure database 106 c may be an external protein structure database accessed via the Internet, and may copy these databases, store original sequence information, It may be an in-house database created by adding annotation information or the like.
  • a communication control interface unit 104 controls communication between the interaction site prediction device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface 104 has a function of communicating data with another terminal via a communication line.
  • an input / output control interface unit 108 controls the input device 112 and the output device 114.
  • a speaker can be used as the output device 114 (the output device is described as a monitor in the following).
  • the input device 112 a keyboard, a mouse, a microphone, and the like can be used.
  • the monitor also realizes the pointing device function in cooperation with the mouse.
  • the control unit 102 includes a control program such as an operating system (OS), a program that defines various processing procedures, and an internal memory for storing required data. Information processing for performing various processes is performed by these programs and the like.
  • the control unit 102 is functionally conceptually composed of a target sequence input unit 1 ⁇ 2a, a secondary structure prediction program execution unit 102b, a secondary structure prediction program 102c, and a prediction result comparison unit 102 d, frustration calculation unit 102 e, interaction site prediction unit 102 f, secondary structure data acquisition unit 102 g, and confidence information setting unit 102 h I have.
  • OS operating system
  • the control unit 102 is functionally conceptually composed of a target sequence input unit 1 ⁇ 2a, a secondary structure prediction program execution unit 102b, a secondary structure prediction program 102c, and a prediction result comparison unit 102 d, frustration calculation unit 102 e, interaction site prediction unit 102 f, secondary structure data acquisition unit 102 g, and confidence information setting unit 102 h I have.
  • the target sequence input section 102a is an input means for inputting primary sequence information (target sequence data) of the target protein.
  • the secondary structure prediction program execution unit 102b is input to the secondary structure prediction program by the input means. This is a means for executing a secondary structure prediction program that executes a secondary structure prediction simulation of the obtained primary sequence information (target sequence data).
  • the secondary structure prediction program 102c is a secondary structure prediction program for predicting the secondary structure of a protein from the primary sequence information of the protein.
  • the prediction result comparison unit 102 d includes a prediction result comparison unit that compares the secondary structure prediction results of the secondary structure prediction program, and a secondary structure prediction result and the secondary structure data of the secondary structure prediction program. This is a prediction result comparison unit that compares the secondary structure data acquired by the acquisition unit. Further, the frustration calculation unit 102 e calculates a frustration of a local portion of the primary sequence information (target sequence data) of the target protein based on the comparison result by the prediction result comparing means. Calculating means, and frustration calculating means for calculating frustration of the local part based on the certainty information and the comparison result set by the certainty information setting means.
  • the interaction site prediction unit 102f is an interaction site prediction unit that predicts an interaction site of a target protein based on the local fractional frustration calculated by the brass trace calculation unit.
  • the secondary structure data acquisition unit 102 g is a secondary structure data acquisition unit that acquires secondary structure data of a target protein.
  • the certainty information setting unit 102h is certainty information setting means for setting certainty information indicating certainty with respect to the secondary structure prediction result of the secondary structure prediction program. The details of the processing performed by these units will be described later.
  • FIG. 4 is a flowchart showing an example of the main processing of the present system in the present embodiment.
  • the interaction site prediction apparatus 100 allows the user to input the primary sequence information (target sequence data) of the target protein by the processing of the target sequence input unit 102a (step SA). — 1)
  • the interaction site prediction apparatus 100 acquires the secondary structure data of the target sequence data input by the user through the processing of the secondary structure data acquiring unit 102g (step S A-2).
  • FIG. 5 is a flowchart illustrating an example of a secondary structure data acquisition process of the present system in the present embodiment.
  • the secondary structure data acquisition unit 102 g determines whether or not the target sequence data is registered with reference to the protein structure database 106 c (step SB-1).
  • the secondary structure data acquisition unit 102g transmits the protein structure database 106
  • the secondary structure data of the target sequence data is obtained from c and stored in a predetermined storage area of the prediction result database 106a (step SB-2).
  • step SB-1 if the target sequence data is not registered in the protein structure database 106c, the secondary structure data acquisition unit 102g determines the protein having a sequence similar to the target sequence data. It is determined whether or not the secondary structure data exists in the protein structure database 106c (step SB-3).
  • the secondary structure data obtaining unit 102 g uses, for example, a program for determining homology between sequences to obtain the target sequence data and the known structure registered in the protein structure database 106 c. By comparing with sequence data corresponding to the target protein, it is determined whether sequence data having high homology exists (which may correspond to a part of the target sequence data).
  • step SB-3 if the secondary structure data of the protein having a sequence similar to the target sequence data is present in the protein structure database 106c, the secondary structure data acquisition unit 102g The secondary structure data is stored in a predetermined storage area of the prediction result database 106a (step SB-4).
  • the secondary structure data for the part where the secondary structure data exists is stored in the prediction result database 106a.
  • step SB-3 if the secondary structure data of the protein having a sequence similar to the target sequence data does not exist in the protein structure database 106c, the secondary structure data acquisition processing ends.
  • the interaction site prediction device 100 by the processing of the secondary structure prediction program execution unit 102 b, converts the target sequence data into one or more secondary structure prediction programs 1. 0 2 c is executed (step SA-3).
  • the secondary structure prediction program execution unit 102b for example, converts the target sequence data into a predetermined format or adds predetermined header information to the target sequence data, After matching the input format of each secondary structure prediction program 102c, the secondary structure prediction program 102c is executed.
  • the secondary structure prediction program 102 c may be a program existing inside the interaction site prediction device 100, and may be executed remotely via the network 300. It may be an external program of the external system 200 which can be used.
  • the secondary structure prediction program execution unit 102b stores the secondary structure prediction result, which is the simulation result of each secondary structure prediction program 102c, in a predetermined storage in the prediction result database 106a. Save to area (step SA-4).
  • the interaction site prediction device 100 executes each secondary structure prediction program 1002c for the target sequence data stored in the prediction result database 106a.
  • Compare the secondary structure prediction results step SA-5). That is, the prediction result comparison unit 102 d
  • each prediction result from the beginning to the end of the target sequence data is compared.
  • step SA-2 if the secondary structure prediction program execution unit 102b can acquire the secondary structure data corresponding to the target sequence data, that is, if the prediction result database 106a has the target sequence data If the secondary structure data of the secondary structure is stored, the secondary structure data is compared with the secondary structure prediction result of each secondary structure prediction program 102c.
  • FIG. 6 is a flowchart illustrating an example of the frustration execution process executed by the frustration calculation unit 102 e of the present system.
  • the method of calculating the frustration score by the frustration calculation unit 102 e is, for example, that the results differ for the local part where the secondary structure prediction program outputs different secondary structure prediction results.
  • the score may be increased or decreased according to the number of secondary structure prediction programs, or the frustration may be increased or decreased according to the mean or variance of the confidence in each structure of different prediction results.
  • the amino acid sequence is obtained as the amount of energies by using a method such as molecular mechanics or molecular dynamics, and the amount of energies is calculated using the amount of energies.
  • a rating may be calculated (step SC-1).
  • the frustration calculation unit 102 e may calculate a high frustration score for a part where the secondary structure data and the secondary structure prediction result of the prediction program are different (step SC— 2). For example, the score may be reduced according to the number of secondary structure prediction programs that output secondary structure prediction results different from the secondary structure data.
  • the frustration calculation unit 102 e refers to the certainty factor information database 106 b and stores each of the two stored in advance by the processing of the certainty factor information setting unit 102 h.
  • the confidence factor information of the next structure prediction program 102c may be obtained, and the frustration score may be calculated based on the confidence factor information (step SC-3).
  • the frustration calculation unit 102 e assigns a high weight to the secondary structure prediction result of the secondary structure prediction program 102 c with high simulation accuracy, and calculates the frustration score.
  • the certainty factor information setting unit 102h compares the secondary structure prediction result of each secondary structure prediction program 102c with the secondary structure data, and compares each secondary structure prediction program 102 Calculate the accuracy (matching rate) of the secondary structure prediction result of c. Then, the confidence information setting unit 102h sets the average value of the accuracy of each secondary structure prediction program 102c as standard confidence information (for example, 1), and sets the accuracy equal to or higher than the average value. For, a value higher than the standard confidence information (for example, a number greater than 1) is calculated, and for accuracy below the average value, a value lower than the standard confidence information (for example, a number less than 1) is calculated. The calculated value is stored in a predetermined storage area of the certainty factor information database 106b.
  • the confidence information setting unit 102h may set the confidence information of each secondary structure prediction program 102c for each amino acid (residue) in each sequence. That is, the confidence information of the secondary structure prediction program 102c may be set for each amino acid in the sequence with respect to the sequence prediction result by each secondary structure prediction program 102c (for example, the sequence For the first amino acid in the program A, the confidence information for the paraffin structure is 1.5, the confidence information for the 3 structure is 0.7, and the confidence information for the other structures is 1. 1 etc.).
  • the certainty factor information setting unit 102h may set the certainty factor information of each secondary structure prediction program 102c for each structure (a structure, / 3 structure, etc.). In other words, some secondary structure prediction programs 102 c have high or low accuracy for a specific structure, so the confidence of the secondary structure prediction program 102 c for each structure is high. Degree information (for example, program A The confidence information of the structure is 1.5,] the confidence information of the three structures is 0.7, and the confidence information of the other structures is 1.1).
  • the interaction site prediction device 100 uses the interaction site prediction unit 102 f to process the local portion that becomes the interaction site in the target sequence data based on the calculated frustration score of the local portion. (Step SA-7). That is, the interaction site prediction unit 102 f predicts, for example, a local portion that is a frustration score exceeding a certain threshold value as an interaction site. Next, the interaction site prediction device 100 outputs the result of the prediction of the interaction site of the sequence data to the output device 114 (step S A-8).
  • FIG. 7 is a diagram showing an example of a display screen of the interaction site prediction result displayed on the output device 114 of the interaction site prediction device 100.
  • the display screen of the interaction site prediction result includes, for example, a display area MA-1 of the sequence information of the target sequence data, display areas MA-2 and MA-2 of the local portion predicted as the interaction site. 3.
  • programs 1 and 2 were used for the amino acid sequence of mammalian adenylate cyclase (Mamma ian Adenyl 1 y 1 Cy clase) (PDB ID: 1 CJK) (hereinafter referred to as “MAC”).
  • PDB ID: 1 CJK mammalian adenylate cyclase
  • FIG. 8 is a diagram showing an example of a processing result output screen of the present embodiment displayed on the monitor of the interaction site prediction device 100.
  • the processing result output screen shows, for example, the confidence level when the amino acid sequence of the MAC has a strand structure.
  • the display area of the graph is MB-1, the amino acid sequence of the MAC has an ⁇ -helix structure.
  • It is configured to include the display area MB-7 of the secondary structure prediction result of Program 2.
  • the frustration was calculated using two programs that performed different secondary structure predictions, and whose sequences were relatively long and the confidence of each prediction result was relatively high. Chillon is set large.
  • FIG. 9 is a diagram for confirming whether a site predicted to be a portion having a large frustration by a known docking simulation actually functions as an interaction site.
  • Fig. 9 the three-dimensional structure predicted for MAC is described in a space-filling model (sac e f i l l). The areas with large frustration are displayed in dark colors.
  • Fig. 9 other proteins that form a complex with the MAC are shown in a wire model (wireframe). As shown in Figure 9, high frustration sites are relatively close to other proteins, indicating a high probability that these sites or a portion of the contiguous sequence are interacting sites. ing.
  • interaction site prediction device 100 performs the interaction site prediction in a stand-alone form has been described as an example.
  • An interaction site prediction may be performed in response to a request from a client terminal formed of a housing, and the prediction result may be returned to the client terminal.
  • all or a part of the processes described as being performed automatically can be manually performed, or the processes described as being performed automatically are described. All or a part of the processing can be automatically performed by a known method.
  • each processing function performed by the control unit all or any part thereof is replaced with a CPU (Central Processing Unit). It can be realized by a program interpreted and executed by the CPU, or it can be realized as hardware by wired logic. The program is recorded on a recording medium to be described later, and is mechanically read by the interaction site prediction device 100 as necessary.
  • CPU Central Processing Unit
  • This program may be recorded in an application program server connected to the interaction site prediction device 100 via an arbitrary network, and all or a part of the program may be downloaded as needed. It is possible.
  • Various databases and the like stored in the storage unit 106 include a memory device such as a RAM and a ROM, a fixed disk device such as a hard disk, and the like.
  • Storage means for flexible disk, optical disk, etc., used for various processing and website provision Stores various programs such as staples and finale database webpage files.
  • the interaction site prediction device 100 connects a peripheral device such as a printer, a monitor, and an image scanner to an information processing device such as a known personal computer, an information processing terminal such as a workstation, and the like. It may be realized by implementing software (including programs, data, and the like) for realizing the method of the present invention.
  • each database may be independently configured as an independent database device, and the processing may be realized using CGI (Common Gat ewa y Inte rfa ce).
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • the “recording medium” refers to any “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EE PROM, a CD-ROM, an MO, a DVD, and various computer systems. Any “fixed physical medium” such as ROM, RAM, HD, etc., which is built-in the communication line or carrier wave when transmitting programs via a network represented by LAN ⁇ WAN or the Internet. In this way, the term "communication medium” that holds programs for a short period of time is included.
  • a “program” is a data processing method described in any language or description method, regardless of the format of source code or binary code. Note that the “program” is not necessarily limited to a single configuration, but may be distributed as a plurality of modules / libraries, or ⁇ S (Opera t ing
  • System that achieves its function in cooperation with a separate program represented by System.
  • the recording medium is read by each device described in the embodiment.
  • Well-known configurations and procedures can be used for the specific configuration, reading procedure, or installation procedure after reading.
  • the network 300 has a function of interconnecting the interaction site prediction device 100 and the external system 200.
  • the Internet an intranet, and a LAN (both wired and wireless Z-wireless) are provided.
  • VAN PC communication network
  • public telephone network both analog and digital
  • leased line network both analog and digital
  • CATV network IMT20 0, GSM or PD CZ
  • PDC Portable circuit switching network
  • PDC Z-mobile packet switching network
  • paging network local wireless network
  • local wireless network such as B 1 uetooth, PHS network, CS, BS or ISDB Etc.
  • this system can send and receive various data via any network regardless of whether it is wired or wireless.
  • the primary sequence information of a target protein is input, and the secondary sequence prediction program for predicting the secondary structure of the protein from the primary sequence information of the protein is input.
  • the secondary structure prediction simulation of the primary sequence information is executed, the secondary structure prediction results of the secondary structure prediction program are compared, and based on the comparison result, the local part of the primary sequence information of the target protein is blasted. Calculates the fraction and predicts the interaction site of the target protein based on the calculated local fraction frustration.Interaction by finding the local site with the fractionation in the primary sequence information of the protein Interaction site prediction device, interaction site prediction method, program, Beauty, it is possible to provide a recording medium.
  • secondary sequence information is input, where the primary sequence information of the target protein is input, the secondary structure data of the target protein is obtained, and the secondary structure of the protein is predicted from the primary sequence information of the protein. Execute the secondary structure prediction simulation of the primary sequence information input to the structure prediction program, compare the secondary structure prediction result of the secondary structure prediction program with the acquired secondary structure data, and compare the results To 03
  • the frustration of the local part of the primary sequence information of the target protein is calculated based on the information, and the interaction site of the target protein is predicted by the calculated frustration of the local part. And the actual secondary structure of the protein of interest, it is possible to more clearly identify local sites with frustration (sites with a high probability of being interaction sites).
  • An action site prediction device, an interaction site prediction method, a program, and a recording medium can be provided.
  • certainty information indicating certainty with respect to the secondary structure prediction result of the secondary structure prediction program is set, and based on the set certainty information and the comparison result, the local part flash information is set. Since the translation is calculated, the confidence information is used to increase the weight of the secondary structure prediction result data by a high-level (that is, high simulation accuracy) program. It is possible to provide an interaction site prediction apparatus, an interaction site prediction method, a program, and a recording medium that can reflect the degree.
  • Embodiments of an active site prediction device, an active site prediction method, a program, and a recording medium according to the present invention will be described below in detail with reference to the drawings.
  • the present invention is not limited by the embodiment. This embodiment will be described by taking as an example the case of predicting the active site of a protein.However, those skilled in the art can easily apply the present invention to a bioactive polypeptide based on the description of this embodiment. it can.
  • FIG. 10 is a principle configuration diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features. That is, first, the three-dimensional structure data of the target protein is obtained from an external database such as a PDB (Protein Data Bank) (step S1). Then, molecular orbital calculation is performed based on the three-dimensional structure data of the protein, and the frontier orbital (the highest occupied orbital (HOMO) or the lowest unoccupied orbital (LUMO)) and / or Then, the orbital energy of the main chain atom is obtained (step S2).
  • PDB Protein Data Bank
  • the orbital energy of the highest occupied orbit (HOMO) or the lowest unoccupied orbit (LUMO) is, for example, the commercially available program MOP AC 2000 (J. JP Stewa rt, F jitsu Limited, Tokyo, It can be calculated by the AMI Hamiltonian method or the like using J aan (1 9 9)) (step S 21).
  • density functional calculations may be used in addition to semi-empirical molecular orbital calculations and ab initio molecular orbital calculations.
  • the semi-empirical molecular orbital is suitable for the current processing power of the computer, it can be applied in a more accurate manner in the future.
  • step S3 the inventor succeeded in finding the three calculation conditions necessary for prediction.
  • the first is to include the water molecule in the calculation. It is necessary to generate water molecules around the protein in the input data in order to take into account the hydrogen bonding between the water molecule and the protein, and also the charge transfer between the water molecule and the protein. Since information on water molecules is included in the crystal structure data, it is possible to use them, but in most cases, the number is insufficient. Therefore, for example, a water molecule is generated around the protein of the input data by a method of placing a water molecule at a position where hydrogen bonding with the protein can be performed, and the molecular orbital calculation is performed (step S31).
  • step S32 it is necessary to consider the dielectric effect of water molecules (step S32).
  • a method in which a continuous dielectric is placed around a protein can be used.
  • the present invention is to be applied to very large molecules, it is expected that the effect of the solvent will be taken into consideration and the processing capacity of the computer will be exceeded.
  • the dissociative amino acid residues on the protein surface are put into an uncharged state (for example, glutamic acid is protonated), and the buried dissociable amino acids are charged (for example, glutamic acid is deprotonated). Then, the calculation result considering the solvent is approximately obtained (step S33).
  • the molecular orbital calculation can be efficiently performed, and the accuracy of active site prediction can be greatly improved.
  • the “peripheral orbit of the frontier orbit” in the present invention is defined as follows.
  • “frontier orbit” refers to two things, “highest occupied orbit (H OMO)” and “lowest free orbit (LUMO)”.
  • H OMO highest occupied orbit
  • LUMO lowest free orbit
  • a slight difference in energy for example, about l to 2 eV
  • the frontier orbit is extended to the peripheral area.
  • the present invention assigns the determined frontier orbital and peripheral orbital to a specific amino acid residue in the amino acid sequence of the protein (step S4).
  • the assignment of molecular orbitals to amino acid residues is performed as follows.
  • Each molecular orbital is represented by a linear combination of basis functions as follows.
  • ⁇ — ⁇ c (i is the number of the basis function, is the basis function, C i is the coefficient)
  • Each basis function belongs to an atom, and each atom belongs to an amino acid residue. Therefore, each basis set belongs to any amino acid residue. Therefore, the distribution ratio for each atom and each amino acid residue is calculated.
  • the amino acid residue with the highest distribution rate or the amino acid residue containing the atom with the highest distribution rate for each molecular orbital Groups can be obtained. These are defined as the amino acid residues where each molecular orbital is distributed. With this definition, it is possible to make a one-to-one correspondence with which amino acid the molecular orbital is distributed in. Generally, since the molecular orbital has a certain extent, the idea that the molecular orbital is distributed in one amino acid residue is not common in the quantum chemistry world, but the inventor has limited the orbitals related to functions. However, they discovered that it was almost localized to one amino acid. One-to-one correspondence between molecular orbitals and amino acids is easy for non-experts to understand, and greatly helps non-specialists to use the present invention. This is also one of the advantages of the present invention.
  • the amino acid residues at which the frontier orbital and peripheral orbital of the protein are distributed are found.
  • the present invention uses this amino acid residue as a candidate amino acid residue for the active site (hereinafter referred to as “candidate amino acid residue” or simply “candidate amino acid residue”). It is determined as “candidate.”) (Step S 4).
  • Amino acid residues where the remaining frontier orbitals and peripheral orbitals are distributed are candidates for the active site.
  • the active site is rarely a single amino acid residue. It is constituted by. Therefore, in many cases, the frontier orbit and the peripheral orbit are gathered when the frontier orbit and peripheral orbit are actually displayed by displaying the three-dimensional structure from the three-dimensional structure data of the target protein using known graphic software, etc. There are places where you are. As such, it is extremely likely that the candidate amino acid residue of the portion that forms a cluster by localization on the three-dimensional structure is an active site. Therefore, such a candidate is selected and predicted as the active site.
  • step S22 When the orbital energy of the main chain atom is also used, the calculation is performed under the same calculation conditions as when the frontier orbital is used as described above, but there is a difference in that the molecular orbital is assigned to a molecule instead of an amino acid (step S22).
  • the orbital energies of the molecular orbitals distributed in atoms in the main chain of an amino acid eg, nitrogen or carbon. Since there are several such molecular orbitals, we focus on the orbital energy of the most characteristic, for example, the occupied orbital with the highest energy.
  • amino acids and orbital energies correspond one to one.
  • a method of applying each amino acid to orbital energies of molecular orbitals distributed in the main chain atoms in association with each amino acid for analysis is an unconventional method. For example, plotting the amino acid numbers and orbital energies gives the relative magnitude of orbital energy. It is highly possible that the portion of the amino acid residue where an atom with a relatively high orbital energy exists is the active site. In addition, amino acid residues having molecular orbitals having orbital energies exceeding a predetermined value are defined as active sites. W
  • the threshold may be determined with reference to the orbital energy of the active site of a protein having a similar function.
  • step S21 and step S22 are common in predicting the active site and using molecular orbital calculation, respectively.
  • the results of the prediction method are not exactly the same. It is easy to anticipate the strengths and weaknesses of each method.
  • the accuracy can be further improved. For example, by classifying amino acid residues that are predicted to be active sites in all the prediction results of different methods, and amino acid residues that are predicted to be active sites in some methods, the likelihood of an active site is determined. It can be expressed more accurately.
  • FIG. 11 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only a portion related to the present invention in the configuration.
  • the present system is roughly composed of a protein active site prediction device 110, and an external system 1200, which provides an external database and a homologous search-related external program for protein structural information and the like. It is configured to be communicably connected via a network 130.
  • the network 1300 has a function of interconnecting the protein active site prediction device 1100 and the external system 12000, and is, for example, the Internet.
  • the external system 1200 is mutually connected to the protein active site prediction device 110 via a network 130 0, and is provided to the user with an external database relating to protein structural information and the like. It has a function to provide a website for executing external programs such as homology search and motif search.
  • the external system 1200 may be configured as a WEB server, an ASP server, or the like. It may be constituted by an information processing device such as a personal computer or a personal computer and its attached device.
  • each function of the external system 1200 includes a CPU, a disk device, a memory device, an input device, an output device, a communication control device, etc. in the hardware configuration of the external system 1200, and a program for controlling them.
  • the protein active site prediction device 110 is generally used as a control unit 1102 such as a CPU for controlling the whole of the protein active site prediction device 110, a communication line, and the like.
  • Communication control interface unit 1 104 connected to a communication device (not shown) such as a router to be connected, input / output control interface unit 1 connected to an input device 1 1 1 2 or an output device 1 1 1 4 And a storage unit 1106 for storing various databases, tables, and the like, and these units are communicably connected via an arbitrary communication path.
  • the protein active site prediction device 110 is communicably connected to a network 130 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • Various databases and tables (protein structure database 1106a and processing result data 1106b) stored in the storage unit 116 are storage means such as a fixed disk device, and are used for various processing. Stores various programs, tables, files, databases, web page files, etc. used for
  • the protein structure database 116a stores protein structure data (including amino acid sequence data, three-dimensional structure data, various annotation information, etc.). It is a database.
  • the protein structure database 1106a may be an external database accessed via the Internet, or may be copied from these databases, store original sequence information, or be proprietary. It may be an in-house database created by adding annotation information or the like.
  • the processing result data 1106b is processing result data storage means for storing information and the like regarding the processing result by the control unit 1102.
  • a communication control interface unit 1104 controls communication between the protein active site prediction device 110 and the network 130 (or a communication device such as a router). . That is, the communication control interface unit 1104 has a function of communicating data with another terminal via a communication line.
  • an input / output control interface unit 110 controls the input device 111 and the output device 111.
  • the output device 111 not only a monitor (including a home television) but also a speaker can be used (hereinafter, the output device 111 may be described as a monitor. ).
  • the input device 111 a keyboard, a mouse, a microphone, and the like can be used. The monitor also realizes the pointing device function in cooperation with the mouse.
  • control unit 1102 has a control program such as an OS (Operating System), a program defining various processing procedures, and an internal memory for storing required data. Information processing for executing various processes is performed by these programs and the like.
  • the control section 1102 is functionally conceptually composed of a frontier orbit calculation section 1102a, a peripheral orbit determination section 1102b, a water molecule setting section 1102c, and a dielectric setting section 1 1 0 2d, charge setting unit 1102e, candidate amino acid residue determining unit 1102f, active site prediction unit 1102g, orbital energy calculation unit 1102h, and structure It is configured with a data acquisition unit 1102p.
  • OS Operating System
  • the control section 1102 is functionally conceptually composed of a frontier orbit calculation section 1102a, a peripheral orbit determination section 1102b, a water molecule setting section 1102c, and a dielectric setting section 1 1 0 2d, charge setting unit 1102e, candidate amino acid residue determining unit 1102f, active site prediction unit 1102g, orbit
  • the frontier orbital calculation unit 1102a is a frontier orbital calculation means for determining the electronic state of a protein by molecular orbital calculation based on the structural data and specifying the frontier orbital.
  • the frontier trajectory calculation unit 1102a includes, as shown in FIG. 12, a highest occupied trajectory calculation unit 1102i and a lowest empty trajectory calculation unit 110102j.
  • the peripheral orbit determining unit 1102b is a peripheral orbit determining means for determining a molecular orbit that has a predetermined energy difference from the frontier orbit as a peripheral orbit of the frontier orbit.
  • the water molecule setting unit 1102c is a water molecule setting unit that generates water molecules around a protein and performs quantum chemical calculations such as molecular orbital calculations.
  • the dielectric setting unit 1102d is a dielectric setting unit that performs a quantum chemical calculation such as a molecular orbital calculation by placing a continuous dielectric around a protein.
  • the charge setting unit 1102e sets the dissociative amino acid residues on the protein surface to an uncharged state, sets the dissociable amino acids buried in the ⁇ part to a charged state, and performs quantum chemical calculations such as molecular orbital calculations. This is the charge setting means to be performed.
  • the candidate amino acid residue determination unit 1102 ⁇ is composed of amino acid residues in which the frontier orbital and peripheral orbital are distributed, and ⁇ or a molecule having an orbital energy that exceeds a predetermined value among the orbital energies.
  • This is a candidate amino acid residue determining means for determining an amino acid residue in which a molecular orbital having a relatively high orbital and / or relatively high orbital energy is distributed as an amino acid residue as a candidate for an active site.
  • the active site prediction unit 1102g selects an active site from the candidate amino acid residues determined by the candidate amino acid residue determination unit 1102f and predicts the active site. This is a site prediction unit.
  • the active site prediction unit 1102 g includes a specific amino acid residue exclusion unit 1102 k for deleting a candidate that cannot be an active site, and a three-dimensional structure.
  • Localized amino acid residue selection section 1102m which selects candidate amino acid residues in the part that forms a cluster by localizing in step 1, and compares candidates by each method to select overlapping candidates And a candidate comparison unit 1102n.
  • the structure data obtaining unit 1102J is a structure data obtaining means for obtaining the structure data of the target protein.
  • FIG. 14 is a flowchart illustrating an example of a main process of the present system in the present embodiment.
  • the protein active site prediction device 1100 first obtains the three-dimensional structure data of the target protein from an external database such as a PDB (Protein Data Bank) by the processing of the structure data obtaining unit 1102p (step SA1—
  • PDB Protein Data Bank
  • the protein active site prediction device 1100 calculates the molecular orbital by quantum chemical calculation based on the three-dimensional structure data of the protein by the processing of the control unit 1102 (step SA1-2).
  • the details of the molecular orbital calculation processing will be described with reference to FIG.
  • FIG. 15 is a flowchart showing an example of the molecular orbital calculation processing of the present system in the present embodiment.
  • the protein active site prediction device 1100 obtains the coordinates of the protein (step SB1-1) and performs the molecular orbital calculation.
  • molecular orbital calculations are described in detail in, for example, “Introduction to Computer Chemistry” (Min. Sakurai, Atsushi Inoki, Maruzen, 1999).
  • an example of the molecular orbital calculation processing will be described.
  • the Fock equation is solved (Step SB 1-2-Step SB 1-7). Since this equation is "non-linear", it takes a method of repeatedly calculating until the solution converges.
  • FC SC ⁇
  • F is a Fock matrix
  • C is a matrix with LCAO coefficients as elements
  • S is a matrix with elements of overlap integral
  • is a vector as an element of orbital energy.
  • the density matrix can be calculated from the LC AO coefficients.
  • the protein active site prediction apparatus 1100 determines candidate amino acid residues from the frontier orbital and its peripheral orbits based on the information such as the molecular orbital obtained in step SA1-2 (step SA1-3). ).
  • the details of the process for determining a candidate amino acid residue using the frontier orbit and its peripheral orbit will be described with reference to FIG.
  • FIG. 16 is a flowchart illustrating an example of a process for determining an amino acid residue trapped by the frontier orbit and the peripheral orbit of the system according to the present embodiment.
  • the protein active site prediction device 1100 assigns to which amino acid residue in the amino acid sequence of the protein the calculated molecular orbital is distributed (step SCI-1).
  • step SCI-1 assigns to which amino acid residue in the amino acid sequence of the protein the calculated molecular orbital is distributed.
  • two pieces of information about each molecular orbital, “distribution method” and “orbital energy” are obtained as output.
  • FIG. 17 is a flowchart illustrating an example of a process of determining assignment information of each molecular orbital to an amino acid in the present system in the present embodiment.
  • Step SD 1-1 the Nth molecular orbital is obtained (Step SD 1-1), the square of the coefficient of the basis function belonging to the atom is added for each atom (Step SD 1-2), and the amino acid is converted to the amino acid for each amino acid. Add the sum of squares of the coefficients of the basis function belonging to the atom to which it belongs (step SD 1-3).
  • FIG. 20 is a diagram showing an example of a calculation result obtained by molecular orbital calculation.
  • an oligopeptide consisting of 5 residues (REWT Y) will be described as an example.
  • molecular orbital 1 is amino acid residue R
  • molecular orbital 2 is amino acid residue T
  • molecular orbital 3 is amino acid residue ⁇
  • molecular orbital 4 is amino acid residue W
  • molecular orbital 5 is amino acid residue R and molecular orbital 6 belong to amino acid residue Y
  • molecular orbital 7 to amino acid residue ⁇ .
  • the protein active site prediction device 110 defines the frontier orbit and its peripheral orbit. That is, the frontier trajectory calculation unit 1102a obtains the highest occupied trajectory (HOMO) by processing the highest occupied trajectory calculation unit 1102i and the lowest free orbit calculation unit 1102j Is determined to be molecular orbital 4, and the lowest unoccupied orbital (LUMO) is determined to be molecular orbital 5. Further, in the present embodiment, if the molecular orbital having an orbital energy within 2 eV is defined as the peripheral orbit of the frontier orbit, the peripheral orbit determination unit 1102b determines the molecular orbitals 2, 3, 4, 5, and 6 is determined as the peripheral orbit. Therefore, the candidate amino acid residue determining unit 1102 f determines that the amino acid residue corresponding to the molecular orbitals 2, 3, 4, 5, and 6 is a candidate amino acid residue in the active site ( Step SC 1-2).
  • HOMO highest occupied trajectory
  • LUMO lowest unoccupied orbital
  • the active site prediction unit 1102g excludes those that are not appropriate as functional site candidates by the processing of the specific amino acid residue exclusion unit 1102k (step SC 1-3).
  • the specific amino acid residue exclusion portion 1 102 k is excluded because molecular orbital 4 is distributed in tributophan, an amino acid residue that is unlikely to be an active site.
  • candidate amino acid residues are narrowed down to molecular orbitals 2, 3, 5, and 6.
  • FIG. 3 is a view showing an example of a display screen for confirming where a group is present in a three-dimensional structure of a protein.
  • a known graphic display program graphically displays protein structure data using a wire model, ribbon model, pipe model, ball-and-stick model, or space-filling model. Then, the candidate amino acid residue is displayed in it. In the case of this figure, there is clustering biased to the right, so it is highly possible that the three traps forming clustering are functional sites.
  • the protein active site prediction device 1100 uses the information such as the molecular orbital obtained in step SA1-2 to determine the candidate amino acid from the orbital energy localized in the heavy atom of the main chain. Determine the residues (steps SA 1-4).
  • steps SA 1-4 the details of the process of determining a candidate amino acid residue based on the orbital energy localized in a heavy atom of the main chain will be described with reference to FIG.
  • FIG. 19 is a flowchart showing an example of a process for determining a candidate amino acid residue using orbital energy localized in a heavy atom in the main chain of the present system in the present embodiment.
  • the protein active site prediction device 1100 assigns to which of the atoms constituting the amino acid sequence of the protein the calculated molecular orbital is distributed (step SF1-1).
  • step S C1-1 the distribution for each amino acid was determined, but the difference here is that the distribution for each atom is determined.
  • FIG. 22 is a diagram showing an example of a calculation result obtained by molecular orbital calculation.
  • molecular orbital 1 is atomic number 1
  • molecular orbital 2 is atomic number 4
  • molecular orbital 5 is atomic number 1
  • molecular orbital 6 is atomic number 4
  • molecular orbital 7 is atomic number 2
  • molecular orbital 8 is Atomic number 3 and molecular orbital 9 belong to atomic number 1 and molecular orbital 10 belongs to atomic number 4.
  • the orbital energy calculation unit 1102h extracts only the molecular orbitals belonging to the heavy atoms of the specific main chain (step SF1-2).
  • step SF1-2 focusing on the main chain N atom, molecular orbitals 1, 5, and 9 are distributed in the main chain N atom (atomic number 1) of R, and the main chain N atom (atom In number 4), molecular orbitals 2, 6, and 10 are distributed.
  • the orbital energy calculation unit 1102h selects the occupied orbital having the highest energy among the focused ones (step S F 1-3).
  • molecular orbitals 9 and 10 are unoccupied orbitals, so if excluded, the main chain N atom of R (atomic number 1) would have molecular orbital 5 and the main chain N atom of E (atomic number 4). Since orbital 6 has the highest energy, orbital energy calculation unit 1102h is selected. That is, the orbital energy of R is 16 eV, and the orbital energy of E is 15 eV.
  • the orbital energy calculation unit 1102h takes the amino acid residue number on the horizontal axis and the representative energy on the vertical axis, and creates a plot that plots the representative energy.
  • X The site around the middle peak is identified as a candidate amino acid residue (step SF1-5).
  • the protein active site prediction device 1101 selects the active site from the candidate amino acid residues by processing the active site prediction unit 1102 g and predicts the active site.
  • Step SA 1-5 the details of the candidate amino acid residue comparison process will be described with reference to FIG.
  • FIG. 18 is a flowchart showing an example of the candidate amino acid residue comparison processing of the present system in the present embodiment.
  • the active site prediction unit 11 1 0 2 g determines whether or not the candidates by each method match by the processing of the catching comparison unit 1102 11 (step SE 1-2). If not, the preceding and succeeding amino acids are also added to the candidate (if they do not match, the next amino acid is further added), and the candidate determination method using the above method is executed again (step SE 1-3).
  • step SE1_2 the active site prediction unit 1102g predicts the candidates as active sites (step SE1-4). This completes the candidate amino acid residue comparison process.
  • Example 1 of the present invention [Example 1 of the present invention; ribonuclease T 1] 'Next, details of Example 1 of the present invention will be described with reference to FIGS.
  • the hydrolase liponuclease T1 has been well studied experimentally, and the essential amino acid residues are His 40, Glu 58, and Arg 77 S Is 92. Proven.
  • Hydrogen molecules were added to liponuclease T1 based on the X-ray crystal structure data using a commercially available program InsightII to complete the coordinates required for molecular orbital calculations. After obtaining the optimized structure using the commercially available program MOPAC 2000, the electronic state was obtained. Water molecules were placed around the protein, and the effect of the solvent was taken into account using the continuous dielectric approximation (COSMO method).
  • Example 1 where the frontier-sensitive L path of ribonuclease T1 is distributed are shown in the table shown in FIG.
  • potential active site candidates are G1u58 second from HOMO, His40 third from HOMO, fourth His92 from LUMO, and third third from LUMO.
  • Ar g 77 was distributed. Since these four amino residues are clustered nearby, it is easy to predict that this is the active site. This is in good agreement with the experimental data. It can be expected that H is 40 and G 1 u58 work nucleophilically, and Ar g 77 and H is 92 work electrophilically. In other words, unlike conventional techniques, it is possible to analyze not only the position of the active site but also the mechanism of the reaction. Next, we focused on nitrogen atoms in the main chain. FIG.
  • FIG. 24 is a diagram in which the orbital energies of the molecular orbitals distributed in the main chain nitrogen atoms in Example 1 are plotted with respect to the amino acid residue numbers. As shown in this figure, portions having high orbital energies appear near amino acid residue numbers 40, 60, 80, and 90.
  • FIG. 25 shows a table in which amino acid residues having high orbital energies and orbital energies are extracted in Example 1. Amino acid residues around amino acid residues with high orbital energies are candidates for active sites.
  • a table is shown in which the candidate amino acid residues based on the frontier orbitals shown in Fig. 23 and the common parts of the candidate amino acid residues based on the orbital energies of the main chain atoms shown in Figs. 24 and 25 are extracted. It is shown in 26.
  • four candidates for the nucleophilic group and four candidates for the electrophilic group were given by the method using frontier orbitals.
  • two amino acid residues before and after the amino acid residue that becomes the peak (considering the fifth residue) were determined as candidates using the method of orbital energy of the main chain atom. And there are five things that are common to each other: 40, 57, 58, 77, 92.
  • FIG. 28 is a diagram in which the orbital energies of the molecular orbitals distributed in the nitrogen atoms of the main chain in Example 2 are plotted against the residue numbers of amino acids. As shown in this figure, portions having high orbital energies appear near amino acid residue numbers 12, 47, 117, 76, and 53.
  • FIG. 29 shows a table in which the amino acid residues having high orbital energy and the orbital energies are extracted. Amino acid residues around the amino acid residue with high orbital energy are candidates for the active site.
  • FIG. 30 shows a table in which candidate amino acid residues based on the frontier orbitals shown in FIG. 27 and common portions of the candidate amino acid residues based on the orbital energies of the main chain atoms shown in FIGS. 28 and 29 are extracted. Shown in For example, using the frontier orbital method, we listed four candidates for nucleophilic groups and four candidates for electrophilic groups. In addition, two amino acid residues before and after the amino acid residue that becomes the peak (considering the fifth residue) were determined as candidates using the method of orbital energy of the main chain atom. And there are three things that are common to each other: 1, 2, 14, 1 19, and so on.
  • processing may be performed in response to a request, and the processing result may be returned to the client terminal.
  • all or a part of the processes described as being performed automatically can be manually performed, or the processes described as being performed automatically are described. All or a part of the processing can be automatically performed by a known method.
  • each processing function performed by the control unit 1102 all or any part thereof may be replaced by a CPU. (Central Processing Unit) and a program interpreted and executed by the CPU, or it can be realized as hardware by wired logic.
  • the program is recorded on a recording medium to be described later, and is mechanically read by the protein active site prediction device 110 if necessary.
  • a storage unit 110 such as a ROM or an HD stores a computer program for giving instructions to the CPU in cooperation with OS (OperaTingSystem) and performing various processes.
  • This computer program is executed by being loaded into a RAM or the like, and forms a control unit 1102 in cooperation with a CPU.
  • this computer program may be recorded in an application program server connected to the protein active site prediction device 1100 via an arbitrary network 1300, and the whole or a part thereof may be downloaded as necessary. It is also possible.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • this “recording medium” is a flexible disk Disk, magneto-optical disk, ROM, E-PROM, E-PROM, CD-ROM, MO, DVD, etc., any “portable physical medium”, and ROM, RAM, HD, etc. built in various computer systems ⁇ Fixed physical medium '' or ⁇ communication medium '' that holds the program for a short period of time, such as a communication line or carrier wave when transmitting the program via a network represented by LAN, WAN, or the Internet Shall be included.
  • a “program” is a data processing method described in any language and description method, regardless of the format of source code / binary code. Note that the “program” is not necessarily limited to a single configuration, but may be distributed as a plurality of modules / libraries, OS (Opera t ing
  • Various databases (protein structure database 1106a and processing result data 1106b) stored in the storage unit 116 are stored in memory devices such as RAM and ROM, hard disks, etc. It is a storage means such as a fixed disk device, a flexible disk, an optical disk, etc., and stores various programs used for various processing and website provision, and files for tape and file databases.
  • the protein active site prediction device 110 connects a peripheral device such as a printer monitor or an image scanner to an information processing device such as a known information processing terminal such as a personal computer or a workstation, and connects the information processing device to the information processing device.
  • a peripheral device such as a printer monitor or an image scanner
  • an information processing device such as a known information processing terminal such as a personal computer or a workstation
  • the present invention may be implemented by implementing software (including programs, data, and the like) for implementing the method of the present invention.
  • dispersion and integration of the protein active site prediction device 1101 is not limited to the one shown in the drawing, and all or a part of the dispersion / integration may be performed in an arbitrary unit corresponding to various loads or the like. It can be distributed or integrated functionally or physically.
  • each database may be configured independently as an independent database device, or one of the processes may be realized using CGI (Common Gateway Interface). '
  • the network 1300 has a function of interconnecting the protein active site prediction device 1100 and the external system 1200, such as the Internet, an intranet, a LAN (including both wired and wireless), , VAN, PC communication network, public telephone network (including both analog and digital), leased line network (including both analog and Z digital), CATV network, IMT 2000 system, GSM system or PDC / PDC—Portable network switching network / mobile bucket switching network such as P system, paging network, local wireless network such as B 1 uetooth, PHS network, satellite communication network such as CS, BS or ISDB May be included. That is, the present system can transmit and receive various data via any network regardless of wired or wireless.
  • a LAN including both wired and wireless
  • VAN personal area network
  • PC communication network including both analog and digital
  • public telephone network including both analog and digital
  • leased line network including both analog and Z digital
  • CATV network IMT 2000 system
  • the electronic state of a protein or a biologically active polypeptide is determined by molecular orbital calculation, and the frontal orbital and its peripheral orbitals and / or heavy atoms in the main chain are determined.
  • the localized orbital energies are identified, and the amino acid residues that become the active site of the protein or bioactive polypeptide are determined based on the position of the frontier orbital and its peripheral orbitals, and Z or the orbital energy.
  • Prediction, using molecular orbital calculation which is said to be highly accurate, to apply the relationship between the position of the frontier orbital or the position with high orbital energy and the reaction site to the protein or bioactive polypeptide system.
  • Active site prediction apparatus, active site prediction method, program, and recording medium capable of performing accurate active site prediction Rukoto can.
  • structural data of a target protein or a biologically active polypeptide is obtained, and based on the obtained structural data, the electronic state of the protein or the biologically active polypeptide is calculated by molecular orbital calculation.
  • the molecular orbital having a predetermined energy difference from the orbital orbital is determined as a peripheral orbital of the orbital, and the amino acid residue in which the frontier orbital and the peripheral orbital are distributed is determined as an active site candidate amino acid residue.
  • the active site is predicted by selecting the active site from the determined candidate amino acid residues, and the molecular orbital calculation, which is said to be highly accurate, is used to determine the position of the frontier orbital.
  • an active site prediction device, an active site prediction method, a program, and a recording medium that can perform highly accurate active site prediction because the relationship with a reaction site is applied to a protein or bioactive polypeptide system. be able to.
  • the structural data of the target protein or the biologically active polypeptide is obtained, and the electronic state of the protein or the biologically active polypeptide is obtained by molecular orbital calculation based on the obtained structural data.
  • the orbital energy localized in the heavy atoms of the main chain is specified, and the molecular orbitals with orbital energies exceeding a predetermined value among the specified orbital energies and / or the molecular orbitals with relatively high orbital energies are identified. Since the distributed amino acid residues are determined as the candidate amino acid residues for the active site, the relationship between the position with the highest orbital energy and the reactive site is calculated using the molecular orbital calculation, which is said to be highly accurate.
  • Active site prediction device, active site prediction method, and program that can perform active site prediction with high accuracy because the method is applied to protein or bioactive polypeptide systems , And it can provide a recording medium.
  • the structural data of the target protein or the biologically active polypeptide is obtained, and the electronic state of the protein or the biologically active polypeptide is obtained by molecular orbital calculation based on the obtained structural data. Identify the frontier orbital, determine the electronic state of the protein or biologically active polypeptide by molecular orbital calculation based on the acquired structural data, identify the orbital energy localized in heavy atoms in the main chain, and determine the frontier orbital in advance.
  • the molecular orbital having the determined energy difference is determined as a peripheral orbit of the frontier orbital, and a predetermined value among the amino acid residues in which the frontier orbital and the peripheral orbital are distributed and / or the specified orbital energy is determined.
  • Molecular orbitals with higher orbital energies and / or relatively orbital energies An amino acid residue with a high molecular orbital distribution is determined as a candidate amino acid residue for an active site, and the active site is selected from the determined candidate amino acid residues to predict the active site.
  • a water molecule is generated around a protein or a biologically active polypeptide, 2) a water molecule is continuously generated around a protein or a biologically active polypeptide.
  • a dielectric Put a dielectric
  • the molecular orbital calculation can be performed efficiently by appropriately setting the three calculation conditions, and the accuracy of active site prediction is greatly improved.
  • Active site prediction device, active site prediction method, program, and recording medium that can be provided.
  • FIG. 31 is a principle configuration diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features.
  • the present invention specifies sites of high instability based on the hydrophobic interaction of the solvent contact surface. That is, the present invention firstly provides a solvent contact area of a plurality of interacting proteins in a simple substance (the area of a molecule surface with which a solvent molecule can come into contact. The surface contact area during complex formation is calculated separately, and the solvent contact surface of the interacting part is determined by taking the difference. In other words, a part where the difference between the solvent contact area when used alone and the solvent contact area when forming the complex is large indicates that the area that comes into contact with the solvent decreases when the complex is formed. Since it is highly probable that the amino acid residue is an interaction site, an amino acid residue site having a large difference is specified as a solvent contact surface of the interaction site. In addition, if there is no structure data for the complex, this process is not performed.
  • the hydrophobic interaction surface is identified in the amino acid residues constituting the primary structure of the protein by determining the hydrophobic interaction energy of the solvent contact surface of the protein.
  • Such a site is highly unstable when used alone, and is considered to be stabilized when a complex is formed by obscuring the hydrophobic surface. It can be said that.
  • the present invention specifies a site having high instability by specifying a site having high electrostatic interaction energy in a protein. That is, the present invention calculates a site having a high electrostatic interaction energy based on the atomic charges (partial charges) obtained by the molecular orbital method or the like.
  • a site is highly unstable when used alone, and is considered to be energetically stable during the formation of a complex. Therefore, it can be said that the site is likely to be an interaction site.
  • the atomic charge may be obtained by various calculation methods such as the molecular orbital method, or the value of the atomic charge given as various parameter values in the molecular mechanics method or the molecular dynamics method may be used. Is also good.
  • the present invention specifies the interaction site by specifying a site with high instability based on the solvent contact surface, the hydrophobic interaction energy, and the electrostatic interaction energy.
  • FIG. 32 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only those parts of the configuration relating to the present invention.
  • This system roughly comprises a protein interaction information processing device 210 and an external system 220 that provides an external database for sequence information and the like and an external program for homology search and the like. It is configured to be communicably connected via 230.
  • the network 230 has a function of interconnecting the protein interaction information processing device 210 and the external system 220, and is, for example, the Internet.
  • the external system 2200 is interconnected with the protein interaction information processing apparatus 2100 via the network 2300, and provides sequence information such as DNA and protein to the user. It has a function to provide an external database for structural information such as information and websites for executing external programs such as homology search and motif search.
  • the external system 222 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is generally based on information processing devices such as workstations and personal computers that are generally available on the market, and accessories therefor. It may be constituted by a device.
  • the functions of the external system 220 are controlled by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 220 and a program for controlling them. Is achieved.
  • the protein interaction information processing device 210 is roughly composed of a control unit 210 such as a CPU that controls the whole of the protein interaction information processing device 210.
  • Communication control interface section 210 connected to a communication device (not shown) such as a router connected to a communication line, etc., input / output connected to input device 2 1 1 2 and output device 2 1 1 4 It comprises a control interface section 210 and a storage section 210 for storing various databases and tables, and these sections are communicably connected via an arbitrary communication path. I have. Further The protein interaction information processing device 2100 is communicably connected to a network 2300 via a communication device such as a router or a wired or wireless communication line such as a dedicated line. .
  • Various databases and tables (protein structure database 210a and processing result data 210b) stored in the storage unit 210 are storage means such as a fixed disk device. Stores various program tables and files used for processing and files for file database pages. Of these constituent elements of the storage unit 210, the protein structure database 210a stores amino acid sequence information (primary structure data) and three-dimensional structure data (such as three-dimensional coordinate data of constituent atoms) of proteins. And a database that stores various annotation information.
  • the protein structure database 210a may be an external database accessed via the Internet, or may be a copy of these databases, storing original sequence information, or the like. It may be an in-house database created by adding unique annotation information to the database.
  • processing result data 210b is a processing result data storage unit that stores information on the processing result data and the like.
  • the communication control interface unit 210 controls communication between the protein interaction information processing device 210 and the network 230 (or a communication device such as a router). . That is, the communication control interface unit 210 has a function of communicating data with another terminal via a communication line.
  • an input / output control interface unit 210 controls the input device 211 and the output device 211.
  • the output device 211 not only a monitor (including a home television) but also a speaker can be used.
  • Input devices 2 1 1 2 include a keyboard, a mouse, and a Can be used. The monitor also realizes the pointing device function in cooperation with the mouse.
  • the control unit 2102 includes a control program such as an operating system (OS), a program defining various processing procedures, and an internal memory for storing required data. Information processing for executing various processes is performed by a program or the like.
  • the control unit 2102 is functionally conceptualized as a structural data acquisition unit 2102a, a solvent contact surface identification unit 2102b, a water-phobic surface identification unit 2102c, an electrostatic interaction site identification unit 2102d, and an interaction site identification unit 2102. e and an interaction prediction unit 2102 f.
  • the structure data acquisition unit 2102a is a structure data acquisition unit that acquires the structure data including the primary structure data of a plurality of interacting proteins and the three-dimensional structure data of the single protein and the Z or complex.
  • the solvent contact surface specifying unit 2102b is a solvent contact surface specifying unit that specifies a solvent contact surface for each amino acid residue included in the primary structure data in accordance with the structure data obtained by the structure data obtaining unit.
  • the hydrophobic surface specifying unit 2102 c is a hydrophobic surface specifying unit that specifies the hydrophobic interaction energy for each amino acid residue constituting the primary structure data according to the structural data acquired by the structure data acquiring unit.
  • the electrostatic interaction site specifying unit 2102 d specifies the electrostatic interaction energy for each amino acid residue constituting the primary structure data according to the structural data acquired by the structural data acquiring means. This is a site specifying means.
  • the interaction site identification unit 2102 e includes the solvent contact surface identified by the solvent contact surface identification unit, the hydrophobic interaction energy identified by the hydrophobic surface identification unit, and the electrostatic interaction site identification unit.
  • This is an interaction site specifying means for specifying an interaction site by specifying a site of an amino acid residue having high instability based on the electrostatic interaction energy specified in (1).
  • the interaction predicting unit 2102 f specifies, for the interaction site identified by the interaction site identifying means, the primary sequence of the interacting partner, and identifies a candidate protein having a primary structure containing the primary sequence.
  • a candidate protein search unit 2102 g to be searched is provided.
  • candidate proteins searched by the candidate protein search means structural data acquisition means, solvent contact surface identification means, hydrophobic surface identification means, electrostatic interaction site identification means And means for confirming whether or not the primary sequence portion of the partner is identified as the interaction site of the candidate protein by executing the interaction site identification means.
  • structural data acquisition means solvent contact surface identification means, hydrophobic surface identification means, electrostatic interaction site identification means
  • electrostatic interaction site identification means means for confirming whether or not the primary sequence portion of the partner is identified as the interaction site of the candidate protein by executing the interaction site identification means. The details of the processing performed by these units will be described later.
  • FIG. 33 is a flowchart illustrating an example of main processing of the present system in the present embodiment.
  • the protein interaction information processing device 2100 accesses the protein structure database 2106a or an external database of the external system 2200 (for example, PDB (Protein Data Bank), etc.) by the processing of the structural data acquisition unit 2102a.
  • structural data including primary structure data of a plurality of interacting proteins and three-dimensional structure data at the time of a single substance and / or a complex formation is obtained (step SA2-1).
  • the acquired structural data includes both the structural data of multiple interacting proteins alone and the structural data of complex formation, and only the structural data of multiple interacting proteins alone. Including the case.
  • the protein interaction information processing device 2100 processes the plurality of interacting proteins as described later with reference to FIG. Data and compound data
  • the solvent contact surface is specified for each amino acid residue constituting the primary structure data in accordance with both the structural data at the time of body formation (step SA2-2).
  • FIG. 34 is a flowchart showing an example of the solvent contact surface identification processing of the present system in the present embodiment.
  • the solvent contact surface identification part 2102 b calculates the solvent contact area S is for each residue alone. Calculate lated (step SB2-1 ).
  • any known method may be used as a method for determining the solvent contact area in the present invention.
  • the solvent contact surface identification part 2102b calculates, for each residue, the solvent contact area S c at the time of complex formation. Compute the mplex (step SB 2-2 ).
  • the solvent contact surface identification part 2102 b calculates the difference between the solvent contact area S isolated when used alone and the solvent contact area S oomplex when forming a complex for each residue (Step SB 2-3). . This completes the solvent contact surface identification processing.
  • the protein interaction information processing device 2100 combines the structural data of a plurality of interacting proteins with the single structure data as described later with reference to FIG.
  • the hydrophobic interaction energy is determined for each residue or atom based on the amino acid residues constituting the primary structure of the protein and the hydrophobic parameters for each atom. Calculate the value of 1 and specify the hydrophobic surface (Step SA 2-3) For example, amino acid residue Is Lys, the nitrogen N at the ⁇ -position and the hydrogen H bonded thereto are hydrophilic, and the carbon C at the 0, ⁇ ⁇ ⁇ -position and the hydrogen bonded thereto are hydrophobic.
  • FIG. 35 is a flowchart showing an example of the hydrophobic surface identification processing of the present system in the present embodiment.
  • a case where protein ⁇ and protein ⁇ interact will be described as an example.
  • the hydrophobic surface identification unit 2102c calculates the amount of reduction of the hydrophobic surface using Equation 1 (Step S C2-1).
  • the hydrophobic surface identification unit 2102 c calculates the hydrophobic interaction energy 1 E h by Expression 2. ph . Calculate bic (SC 2–2 ).
  • the hydrophobic surface specifying unit 210c specifies, as a hydrophobic surface, an amino acid residue site having a hydrophobic interaction energy exceeding a predetermined threshold (Step S C
  • the protein interaction information processing device 2100 interacts as described later with reference to FIG. 36 by the processing of the electrostatic interaction site identification section 2102d.
  • the electrostatic interaction energy is specified for each amino acid residue constituting the above-mentioned primary structure data according to both the structural data of a single protein and the structural data of forming a complex (step SA2-4).
  • FIG. 36 is a flowchart illustrating an example of the electrostatic interaction site identification processing of the present system in the present embodiment.
  • electrostatic interaction part identification unit 2 1 0 2 d is the equation 3 to calculate the electrostatic interaction energy E n for each residue (Step SD 2-1).
  • is the dielectric constant inside the molecule
  • q is the partial charge
  • i and j are suffixes indicating atoms
  • R is the distance between atoms i and j.
  • E n is the electrostatic interaction, are approximated by placing the partial charge on the nucleus of the interaction between sites in polar moiety and ionization of the internal molecules are charged. This completes the electrostatic interaction site identification processing.
  • the protein interaction information processing apparatus 2100 has the solvent contact surface and the hydrophobicity as described later with reference to FIG.
  • the interaction site is specified by specifying the site of the amino acid residue having high instability based on the sexual interaction energy and the electrostatic interaction energy (step SA2-5).
  • step SA2-5 the details of the interaction site identification process This will be described with reference to FIG.
  • FIG. 37 is a flowchart illustrating an example of the interaction site identification processing of the present system in the present embodiment.
  • the interaction site specifying unit 2102 e specifies a site where the solvent contact area difference ⁇ S exceeds a predetermined threshold (step S E2-1).
  • the interaction site identification part 210 e is a hydrophobic interaction energy E hydr . Ph .
  • a part where ⁇ exceeds a predetermined threshold is specified (step SE2-2).
  • the interaction part identification unit 2 1 0 2 e is the electrostatic interaction energy E n to identify a site which exceeds the threshold that defines Me pre (Step SE 2-3). This completes the interaction site identification processing. This ends the main processing.
  • FIG. 38 is a flowchart showing an example of the interaction site prediction processing of the present system in the present embodiment.
  • the protein interaction information processing apparatus 2100 specifies an interaction site by the main processing described above (step SF2-1).
  • the interaction predicting unit 2102 f converts the primary sequence of the partner (the same protein) that interacts with the interaction site identified in step SF 2-1 by the processing of the protein search unit 2102 g. (Step SF2-2), and a candidate protein having a primary structure containing the primary sequence is searched (Step SF2-3).
  • the interaction predicting unit 2102 ⁇ performs the above-described structure data acquisition processing, solvent contact surface identification processing (if there is structural data for a complex), hydrophobic surface identification processing, and electrostatic interaction for the candidate protein.
  • solvent contact surface identification processing if there is structural data for a complex
  • hydrophobic surface identification processing if there is structural data for a complex
  • electrostatic interaction for the candidate protein.
  • Example 1 Next, details of the first embodiment will be described with reference to FIGS.
  • Example 1 describes an example in which the interaction site is specified using “barnase” and “barstar” as proteins.
  • FIG. 39 shows that the protein interaction information processing apparatus 100, based on the crystal structure of the barnase-barstar complex by the processing of the solvent contact surface identification section 102b
  • FIG. 9 is a processing diagram in which a difference ⁇ S in contact area is calculated.
  • the difference AS between the 38th, 59th, 83rd, and 102nd amino acid residues in the primary structure of barnase is large, and barnase interacts with barstar at this site Can be identified.
  • FIG. 40 shows that the protein interaction information processing apparatus 100 uses the hydrophobic surface identification unit 102c to process the hydrophobic interaction energy for each amino acid residue for barnase based on the crystal structure of barnase alone.
  • FIG. 40 shows that the hydrophobic interaction energy of the 82nd amino acid residue is high, indicating that there is a possibility of interaction near this.
  • FIG. 41 shows that the protein interaction information processing apparatus 100 performs the electrostatic interaction for each amino acid residue for barnase based on the crystal structure of barnase alone by the processing of the electrostatic interaction identification unit 102d.
  • FIG. 9 is a processing diagram in which energy is calculated. As shown in the figure, the 59th, 66th, 83rd, and 102nd amino acid residues have high electrostatic interaction energies, and there is a possibility of interaction near this position. It is shown that.
  • FIG. 42 shows that the protein interaction information processing apparatus 100 performs the processing of the solvent contact surface identification section 102b, and based on the crystal structure of the barnase-barstar complex, for each amino acid residue of barstar.
  • FIG. 4 is a processing diagram in which a difference ⁇ S in a solvent contact area is calculated. As shown in this figure, of the primary structure of barstar, No. 30, No. 36, No. 40, No. 45, No. 47, and No. 77 The difference ⁇ S between the amino acid residues of the eye is large, and it can be specified that barstar interacts with barnase at this site.
  • FIG. 43 shows that the protein interaction information processing device 100 performs the hydrophobic interaction for each amino acid residue of barstar based on the crystal structure of barstar alone by the processing of the hydrophobic surface identification unit 102c. It is the processing figure which computed action energy. As shown in this figure, the 30th amino acid residue has a high hydrophobic interaction energy, indicating that there is a possibility of interaction near this position.
  • FIG. 44 shows that the protein interaction information processing device 100 performs electrostatic processing for each amino acid residue of barstar based on the crystal structure of barstar alone by the processing of the electrostatic interaction identification unit 102d.
  • FIG. 9 is a processing diagram in which interaction energy is calculated. As shown in this figure, the 35th, 39th, 58th, 65th, 77th, and 80th amino acid residues have high electrostatic interaction energies and interact around this position. It indicates that there is a possibility of
  • the protein interaction information processing device 100 can process the barnase on the basis of the results shown in FIGS.
  • the 8th, 8th, 8th, and 10th amino acid residues are identified as candidate interaction sites. This is in good agreement with the result of the known information in the complex of the interaction site shown in FIG. 39, and indicates that the binding site at the time of complex formation can be predicted from the protein simple structure.
  • the protein interaction information processing apparatus 100 based on the results shown in FIGS. 43 and 44, performs the processing of the interaction site identification section 102e, and based on the results shown in FIGS.
  • the 3rd, 39th, 58th, 65th, 77th, and 80th amino acid residues are identified as potential interaction sites. This is in good agreement with the result of the known information in the complex of the interaction site shown in FIG. 42, and similarly shows that the binding site at the time of complex formation can be predicted from the single protein structure.
  • the first embodiment is completed.
  • Example 2 Next, details of the second embodiment will be described with reference to FIGS.
  • Example 2 describes an example in which Ribo nuclease and its Inh ibitor are used as proteins to identify the interaction site.
  • FIG. 45 shows that each amino acid residue of Ribo nuclease is determined based on the crystal structure of Ribo nuclease-inh ibitor complex by the processing of the protein interaction information processing device 100-force solvent contact surface identification unit 102b.
  • FIG. 4 is a processing diagram in which a difference ⁇ S in the solvent contact area is calculated. As shown in this figure, in the primary structure of Ribo nuclease, the difference ⁇ S between the 39th amino acid residue is large, and it can be specified that Ribo nuclease interacts with the inhibitor at this site .
  • FIG. 46 shows that the protein interaction information processing apparatus 100 performs the hydrophobic interaction for each amino acid residue for Ribo nuclease based on the crystal structure of Ribo nuclease alone by the processing of the hydrophobic surface identification unit 102c.
  • FIG. 9 is a processing diagram in which an action energy is calculated. As shown in this figure, the peak of hydrophobic interaction energy cannot be distinguished.
  • FIG. 47 shows that the protein interaction information processing apparatus 100 processes each of the amino acid residues for Ribonuc 1 ease based on the crystal structure of Ribonuclease alone by the processing of the electrostatic interaction identifying unit 102d.
  • FIG. 9 is a processing diagram in which electrostatic interaction energy is calculated. As shown in this figure, the first, seventh, and thirty-ninth amino acid residues have high electrostatic interaction energies, indicating that there is a possibility of interaction near this.
  • FIG. 48 shows that the protein interaction information processing apparatus 100 performs processing of the solvent contact surface identification unit 102b and, based on the crystal structure of the Ribo nuclease-inh ibitor complex, determines each amino acid residue in the inh ibitor.
  • FIG. 9 is a processing diagram in which a difference ⁇ S in a solvent contact area is calculated for each group. As shown in this figure, the difference AS between the 433rd amino acid residue in the primary structure of inhibitor is large, Inh ibitor can be identified as interacting with Ribonuclease at this site.
  • FIG. 49 shows that the protein interaction information processing apparatus 100 calculates the hydrophobic interaction energy for each amino acid residue of the inhibitor based on the crystal structure of the inhibitor alone by the processing of the hydrophobic surface identification unit 102c.
  • FIG. 50 shows that the protein interaction information processing apparatus 100 processes the electrostatic interaction identifying unit 102d to perform the electrostatic interaction for each amino acid residue of the inh ibitor based on the crystal structure of the inh ibitor alone. It is a processing diagram in which the action energy was calculated. As shown in this figure, the electrostatic interaction energy of the amino acid residue near the 433rd position is high, indicating that there is a possibility of interaction near this position.
  • the protein interaction information processing device 100 performs the first, seventh, and 39th The amino acid residue is identified as a candidate interaction site. This is in good agreement with the result of the known information on the complex of the interaction site shown in FIG. 45, and shows that the binding site at the time of complex formation can be predicted from the protein simple structure.
  • the protein interaction information processing apparatus 100 based on the results shown in FIGS. 49 and 50, processes the interaction site identification unit 102e, and based on the results shown in FIGS. Is identified as an interaction candidate site. This is in good agreement with the result of the known information in the complex of the interaction site shown in FIG. 48, and similarly shows that the binding site at the time of complex formation can be predicted from the single protein structure.
  • the second embodiment is completed.
  • the protein interaction information processing apparatus 210 performs processing in a stand-alone form has been described as an example, but it is configured in a separate housing from the protein interaction information processing apparatus 2100.
  • the processing may be performed in response to a request from the client terminal, and the processing result may be returned to the client terminal.
  • all or a part of the processes described as being performed automatically can be performed manually, or the processes described as being performed automatically can be performed. All or a part of the processing can be automatically performed by a known method.
  • each illustrated component is a functional concept, and does not necessarily need to be physically configured as illustrated.
  • CPU Central Processing Unit
  • program interpreted and executed by the CPU, or it can be implemented as hardware by wired logic.
  • program is recorded on a recording medium described later, and is mechanically read by the protein interaction information processing device 2100 as necessary.
  • a storage unit 2106 such as a ROM or an HD stores a computer program for giving instructions to the CPU and performing various processes in cooperation with ⁇ S (OerangSystem).
  • This computer program is executed by being loaded into a RAM or the like, and forms a control unit 2102 in cooperation with a CPU.
  • this computer program may be recorded in an application program server connected to the protein interaction information processing device 2100 via an arbitrary network 2300, and download all or part of the computer program as needed. It is also possible.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • the “recording medium” means any “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EE PROM, a CD-ROM, an MO, a DVD, and various computer systems. Any fixed physical media, such as ROM, RAM, HD, etc., built into the PC, or communication lines or carrier waves when transmitting programs via networks represented by LAN, WAN, Internet In this way, the term "communication medium” that holds programs for a short period of time is included.
  • a “program” is a data processing method described in any language or description method, regardless of the format of source code or binary code. Note that the “program” is not necessarily limited to a single configuration, but may be distributed as a plurality of modules / libraries, or an OS (Opera t in g
  • System that achieves its function in cooperation with a separate program represented by System.
  • the recording medium is read by each device described in the embodiment.
  • Well-known configurations and procedures can be used for the specific configuration, reading procedure, or installation procedure after reading.
  • Various databases (protein structure database 2106a and processing result data 2106b) stored in the storage unit 2106 are stored in memory devices such as RAM and ROM, fixed disk devices such as hard disks, and storage means such as flexible disks and optical disks. It stores various programs and tables used for various processes and web site provision, and files for file database base web pages.
  • the protein interaction information processing device 2100 connects a peripheral device such as a printer, a monitor, and an image scanner to an information processing device such as a known personal computer, a workstation or other information processing terminal, and connects to the information processing device.
  • a peripheral device such as a printer, a monitor, and an image scanner
  • an information processing device such as a known personal computer, a workstation or other information processing terminal
  • the present invention may be implemented by implementing software (including programs, data, and the like) for implementing the method of the present invention.
  • each database may be configured independently as an independent database device, and the processing may be realized using CGI (Common Gateway Interface). .
  • CGI Common Gateway Interface
  • the network 2300 has a function of interconnecting the protein interaction information processing device 2100 and the external system 2200, and includes, for example, the Internet, an intranet, a LAN (including both wired and wireless), VAN, PC communication network, public telephone network (including both analog and digital), leased line network (including both analog and digital), CATV network, IMT2000 system, GSM system or PDC / PDC — P-type cellular network / cell packet-switching network, radio paging network, local wireless network such as B1uetooth, PHS network, satellite communication network such as CS, BS or ISDB Including any of May be. That is, this system can transmit and receive various data via any network regardless of whether it is wired or wireless.
  • a LAN including both wired and wireless
  • VAN personal area network
  • PC communication network including both analog and digital
  • public telephone network including both analog and digital
  • leased line network including both analog and digital
  • CATV network IMT2000 system
  • structural data including primary structural data of a plurality of interacting proteins and three-dimensional structural data of a single substance and Z or a complex is obtained.
  • the hydrophobic interaction energy is specified for each amino acid residue constituting the primary structure data
  • the electrostatic interaction energy is specified for each amino acid residue constituting the primary structure data.
  • the interaction site is identified by identifying the site of highly unstable amino acid residues based on the identified hydrophobic interaction energy and electrostatic interaction energy.
  • the solvent contact surface is specified for each amino acid residue constituting the primary structure data according to the acquired structural data, and the specified solvent contact surface, hydrophobic interaction energy, and electrostatic
  • the interaction site is identified by identifying the site of highly unstable amino acid residues based on the interaction energy, so if there is structural data for the complex, the interaction site of the protein can be more accurately and easily determined. It is possible to provide a protein interaction information processing apparatus, a protein interaction information processing method, a program, and a recording medium that can be specified.
  • the interaction site identified by the interaction site identification means the primary sequence of the partner on the interaction side is identified, and a candidate protein having a primary structure containing the primary sequence is searched. Then, for the searched candidate protein, the above-mentioned structure data obtaining means, solvent contact surface specifying means (when there is structural data at the time of complex), hydrophobic surface specifying means, electrostatic interaction site specifying means, and interaction described above
  • the site identification means the part of the primary sequence on the other side is a candidate: Protein interaction information processing apparatus, protein interaction information processing method, program, and recording medium that can easily predict unknown interactions by confirming whether they are identified as quality interaction sites Can be provided.
  • FIG. 51 and FIG. 52 are principle configuration diagrams showing the basic principle of the present invention.
  • the present invention generally has the following basic features.
  • FIG. 51 is a diagram illustrating the concept of predicting the binding site of one protein from the amino acid sequence information of one protein according to the present invention.
  • distance data in the space between each amino acid residue in the three-dimensional structure of a protein is determined from the amino acid sequence data of a protein or a bioactive polypeptide (step SA3). — 1)
  • FIG. 56 is a diagram showing the concept of the high-speed calculation method of the present invention.
  • k and n are calculated based on the relationship between the distance in amino acid sequence and the distance in space from three-dimensional structural information collected in a protein structure database such as PDB (Protein Data Bank). May be statistically processed and an appropriate value may be set.
  • is from 0 to 1, but preferably from 0.5 to 0.6.
  • k is 2.8 A to 4.8 A, and preferably 3.3 A to 4.3 A. This method has a very simple algorithm and a very low computational load, so it is a very powerful method when processing large amounts of proteins, for example, when handling tens of thousands of proteins.
  • This method uses the three-dimensional structure information data registered in the protein structure database to accurately determine the actual spatial distance between amino acid residues. For example, if the three-dimensional structure information data of the target protein is stored in a protein structure data base such as a PDB, by obtaining the three-dimensional structure information data registered in the database, the spatial distance can be calculated as follows. Can be calculated accurately.
  • the spatial distance R carriedbetween the amino acid residue number I and the amino acid residue number J is the coordinates ( Xl , y I;
  • coordinates (Xj, such as center of gravity or specific main chain atoms of the amino acid residue number J, yj, Zj) and when, may be calculated as follows.
  • This method has the disadvantage that the computational load is large compared to Method 1 and Method 2. However, it has the advantage that almost accurate spatial distances can be obtained for proteins of unknown structure.
  • a feature of the present invention is that a plurality of calculation methods are enabled in each step as described above.
  • a method of simply determining spatial distance data between amino acid residues from amino acid sequence data as in Method 1 is used.
  • the present invention calculates the total energy of the protein according to the distance data and the charge of each amino acid (step S A3-2).
  • the charge of the amino acid there are various methods for determining the charge of the amino acid.
  • the charge of a positively charged charged amino acid (lysine, arginine) is 1
  • the charge of a negatively charged charged amino acid (glutamic acid, aspartic acid) is 1
  • the other amino acids are 0.
  • the charge of each amino acid residue can be determined by the existing quantum chemical calculation method based on the three-dimensional structure information of the protein registered in the protein structure database or the three-dimensional structure information obtained by the simulation method.
  • There are various methods for calculating the total energy of a protein For example, it is described in "Introduction on Computational Chemistry" (F rank Jensen, Jon Wiley & Sons, 1999).
  • E t . tal is the total energy of the protein, is the partial charge of amino acid residue i, ij is the partial charge of amino acid residue ⁇ , and r ij is the space between amino acid residue i and amino acid residue j Distance.
  • the method based on this formula has a very small computational load as compared with other methods, and is particularly effective in performing a comprehensive calculation.
  • the present invention calculates how much each amino acid residue stabilizes the total energy of a protein by calculating the interaction energy between a specific amino acid and other amino acid residues in the protein by the following formula. Is determined (step SA 3-3). E interaction (N) ⁇ 0. ⁇ Q. j / r
  • N is an arbitrary amino acid residue number
  • E inleraotion (N) is the interaction energy between amino acid residue N and other amino acid residues
  • j is N other amino acid residue number
  • qj are partial charge of the amino acid residues j
  • r is the distance in the space between the amino acid residues N and amino acid residue j.
  • amino acid residues having a relatively high interaction energy determined in step SA3-3 or amino acid residues having an interaction energy exceeding a predetermined threshold are not energetically reduced. Predict the binding site by identifying it as a stable amino acid residue (step SA3-4).
  • FIG. 52 is a diagram for explaining the concept of predicting a binding site when a complex is formed by a plurality of proteins from the amino acid sequence information of the proteins according to the present invention.
  • FIG. 57 is a view showing a concept in a case where binding residues are assumed on a plurality of amino acid sequences.
  • the 50th amino acid residue of amino acid sequence A and the 100th amino acid residue of amino acid sequence B are binding residues.
  • the binding residue an amino acid residue predicted to be a binding site in each amino acid sequence by the method of the present invention described above with reference to FIG. 51 may be used.
  • the present invention determines the spatial distance between two amino acid residues present on different amino acid sequences (step SB3-2).
  • the above three methods can be used to determine the distance in space. The calculation can be performed efficiently with less load. 1) The case of using the high-speed calculation method will be described.
  • sequence distance between two amino acid residues present on different amino acid sequences is defined as follows.
  • Fig. 58 shows the target residue It is a figure explaining the concept of. As shown in FIG. 58, a binding residue between two amino acid sequences (A and B) and an arbitrary residue of interest other than the binding residue are defined.
  • the present invention estimates the spatial distance r of the tertiary structure of the complex from the sequence distance d between two amino acid residues present on different amino acid sequences (step SB3-3).
  • r kd n (0 ⁇ n ⁇ 1)
  • r is the distance in space
  • d is the distance on the array
  • k is a proportionality constant.
  • n is from 0 to 1, but preferably from 0.5 to 0.6.
  • k is 2.8 A to 4.8 A, but preferably 3.3 A to 4.3 A. That is, if the distance d on the array is known, the distance r on the space can be calculated.
  • the spatial distance between amino acid residues can be accurately determined by using the above-mentioned 2) calculation method using structural data.
  • FIG. 62 is a diagram showing a concept when a composite structure is generated using docking simulation.
  • a docking simulation is performed to generate a complex structure using multiple pieces of three-dimensional structure information.
  • various known simulation methods can be used. For example, as shown in FIG. 62, it is common to change the distance and orientation of two proteins. To give a more specific example, one structure is fixed and the other structure is given two degrees of freedom by rotation and two degrees of translation to generate various structures. Extraction of the structure where the two structures do not overlap but come into contact provides a possible complex structure.
  • the present invention calculates the total energy of the protein according to the distance data in space and the charge of each amino acid (step SB3-4).
  • the charge of a positively charged charged amino acid is 1
  • the charge of a negatively charged charged amino acid is 1
  • the charge of a negatively charged charged amino acid is 1
  • the other amino acids There is a method in which the electric charge of the pixel is set to 0.
  • each is calculated by the existing quantum chemistry calculation method.
  • the charge of the amino acid residue can also be determined.
  • E t . tal is the total energy of the protein
  • qi is the partial charge of amino acid residue i
  • q is the partial charge of amino acid residue j
  • ru is the space between amino acid residue i and amino acid residue j.
  • step SB 3- 1 the present invention returns to step SB 3- 1, by changing the amino acid residues that interact (binding residues), E t for all the combinations. Calculate tal and most E t . Predict the binding residue when tal is low as the binding site (step SB 3-5).
  • FIG. 53 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only those parts of the configuration relating to the present invention.
  • This system roughly connects a binding site prediction device 3100 and an external system 3200 that provides an external program such as a homology search or an external database relating to sequence information, etc., via a network 3300 so as to be able to communicate with each other. It is configured.
  • the network 330 has a function of interconnecting the binding site prediction device 310 and the external system 320, and is, for example, the Internet.
  • the external system 3200 is interconnected with the binding site prediction device 3100 via the network 3300, and provides the user with amino acid sequence information ⁇ protein three-dimensional structure information and the like. It has a function to provide a website that executes external programs such as external databases and homology search / motivation search.
  • the external system 3200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is generally based on information processing devices such as workstations and personal computers that are generally available on the market, and their attached devices. It may be composed of devices.
  • the functions of the external system 3200 include the CPU, disk device, memory device, input device, output device, communication control device, and the like in the hardware configuration of the external system 3200, and programs for controlling them.
  • the binding site prediction device 3100 is schematically connected to a control unit 3102, such as a CPU, which comprehensively controls the entire binding site prediction device 310, a communication line, and the like.
  • Communication control interface unit 3104 connected to communication devices (not shown) such as routers, and input / output control interface unit 3110 connected to input devices 3112 and output devices 3114 8, and a storage unit 3106 for storing various databases, tapes, and the like, and these units are communicably connected via an arbitrary communication path.
  • the binding site prediction device 310 is communicably connected to a network 330 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • amino acid sequence database 310a to processing result file 310g are storage means such as a fixed disk device, and are used for various processes. Stores various programs and tables to be used, files, data bases, files for web pages, and the like. Among these constituent elements of the storage unit 310, the amino acid sequence database 310a is a database storing amino acid sequences.
  • the amino acid sequence database 310a may be an external amino acid sequence database accessed via the Internet, and may copy these databases, store original sequence information, It may be an in-house database created by adding unique annotation information or the like.
  • the protein structure database 310b is a database that stores information on the three-dimensional structure of proteins.
  • the protein structure database 3106b may be an external three-dimensional structure information database accessed via the Internet, and may copy these databases or store the original three-dimensional structure information. Alternatively, it may be an in-house database created by adding unique annotation information or the like.
  • the distance data file 3106c is distance information storage means for storing information on the distance between each amino acid residue contained in the amino acid sequence-(sequence distance, spatial distance), and the like. .
  • the total energy data file 3106d is a total energy data storage unit that stores information on the total energy of the protein and the like.
  • the interaction energy data file 3106 e is an interaction energy data storage unit that stores information on the interaction energy of each amino acid residue.
  • the complex structure data file 3106f is a complex structure data storage means for storing information on a complex structure of a plurality of proteins and the like.
  • the processing result file 3106 g is processing result storage means for storing information on various types of processing results by the binding site prediction device 310.
  • the communication control interface unit 3104 is provided between the binding site prediction device 310 and the network 330 (or a communication device such as a router). It controls communication between them. That is, the communication control interface unit 3104 has a function of communicating data with another terminal via a communication line.
  • an input / output control interface unit 310 controls the input device 3112 and the output device 3114.
  • the output device 3114 in addition to a monitor (including a home television), a speaker can be used (the output device 3114 may be described as a monitor in the following).
  • a keyboard, a mouse, a microphone, or the like can be used as the input device 311. The monitor also implements the pointing device function in cooperation with the mouse.
  • control unit 3102 includes a control program such as an OS (Operating System), a program defining various processing procedures, and an internal memory for storing required data. These programs and the like perform information processing for executing various processes.
  • the control section 3102 is functionally conceptually composed of an amino acid sequence data acquisition section 3102a, a spatial distance determination section 3102b, a charge determination section 3102c, and an energy calculation section 310. 2 d, candidate amino acid residue deciding unit 3102 e, complex structure generating unit 3102 f, energy minimizing unit 3102 g, binding candidate data obtaining unit 3102 h, binding site It is configured to include a prediction unit 3102i and a binding partner candidate determination unit 3102j.
  • the amino acid sequence data obtaining unit 3102a comprises: an amino acid sequence data obtaining means for obtaining the amino acid sequence data of the target protein or bioactive polypeptide; a plurality of target proteins or bioactive polypeptides; Means for obtaining amino acid sequence data of peptides, amino acid sequence data obtaining means for obtaining amino acid sequence data of peptides, amino acid sequence data of target proteins or physiologically active polypeptides, and a plurality of proteins or biologically active polypeptides which become binding targets It is an amino acid sequence data acquiring means for acquiring amino acid sequence data of a peptide.
  • the spatial distance determination unit 3102b calculates the spatial distance between each amino acid residue contained in the amino acid sequence data obtained by the amino acid sequence data obtaining means.
  • the spatial distance between the amino acid residues contained in the plurality of amino acid sequence data obtained by the spatial distance determining means to be determined and the amino acid sequence data obtaining means is determined by the three-dimensional structure of the complex generated by the complex structure generating means.
  • the spatial distance determination unit 3102b is composed of a high-speed calculation unit 3102k, a structural data use calculation unit 3102m, and a simulation data use calculation unit. It is configured with 3 102 n.
  • the high-speed calculation unit 3102k is a high-speed calculation means for determining a spatial distance by a high-speed calculation method.
  • the structural data utilization calculation unit 3102m is a structural data utilization computation means for determining a spatial distance by a structural data utilization computation method.
  • the simulation data use calculation unit 3102n is a simulation data use calculation means for determining a spatial distance by a simulation data use calculation method.
  • the charge determination unit 3102c determines a charge of each amino acid residue included in the amino acid sequence data, and determines a charge of each amino acid residue included in a plurality of amino acid sequence data.
  • Charge determining means for determining the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding amino acid.
  • the energy calculator 3102d calculates the spatial distance between each amino acid residue determined by the spatial distance determining means and the charge of each amino acid residue determined by the charge determining means. It is an energy calculation means for calculating the energy of each amino acid residue. As shown in FIG. 55, the energy calculator 3102d includes a total energy calculator 3102p and an interaction energy calculator 3102q. Here, the total energy calculation unit 3102p is a total energy calculation means for calculating the total energy of the protein. Also, the interaction energy The energy calculator 3102q is an interaction energy calculation means for calculating the interaction energy of amino acid residues.
  • the candidate amino acid residue determining unit 3102 e includes candidate amino acid residue determining means for determining a candidate amino acid residue serving as a binding site in accordance with the energy calculated by the energy calculating means, and energy This is a candidate amino acid residue determining means for determining, as a candidate amino acid residue of the binding site, a binding site at which the total energy is minimized by the minimizing means.
  • the complex structure generating section 3102 ⁇ comprises a complex structure generating means for generating three-dimensional structure information of a complex to which a plurality of target proteins or physiologically active polypeptides are bound, and a target protein or physiological protein.
  • This is a complex structure generating means for generating three-dimensional structure information of a complex in which an active polypeptide is bound to a protein or a bioactive polypeptide as a binding candidate.
  • the energy minimizing unit 3102 g changes the binding site of the complex by the complex structure generating means to generate three-dimensional structure information of the complex, and calculates the energy of each amino acid residue by the energy calculation means. This is energy minimization means that calculates and finds the binding site where the sum of the energies is minimized.
  • binding candidate data acquiring unit 3102 h is a binding candidate data acquiring means for acquiring amino acid sequence data and the like of a protein as a binding candidate.
  • binding site prediction unit 3102i is a binding site prediction means for predicting an amino acid residue at the binding site from candidate amino acid residues at the binding site.
  • the binding partner candidate determination unit 3102j executes the energy minimization unit for all binding candidates, and as a result, a binding candidate determination unit that determines a binding candidate having a binding site that minimizes the total energy. It is.
  • FIG. 59 is a flowchart illustrating an example of processing of the present system in the present embodiment.
  • the processing flow indicated by the dotted line shows the processing flow when the binding site in one protein sequence is predicted by the present system
  • the processing flow indicated by the double line is the interaction by the present system. Shows the processing flow in the case of predicting the binding site using the amino acid sequences of multiple proteins that are known to perform, and the processing flow indicated by the solid line shows the best binding to the target protein by this system.
  • 4 shows a processing flow when predicting a candidate protein on the other side.
  • the basic concept of these three processing flows and most of the calculation processing are common. Furthermore, the general purpose of analyzing interaction information is common.
  • the binding site predicting apparatus 3100 performs the processing of the amino acid sequence data obtaining section 3102a, and the external database of the external system 3200 such as Genbank ⁇ the amino acid sequence database 3100 Access 6a etc. to obtain the amino acid sequence data of the target protein or bioactive polypeptide (Step SC3-1).
  • the binding site prediction device 3100 calculates the space between the amino acid residues contained in the amino acid sequence data obtained in step SC3-1.
  • the upper distance is determined (step SC3-2).
  • the spatial distance determination unit 3102b determines the spatial distance from the sequence distance between each amino acid residue by the high-speed calculation method described above by the processing of the high-speed calculation unit 3102k.
  • the spatial distance between each amino acid residue may be determined using the known structure data by the above-described structure data use calculation method by the processing of the structure data use calculation unit 3102 m.
  • simulation data By using the simulation data usage calculation method described above by the use calculation unit 3102 ⁇ , the spatial distance between each amino acid residue is determined using the predicted structure based on the processing results of the existing structure simulation program. Good.
  • the binding site predicting apparatus 3100 determines the charge of each amino acid residue contained in the amino acid sequence data by the processing of the charge determining section 3102c (step SC3-3).
  • the charge can be determined by quantum chemical calculation.
  • the binding site prediction device 3100 uses the energy calculation unit 3102d to process each of the amino acid residues according to the spatial distance determined between the amino acid residues and the charge of each amino acid residue. Calculate the energy of the amino acid residue (Step SC3-4).
  • the total energy of the protein is calculated by the following equation by the processing of the total energy calculation unit 3102p.
  • E t . tal is the total energy of the protein
  • q is the partial charge of amino acid residue j
  • ru is the space between amino acid residue i and amino acid residue j. Distance.
  • the interaction energy calculation unit 3102q calculates the interaction energy between a specific amino acid and other amino acid residues in the protein by the following formula, whereby each amino acid residue is Find out how much total energy is stabilized.
  • N is an arbitrary amino acid residue number
  • E interaction (N) is the interaction energy between amino acid residue N and other amino acid residues
  • j is N
  • q N is the partial charge of amino acid residue N
  • dj is the partial charge of amino acid residue j
  • r is the spatial distance between amino acid residue N and amino acid residue j.
  • Half of the sum of the interaction energies for all the amino acid residues is equivalent to the energy of the whole protein—E t tal .
  • the binding site prediction device 310 determines the candidate amino acid residue to be the binding site according to the calculated interaction energy by the processing of the candidate amino acid residue determination unit 3102 e (step SC 3-5).
  • the candidate amino acid residue determining unit 3102 e determinates an amino acid residue having a relatively high interaction energy or an amino acid residue having an interaction energy exceeding a predetermined threshold value in terms of energy. By determining the amino acid residue as a suitable amino acid residue, a candidate amino acid residue serving as a binding site is determined.
  • the binding site prediction device 3100 removes candidates that do not spatially or energetically become binding sites among the candidate amino acid residues by the processing of the binding site prediction unit 3102i. This predicts the binding site. For example, assuming that a result as shown in FIG. 60 is obtained as an example of the energy of the candidate amino acid residue of the processing result, the binding site predicting unit 3102i has the highest energy in FIG. Higher glutamic acid (GLU) is predicted as the best candidate binding site. Also, as shown in FIG. 61, the binding site prediction unit 3102i may be a binding site where an unstable portion in the three-dimensional structure is clustered (the amino acid residue portion shown in black). Predicts that it is high.
  • GLU glutamic acid
  • the binding site prediction device 3100 performs the processing of the amino acid sequence data acquisition unit 3102a, thereby processing the external database of the external system 3200 such as Genbankbankthe amino acid sequence database 3106 Access to a, etc. to obtain amino acid sequence data of the target protein or bioactive polypeptide (Step SC3-1).
  • the binding site prediction device 3100 generates the three-dimensional structure information of the complex in which a plurality of target proteins or bioactive polypeptides are bound by the processing of the complex structure generating section 3102f ( Step SC 3—7).
  • the complex structure generation unit 3102f may predict the three-dimensional structure of the complex by using a simulation method using simulation data. If the three-dimensional structure of the complex is known, the complex structure generating unit 3102f may acquire the three-dimensional structure information of the complex.
  • FIG. 7 is a view showing a concept in a case where binding residues are assumed on a plurality of amino acid sequences.
  • the 50th amino acid residue of the amino acid sequence A and the 100th amino acid residue of the amino acid sequence B binding site predicting apparatus are the binding residues.
  • the binding residue an amino acid residue predicted to be a binding site in each amino acid sequence by the above-described method of the present invention may be used.
  • the binding site predicting apparatus 310 sets the spatial distance between each amino acid residue included in the plurality of obtained amino acid sequence data by the processing of the spatial distance determining unit 3102 b. Is determined according to the three-dimensional structure information of the complex (step SC3-2).
  • the above three methods can be used to determine the distance in space.However, when the three-dimensional structure of the complex is known or when docking simulation is performed, the spatial distance is determined.
  • the decision unit 3102b can accurately determine the spatial distance between amino acid residues. The following describes the case where the calculation load is the least and the calculation can be performed efficiently. 1) The high-speed calculation method is used.
  • the spatial distance determination unit 3102b defines the sequence distance between two amino acid residues present on different amino acid sequences as follows.
  • the spatial distance determination unit 3102b estimates the spatial distance r of the three-dimensional structure of the complex from the sequence distance d between two amino acid residues present on different amino acid sequences.
  • r kd n (0 ⁇ n ⁇ 1)
  • r is the distance in space
  • d is the distance on the array
  • k is a proportionality constant.
  • n is a force S between 0 and 1, preferably 0.5 to 0.6.
  • k is 2.8 A to 4.8 A, but preferably 3.3 A to 4.3 A.
  • the binding site prediction device 3100 determines the charge of each amino acid residue included in the plurality of amino acid sequence data by the processing of the charge determination unit 3102c (step S C 3-3).
  • the binding site predicting apparatus 3100 performs the processing of the energy calculation unit 3102d to determine the spatial distance between each amino acid residue determined in step SC3-2 and the step SC3-3.
  • the energy of each amino acid residue is calculated according to the charge of each amino acid residue (step SC3-4).
  • the binding site prediction device 3100 determines a candidate amino acid residue to be a binding site according to the calculated interaction energy by the processing of the candidate amino acid residue determination unit 3102e (step SC3-5).
  • the binding site prediction device 3100 changes the binding site for the complex in step SC3-7 to generate the three-dimensional structure information of the complex by the processing of the energy minimizing unit 3102g, and performs the process in step SC3-4.
  • the energy of each amino acid residue is calculated, and the binding site that minimizes the sum of the energies is determined (steps SC317 to SC3-5 are repeated as appropriate).
  • the binding site predicting apparatus 3100 determines, by the processing of the candidate amino acid residue determining unit 3102 e, the binding site that finally minimizes the total energy as the candidate amino acid residue of the binding site (step SC 3 — Five) .
  • the candidate amino acid residue determination unit 3102e may create a diagram in which the total energy of the protein is plotted based on the amino acid sequence, and output the figure to the output device 3114.
  • Figure 63 shows the total energy when each amino acid residue of protein A and protein B is used as a binding residue. It is an example of the figure which plotted the sum. By creating a plot in this way, it is possible to visually grasp which amino acid residue of the two amino acid sequences is selected as the binding residue, thereby reducing the total energy. . This completes the process of predicting the binding site using the amino acid sequences of a plurality of proteins that are known to interact with this system.
  • FIG. 59 is a flowchart showing an example of the processing when the present system according to the present embodiment predicts a candidate protein on the partner side that best binds to the target protein.
  • the binding site prediction device 3100 performs the processing of the amino acid sequence data acquisition unit 3102a, thereby processing the external database of the external system 3200 such as Genbankbankthe amino acid sequence database 3106 Access to a etc. to obtain the amino acid sequence data of the target protein or bioactive polypeptide (Step SC3-1).
  • the binding site prediction device 3100 by the processing of the binding candidate data acquisition unit 3102h, processes the external database of the external system 3200 such as Genbank and the amino acid sequence database 3106a etc.
  • Step SC3-6 amino acid sequence data of one or more proteins or biologically active polypeptides that are candidates for binding to the target protein
  • the binding site predicting apparatus 3100 binds the target protein or bioactive polypeptide to the candidate protein or bioactive polypeptide by the processing of the complex structure generating section 3102f.
  • the three-dimensional structure information of the complex thus generated is generated (step SC3-7).
  • the binding site predicting apparatus 3100 by the processing of the spatial distance determining unit 3102b, obtains the target amino acid sequence data obtained from step SC3-1 and the step
  • the spatial distance between each amino acid residue contained in the amino acid sequence data of the binding probe obtained in Step SC3-6 is calculated by the three-dimensional structure information of the complex generated in Step SC3-7. (Step SC 3-2).
  • the binding site prediction device 3100 determines the charge of each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate by the processing of the charge determining unit 3102c (step SC 3-3).
  • the spatial distance between each amino acid residue determined in Step SC3-2 and the distance in Step SC3-3 are determined.
  • the energy of each amino acid residue is calculated according to the charge of each amino acid residue (Step SC3-4).
  • the binding site prediction device 3100 generates the three-dimensional structure information of the complex by changing the binding site for the complex in step SC3-7 by the processing of the energy minimizing unit 3102g, and in step SC3-4.
  • the energy of each amino acid residue is calculated, and the binding site that minimizes the sum of the energies is determined (steps SC3-7 to SC3-5 are repeated as appropriate).
  • the binding site prediction device 3100 performs the energy minimization process by repeating the steps SC3-6 to SC3-5 for all the binding candidates by the processing of the candidate amino acid residue determining unit 102e. Then, a binding candidate having a binding site that minimizes the total energy is determined (step SC3-8). This completes the processing for predicting the candidate protein on the partner side that best binds to the target protein using this system.
  • Example 1 relates to the prediction of the binding site of a single protein.
  • Liponuclease A a hydrolase
  • the binding site is specified on the amino acid sequence.
  • amino acid sequence data of ribonuclease A was obtained from the protein sequence database GenBank.
  • FIG. 64 is a diagram showing the relationship between the distance in the arrangement of two glutamic acids and the distance in space. As shown in FIG. 64, for example, it is known by a known statistical method that the average spatial distance when glutamic acid and dalamic acid are 20 residues apart in the sequence is 20 A. As described above, information indicating the relationship between the distance in sequence between amino acid residues and the distance in space was obtained.
  • the charge of the amino acid was determined.
  • a charge to each amino acid residue such as _ 1 for glutamic acid and aspartic acid, +1 for arginine, lysine, and histidine, and 0 for others.
  • K is the amino acid residue number
  • ElnteraotIon (K) is the interaction energy between amino acid residue K and the others
  • j is any amino acid residue other than K
  • r is amino acid residue K Spatial distance from amino acid residue j
  • FIG. 65 is a diagram in which the energy of each amino acid residue of liponuclease A is plotted against the amino acid residue number.
  • binding site candidates (FIG. 66). As shown in FIG. 66, out of the 18 binding site detections, 12 actual binding sites (experimentally determined binding sites) were found. As described above, according to the present invention, it was possible to predict the binding site with very high accuracy and high speed using only the amino acid sequence information of liponuclease A. This concludes the first embodiment of the present invention.
  • Example 2 of the present invention acetylcholine esterase inhibitor
  • Example 2 also relates to the prediction of the binding site of a single protein.
  • Example 2 the binding site was estimated based on the amino acid sequence of acetylcholine esterase inhibitor.
  • existing three-dimensional structure information data included in the PDB was used.
  • FIG. 67 is a diagram showing a part of the steric structure information data of acetylcholine 'esterase' inhibitor stored in the PDB. From the second column of FIG. 67, an atomic number, an atomic species, a ch a in name, an amino acid residue number, an X coordinate, a Y coordinate, and a Z coordinate are shown, respectively.
  • the spatial distance R carriedbetween the amino acid residue number I and the amino acid residue number J is the coordinates of the center of gravity of the amino acid residue number I and atoms of a specific main chain ( ⁇ ⁇ ).
  • the spatial distance between the glutamic acid of amino acid residue number 4 and the aspartic acid of amino acid residue number 5 shown in FIG. 67 is calculated by the distance between carbon atoms as follows. become.
  • FIG. 68 is a diagram showing the energy of acetylcholine esterase inhibitor obtained according to the present invention. From Fig. 68, 10 of the acetylcholine esterase 'inhibitors with energies of 0 or more are taken out as binding site signs, and if they are experimentally examined whether they are binding sites, seven of them are actually It was a binding site ( Figure 69).
  • the binding site can be predicted with extremely high accuracy.
  • the second embodiment is different from the first embodiment in that known three-dimensional structure information is used.
  • the method of determining the spatial distance is changed between the first embodiment and the second embodiment, the effect of the present invention can be obtained regardless of the method of determining the spatial distance, since both gave good results. It can be expected.
  • Example 3 relates to prediction of a binding site when two proteins bind.
  • “Huntingnassocitatedpr otennteracting” It has been experimentally found that “protein” binds to “niticoidesynthase 2 AJ.” Further, the binding site is “hun tingtin— associtated rotein inte racting protein” near amino acid residue number 600, and “nitic oxidesynthase 2AJ is an amino acid residue. It is known that the base number is around 100.
  • the complex structure was generated using the high-speed calculation method described above. That is, the following equation was used.
  • FIG. 70 The sequence distance between the residue of interest on IB and the binding residue I) n, and the energy of the complex assuming each binding site was calculated, and FIG. 70 could be created.
  • the horizontal axis represents the amino acid residue number of the binding site of huntingtin-associated protein integral protein
  • the vertical axis represents the amino acid residue number of the nitricoxidesynthase 2A binding site. It is a contour line showing the sum of energy when the body is generated.
  • the energy of the complex is 110.
  • the energy for each binding site is required.
  • the former corresponds to the actual binding site (the part surrounded by a black circle in the figure). As described above, the binding sites of the two proteins could be accurately predicted.
  • Embodiment 4 of the present invention will be described with reference to FIG. 71 and the like.
  • Example 4 relates to binding partner prediction.
  • E2F t rans c r i p t i o n f a c t o r 1 (hereinafter referred to as E 2 F 1) is a protein whose information on interacting partners has been well examined experimentally.
  • a partner interacting with E 2 F 1 was searched for in the database of the Ho mo S apiens gene (here, 6,600 were randomly extracted), and the amino acid sequence data of the candidate protein was determined. Then, similarly to the procedure calculated in Example 3, a binding site to E 2 F 1 is searched for each candidate protein of the partner. And the energy when the energy is most stable (minimum) is defined as the interaction energy.
  • Figure 71 is a histogram of the interaction energy of each candidate protein and the number of genes.
  • the relative interaction energies could be calculated. For example, there are 100 interaction energies greater than 90 (the energy is less than -90), but it is highly likely that the one here is the interaction partner. This method is very fast and can calculate the interaction comprehensively.
  • binding site prediction device 3100 performs processing in a stand-alone form has been described as an example, but a request from a client terminal configured in a separate housing from the binding site prediction device 3100 has been described. Processing may be performed in response to the request, and the processing result may be returned to the client terminal.
  • all or a part of the processes described as being performed automatically can be performed manually, or the processes described as being performed automatically can be performed. All or a part of the processing can be automatically performed by a known method.
  • each of the illustrated components is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the processing functions provided by each unit of the binding site prediction device 3100 or each device in particular, each processing function performed by the control unit 3102, all or a part of the processing functions are transferred to the CPU (Central Processing Unit).
  • the CPU Central Processing Unit
  • the control unit 3102 all or a part of the processing functions are transferred to the CPU (Central Processing Unit).
  • the CPU Central Processing Unit
  • the program is recorded on a recording medium described later, and is mechanically read by the binding site prediction device 3100 as necessary.
  • a storage unit 3106 such as a ROM or an HD stores a computer program for giving instructions to the CPU and performing various processes in cooperation with ⁇ S (OerangSystem).
  • This computer program is executed by being loaded into a RAM or the like, and forms a control unit 3102 in cooperation with a CPU.
  • this computer program may be recorded on an application program server connected to the binding site prediction device 3100 via an arbitrary network 3300, and all or one of them may be recorded as necessary. It is also possible to download a copy.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • the “recording medium” means any “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EE PROM, a CD-ROM, an MO, a DVD, and various computer systems. Any fixed physical media, such as ROM, RAM, HD, etc., built into the PC, or communication lines or carrier waves when transmitting programs via networks represented by LAN, WAN, Internet In this way, the term "communication medium” that holds programs for a short period of time is included.
  • program is a data processing method described in any language and description method, regardless of the format of source code / binary code.
  • the “program” is not necessarily limited to a single configuration, but may be distributed as multiple modules / libraries, or an operating system (operating system). System that achieves its function in cooperation with a separate program represented by System. It should be noted that a known configuration or procedure can be used for a specific configuration for reading the recording medium in each apparatus described in the embodiment, a reading procedure, an installation procedure after reading, and the like.
  • Various databases (amino acid sequence database 3106a to processing result file 3106g) stored in the storage unit 3106 include a memory device such as RAM and ROM, a fixed disk device such as a hard disk, a flexible disk, and an optical disk. It is a storage means such as a disk, and stores various programs and tables used for various processes and web site provision, and files for finale database and web page.
  • the binding site prediction device 3100 connects a peripheral device such as a printer monitor image scanner to an information processing device such as an information processing terminal such as a known personal computer or a work station.
  • a peripheral device such as a printer monitor image scanner
  • an information processing device such as an information processing terminal
  • the specific form of dispersion / integration of the binding site prediction device 3100 is not limited to the illustrated one, and may be all or part thereof.
  • each database may be independently configured as an independent database device, or may be realized by using a process of processing the program.
  • the network 3300 has a function of interconnecting the binding site prediction device 3100 and the external system 3200, and includes, for example, the Internet ⁇ , the intranet, ⁇ AN (including both wired / wireless), VAN, PC communication network, public telephone network (including both analog and digital), leased line network (including both analog and digital), CATV network, IMT 2000 system, GSM system or PDC / PDC—Portable circuit switching network such as P method Z mobile packet switching It may include any of a network, a radio paging network, a local radio network such as B 1 uetooth, a PHS network, and a satellite communication network such as CS, BS or ISDB. In other words, this system can send and receive various types of data via any network, whether wired or wireless.
  • the Internet ⁇ includes, for example, the Internet ⁇ , the intranet, ⁇ AN (including both wired / wireless), VAN, PC communication network, public telephone network (including both analog and digital), leased line network (including both analog and digital
  • data on the spatial distance between each amino acid residue in the stereostructure of the protein or the biologically active polypeptide is obtained from the amino acid sequence data of the protein or the biologically active polypeptide.
  • the binding site is predicted by identifying an electrostatically unstable amino acid residue in accordance with the distance data and the charge of each amino acid. Therefore, the binding site is predicted from the amino acid sequence of a protein or a bioactive polypeptide.
  • a binding site prediction device, a binding site prediction method, a program which can quickly and accurately predict a binding site by taking advantage of the fact that an amino acid residue that is likely to be electrically unstable tends to be a binding site.
  • a recording medium can be provided.
  • amino acid sequence data of a target protein or a physiologically active polypeptide is obtained, and a spatial distance between each amino acid residue contained in the obtained amino acid sequence data is determined.
  • the charge of each amino acid residue contained in the amino acid sequence data is determined, and each amino acid is determined according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue. Since the energy of the residue is calculated and the candidate amino acid residue serving as a binding site is determined according to the calculated energy, amino acids that are likely to be electrostatically unstable from the amino acid sequence of the protein or bioactive polypeptide
  • a binding site prediction device, a binding site prediction method, and a program that can quickly and accurately predict a binding site by utilizing the fact that residues tend to be binding sites. And, it is possible to provide a recording medium.
  • amino acid sequence data of a plurality of desired proteins or biologically active polypeptides is obtained, and three-dimensional structure information of a complex in which the plurality of desired proteins or biologically active polypeptides is bound is generated. Then, the spatial distance between each amino acid residue contained in the acquired multiple amino acid sequence data is W
  • amino acid sequence data of a target protein or bioactive polypeptide and amino acid sequence data of one or more proteins or bioactive polypeptides as binding candidates are obtained.
  • the spatial distance between each amino acid residue contained in the sequence data is determined according to the three-dimensional structure information of the generated complex, and each amino acid residue contained in the target amino acid sequence data and the amino acid sequence data of the binding candidate is determined.
  • the determined charge is determined according to the determined spatial distance between each amino acid residue and the determined charge of each amino acid residue.
  • the electrostatic potential is determined from the amino acid sequence of the protein or bioactive polypeptide. Utilizing the fact that amino acid residues that are likely to be unstable tend to be binding sites, we can quickly and accurately select the optimal binding candidate protein. It is possible to provide a binding site prediction device, a binding site prediction method, a program, and a recording medium that can be predicted.
  • FIG. 72 is a flowchart showing the basic principle of the present invention.
  • step SA4-1 coordinate data of a protein is obtained (step SA4-1).
  • the acquired coordinate data of the protein is, for example, the coordinate data obtained by X-ray crystallographic analysis, and the known modeling software (for example, “Accelrys Inc. (company name)” “WebLab Vierer”).
  • Pro 4.2 (product name) and“ Insight II ”(product name) (www. Accelry s. Com) N Tr ipos, Inc.
  • coordinate data of any kind of protein such as coordinate data registered in a known protein structure database such as PDB (Protein Data Base), may be used. Then, the present invention extracts, from the coordinate data of the protein, coordinates of a group of neighboring amino acid residues included within a predetermined distance (for example, rA) from the specific amino acid residue i (step SA4-2).
  • a group of amino acid residues including atoms existing within a predetermined distance from all the atoms contained in amino acid residue i is a neighboring amino acid residue group, and the coordinates of all the atoms contained in this neighboring amino acid residue group are Extract. If cysteine (CYS) is included in the extracted neighboring amino acid residue group and it forms a disulfide bond with another cysteine (CYS), the other CYS is also included in the neighboring amino acid residue group. May be added.
  • the present invention adds a capping substituent (for example, a hydrogen atom (H) or a methinole group (CH 3 ) to a cut portion of a group of adjacent amino acid residues (step S A4-3). .
  • a capping substituent for example, a hydrogen atom (H) or a methinole group (CH 3 )
  • the present invention calculates the overall charge of the group of adjacent amino acid residues to which the capping substituent has been added (step SA4-4).
  • charge calculation any known charge calculation method may be used.
  • high-speed calculation can be performed by subtracting the number of acidic amino acid residues from the number of basic amino acid residues.
  • the present invention provides a molecular orbital calculation program for a known amino acid coordinate of a specific amino acid residue i by using an electric charge for a group of adjacent amino acid residues to which a capping substituent is added.
  • the structure is optimized using a semi-empirical molecular orbital calculation program such as “MOPAC 2000 VER. 1.0” (product name) (step SA4-5).
  • the present invention replaces the optimized atomic coordinates with the corresponding atomic coordinates on the initial protein coordinate data (step SA4-6).
  • the present invention applies steps SA4-2 to SA4-6 for all amino acid residues i (the loop processing is performed by incrementing i from the first amino acid residue to the last amino acid residue). Then, perform optimization for all amino acid residues (step SA4-7). Then, the present invention further performs the structure optimization by executing Steps SA4-1 to SA4-7 a plurality of times (n times) with the structure data obtained in Step SA4-7 as an initial structure. Accuracy can be increased (steps SA 4-8).
  • FIG. 73 is a block diagram showing an example of a configuration of the present system to which the present invention is applied, and conceptually shows only a portion related to the present invention in the configuration.
  • This system roughly comprises a protein structure optimization device 4100 and an external system 4200 that provides an external database and a homology search external program for protein structure information and the like. It is configured to be communicably connected via 300.
  • a network 4300 has a function of interconnecting the protein structure optimization apparatus 4100 and the external system 4200, and is, for example, the Internet.
  • the external system 420 is interconnected with the protein structure optimization device 410 via a network 4300, and provides an external database for protein structure information and the like to users. ⁇ It has a function to provide a website for executing external programs such as homology search and motif search.
  • the external system 420 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration may be a general-purpose commercially-available information processing device such as a workstation, a personal computer, and the like. It may be configured with attached devices.
  • the functions of the external system 420 are the same as those of the CPU, disk device, memory device, input device, output device, communication control device, and the like in the hardware configuration of the external system 420 ′, and the programs that control them. And so on.
  • the protein structure optimizing device 4100 is a control unit such as a CPU, etc., which controls the entire protein structure optimizing device 4100 as a whole.
  • Routers and other communication devices connected to The communication control interface unit 4104, the input / output control interface unit 4108 connected to the input device 4111 and the output device 4114, and various database tables
  • the storage unit 4106 is provided, and these units are communicably connected via an arbitrary communication path.
  • the protein structure optimizing device 4100 is communicably connected to a network 4300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • the various databases and tables stored in the storage unit 410 are storage means such as a fixed disk device. Stores various programs / tables / files / databases used for processing and files for web pages.
  • the protein structure information database 4106a is coordinate data storage means for storing coordinate data of the three-dimensional structure of the protein.
  • the protein structure information database 4106a may be an external database such as a PDB accessed via the Internet, and may copy these databases, store original information, Further, it may be an in-house database created by adding unique annotation information or the like.
  • processing result file 410b is a processing result storage means for storing information relating to the processing result of each processing of the control unit 410 of the protein structure optimizing device 410.
  • a communication control interface unit 410 controls communication between the protein structure optimizing device 410 and the network 4300 (or a communication device such as a router). . That is, the communication control interface unit 410 has a function of communicating data with another terminal via a communication line. Further, in FIG. 73, an input / output control interface unit 410 controls the input device 4112 and the output device 4114.
  • a speaker in addition to a monitor (including a home television)
  • the output device 411 may be described as a monitor in the following description).
  • a keyboard, a mouse, a microphone, or the like can be used as the input device 411. The monitor also realizes the pointing device function in cooperation with the mouse.
  • control unit 4102 has a control program such as an OS (Operating System), a program defining various processing procedures, and an internal memory for storing required data. Information processing for executing various processes is performed by these programs and the like.
  • the control unit 4102 is functionally conceptually composed of a coordinate data acquisition unit 4102a, a neighboring amino acid residue group extraction unit 4102b, a cap addition unit 4102c, and a charge calculation unit 4 It is configured to include a 102 d, a structure optimization unit 4102 e, and an atomic coordinate replacement unit 4102f.
  • the coordinate data acquisition section 4102a is a coordinate data acquisition means for acquiring the coordinate data of the protein.
  • the neighboring amino acid residue group extraction unit 4102b extracts the coordinates of the neighboring amino acid residue groups included within a predetermined distance from a specific amino acid residue in the coordinate data of the protein. Extraction means.
  • the cap addition section 4102c is a cap addition means for adding a cap substituent to the cut portion of the adjacent amino acid residue group.
  • the charge calculator 4102d is a charge calculator for calculating the entire charge of the neighboring amino acid residue group to which the capping substituent has been added by the cap adding means.
  • the structure optimizing unit 4102 e uses the charge calculated by the charge calculation means for the neighboring amino acid residue group to which the capping substituent has been added by the cap addition means. This is a structure optimization means that performs structure optimization for the atomic coordinates of a specific amino acid residue. Further, the atomic coordinate replacing unit 4102f converts the atomic coordinates optimized by the structure optimizing means into the coordinate data of the protein. Means for replacing atomic coordinates with the corresponding atomic coordinates. The details of the processing performed by these units will be described later.
  • FIG. 74 is a flowchart illustrating an example of main processing of the present system in the present embodiment.
  • Protein structure optimization device 4100 by the processing of the coordinate data acquisition unit 4102 a, protein structure information database 4106 from an external database of a or the external system 4200 acquires coordinate data of the desired protein (step SB 4 - 1) 0 where
  • the coordinate data of the protein to be acquired is, for example, the coordinate data obtained by X-ray crystallographic analysis, and the known modeling software (for example, “We b Lab Vi c” of Ace1rysInc. (Company name)).
  • ewe r Pro 4.2 (product name),“ Insight II ”(product name) (www.
  • FIG. 75 is a diagram showing an example of the coordinate data of the protein.
  • coordinate data in the PDB format is used, and hydrogen is added to structural information obtained by X-ray crystallographic analysis using a commercially available program.
  • the protein structure optimization apparatus 4100 adds 1 to a counter n (the initial value is 0) indicating the number of times of processing by the processing of the control unit 4102. (Step SB 4-2).
  • the protein structure optimizing device 4100 adds 1 to a counter i (initial value is 0) representing the amino acid residue number by the processing of the control unit 4102 (step SB4-3).
  • the protein structure optimizing device 4100 performs the processing of the neighboring amino acid residue group extraction unit 4102b to set the coordinate data of the protein to be processed within a predetermined distance (for example, rA) from the specific amino acid residue i.
  • the coordinates of the neighboring amino acid residues are extracted (step SB4-4). That is, a group of amino acid residues k (k ⁇ i) including atom 1 existing within a predetermined distance from all atoms j included in amino acid residue i is a group of neighboring amino acid residues, and Extract the coordinates of all the atoms m in the group.
  • cysteine (CYS) is included in the extracted neighboring amino acid residue group, and it has a distinolide bond with another cysteine (CYS), the other cysteine (CYS) is also nearby. It may be added to the amino acid residue group. That is, when the nearby amino acid residue group extraction unit 4102b includes cysteine (CYS) in the extracted nearby amino acid residue group, the neighboring amino acid residue group extraction unit 4102b forms a disulfide bond with the cysteine (CYS). It is determined whether there is another cysteine (CYS) that is not included in the neighboring amino acid residue group, and if another cysteine (CYS) exists, the other cysteine (CYS) is also nearby Amino acid residue group.
  • the protein structure optimizing apparatus 4100 uses the cap addition unit 4102c to process the capping substituent (for example, hydrogen atom (H) or A methyl group (CH 3 )) is added (step SB 4-5). Whether the hydrogen or methyl group is used as the cap substituent is determined by the user according to the purpose.
  • the details of the cap addition processing by the cap addition unit 4102c will be described with reference to FIGS.
  • FIG. 76 is a flowchart illustrating an example of the cap addition process in the case where a hydrogen atom is added to the cut end according to the present embodiment.
  • FIG. 77 is a diagram showing the concept of the original coordinates and the coordinates after addition of the cap substituent.
  • FIG. 76 shows an example of processing when capping (right side) the amino group side with respect to the original coordinates (left side) shown in FIG. 77.
  • Let j be any residue in the group of neighboring amino acid residues.
  • the cap addition portion 4102c does not need to add a cap because the amino side of the amino acid residue j is not a cut end (step SC4-1). SC 4—2).
  • the capping portion 4102c also extracts the adjacent amino acid residue j-1 from the extracted amino acid residue j-1. If it is included in the group (step SC4-4), the amino side of residue j is not cut, so capping is not required (step SC4-4).
  • step SC4-3 if the adjacent amino acid residue j-1 is not included in the extracted amino acid residue group (step SC4-3), the main part of the amino acid residue j-1 is removed. Let the chain carbonyl carbon be (Step SC4-5).
  • the cap addition section 4102c sets the main chain amino group nitrogen of the amino acid residue j to Nj (step SC4-6).
  • the cap adding unit 4102c determines the position of the cap hydrogen atom ⁇ to be added according to the following equation (1) (step SC4-7).
  • FIG. 78 shows a case where a hydrogen atom is added to the cut end in the present embodiment. It is a flowchart which shows an example of a tap addition process.
  • FIG. 79 is a diagram showing the concept of the coordinates after adding the original coordinates and the cap substituent.
  • FIG. 78 shows an example of processing when capping (right side) the carboxyl group side with respect to the original coordinates (left side) shown in FIG. 79.
  • Let j be any residue in the group of neighboring amino acid residues.
  • the capping portion 4102c does not need to add a cap because the amino side of the amino acid residue j is not a cut end (step SD4). — 2).
  • the cap addition portion 4102c determines the amino acid residue group from which the adjacent amino acid residue j + 1 was also extracted. (Step SD4-4), the amino side of residue j is not cut, so no capping is required (Step SD4-4).
  • the cap-added portion 4102c has the main chain of the amino acid residue i + 1 The amino group nitrogen is set to N j + I (step SD4-5).
  • the cap addition unit 4102c sets the main chain power of the amino acid residue j to roponyl carbon as Cj (step SD4-6).
  • the cap adding unit 4102c determines the position of the cap hydrogen atom H CAPC to be added according to the following formula (2) (step SD4-7 ).
  • FIG. 80 is a flowchart showing an example of the capping process in the case where a methyl group is added to the cut end in the present embodiment.
  • Figure 81 shows the original
  • FIG. 3 is a view showing the concept of coordinates after adding a substituent.
  • Figure 80 An example of processing for adding a cap (right side) to the amino group side with respect to the original coordinates (left side) shown at 81 is shown.
  • j be any residue in the group of neighboring amino acid residues.
  • the cap addition portion 4102c does not require the addition of a cap because the amino side of the amino acid residue; i is not a cut end ( Step SE 4—2).
  • the capping portion 4102c extracts the amino acid residue group from which the adjacent amino acid residue j-11 is also extracted. (Step SE4-3), the amino side of residue j is not cut, so that capping is not required (Step SE4-4).
  • the cap addition part 4102c is the same as the amino acid residue j-11 when the adjacent amino acid residue j-1 is not included in the group of amino acids (step SE4-3). Let the main-chain carbonyl carbon be (step SE4-5).
  • the cap addition unit 4102c sets the main chain amino group nitrogen of the amino acid residue j to Nj (step SE4-6).
  • the cap addition unit 4102c sets the main chain ⁇ -carbon of the amino acid residue j to CA (step SE4-7).
  • the cap adding unit 4102c determines the position of the cap methyl group carbon C c to be added according to the following formula (3) (step SE4-8).
  • FIG. 82 is a flowchart illustrating an example of the cap addition process in the case where a methyl group is added to the cut face according to the present embodiment.
  • FIG. 83 is a diagram showing the concept of the coordinates after adding the original coordinates and the cap substituent.
  • FIG. 82 shows an example of a process for performing capping (right side) on the carboxyl group side with respect to the original coordinates (left side) shown in FIG. 83.
  • Let j be any residue in the group of neighboring amino acid residues.
  • the capping portion 4102c does not need to add a cap since the amino side of the amino acid residue j is not a cut end (step SF4). 4— 2).
  • the cap addition portion 4102c determines the amino acid residue group from which the adjacent amino acid residue j + 1 is also extracted. (Step SF4-3). Since the amino side of residue j does not form a cut, capping is not required (Step SF4-4). On the other hand, if the adjacent amino acid residue j + 1 is not included in the extracted amino acid residue group (step SF4-3), the cap-added portion 4102c will not be the main chain amino acid of the amino acid residue j + 1.
  • the base nitrogen is set to N j + 1 (step SF 4-5).
  • the cap addition unit 4102c sets the main chain carbonyl carbon of the amino acid residue j to Cj (step SF4-6).
  • the cap addition portion 4102c sets the main chain ⁇ -carbon of the amino acid residue j to C A ”(step SF4-7).
  • cap addition portion 4102 c is a cap methyl group carbon C to be added.
  • the position of the CAPC is determined according to the following equation (5) (step SF 4-8).
  • Equation (6) R, A, and D are a standard bond length, a standard bond angle, and a standard dihedral angle, respectively.
  • R, A, and D are a standard bond length, a standard bond angle, and a standard dihedral angle, respectively.
  • the protein structure optimization device 4100 adds caps to the cuts of all the amino acid residue groups in the vicinity, and calculates the charge of the entire amino acid residue group extracted in step SB4-4. I do.
  • the charge of the entire target system is given as input data, so the protein structure optimization device 4100 uses the charge calculation unit 4102 to perform cap replacement.
  • the total charge of the neighboring amino acid residue group to which the group has been added is calculated (step SB 4-6).
  • the basic amino S residues are ARG, LYS, and the like
  • the acidic amino acids residues are ASP, GLU, and the like.
  • the amino acid type is determined by the three-letter notation (18 to 20 column characters) of the PDB format data given as input data (see “PDB File Format Correspondents Guide Version 2”). .2 ”(see 20 Decembler 199 6).
  • the protein structure optimization apparatus 4100 uses the processing of the structure optimization unit 4102 e to generate an input file for MOPAC 2000, and to optimize each atom constituting the amino acid residue i with the atoms to be optimized.
  • the "optimization flag" indicating that there is is set (step SB 4-7).
  • MOPAC 2000 in general, when optimizing the structure by computational chemistry (molecular orbital method, molecular mechanics method, etc.), the atom to be moved to the optimum position and the position to be moved while fixing the coordinates are fixed. You can also set a new atom and perform partial structure optimization.
  • the optimal position In order to determine the atoms to be moved as input data as input data, we will call it "setting an optimization flag" in accordance with the convention of MOP AC 2000 ("MOP AC 2000 Manu al” Fujitu L imited, To ky o, 2000).
  • FIG. 85 is a diagram showing an example of a case where an optimization flag is set for a hydrogen atom of amino acid residue i.
  • a cap substituent hydrogen atom
  • step S B4-6 described above charge calculation is performed in consideration of all the atoms shown here.
  • Hydrogen atoms for which the optimization flag is set in the PHE 50 are indicated by spheres.
  • FIG. 86 is a diagram showing an example of a case where optimization flags are set for hydrogen and side chain atoms of amino acid residue i.
  • cap substituents hydrogen atoms
  • Step SB4-6 the charge calculation is performed in consideration of all the atoms shown here.
  • the hydrogen atoms and side chain atoms for setting the optimization flag in the PHE 50 are shown by spheres.
  • the structure optimizing unit 4102 e sets optimization flags for all atoms of the amino acid residue i.
  • optimization flags for all atoms of the amino acid residue i.
  • MOPAC2000 since it is difficult to reproduce the secondary structure of the main chain structure, optimization of the main chain atoms is not generally performed, but the secondary structure can be reproduced. If a high-precision theory is established, all-structure optimization will be effective.
  • FIG. 87 is a diagram showing an example of an input file of MOP AC2000. As shown in Fig. 87, an input file containing the charges, coordinate data of neighboring amino acid residue groups, optimization flags, and the like is created.
  • the protein structure optimization device 4100 uses the electric charge to determine the atom of the specific amino acid residue in the vicinity amino acid residue group to which the cap substituent is added by the processing of the structure optimization unit 4102e.
  • Perform geometry optimization on the coordinates using MOP AC 2000 step SB 4-9).
  • FIG. 88 is a diagram illustrating an example of an output file indicating a result of the structure optimization process by the MOPAC 2000. As shown in FIG. 88, the coordinate data after the structure optimization is output. In FIG. 88, the coordinates marked with “*” indicate the optimized part.
  • the protein structure optimizing device 4100 replaces the optimized atomic coordinates with the corresponding atomic coordinates on the initial protein coordinate data by the processing of the atomic coordinate replacing unit 4102f (step SB4-10).
  • the atom coordinate substitution unit 4102 f extracts the coordinates marked with “*” in the processing result (output file) of the MOP AC 2000, and extracts this part.
  • the coordinate data prepared in step SB 4-1 With the corresponding coordinate part of.
  • the protein structure optimization apparatus 4100 applies steps SB4-3 to SB4-10 for all amino acid residues i (the first amino acid). Loop processing is performed by incrementing i from the acid residue to the last amino acid residue. ), Perform optimization for all amino acid residues (step SB 4-11)
  • the protein structure optimization apparatus 4100 executes the steps SB4-2 to SB4-7 a plurality of times (n times) using the structural data obtained in the step SB4-10 as an initial structure, Further, the accuracy of the structure optimization can be improved (step SB4-12-2).
  • step SB4-12-2 by performing the processing from step SB4-4 to step SB4-10 from the N residue to the C-terminal residue, coordinate data in PDB format in which the partial structure has been optimized for all amino acid residues can be obtained.
  • the loop processing including the operations of steps SB4-4 to SB4-10 described above may be executed using, for example, a script program.
  • FIG. 89 is a diagram showing calculation results when the hydrogen structure is optimized by the conventional optimization method (MOZ YME method + BFGS method) and the method of the present invention.
  • FIGS. 89 and 90 is a diagram showing calculation results when the side chain structure is optimized by the conventional optimization method (MOZ YME method + BFGS method) and the method of the present invention.
  • the vertical axis indicates the heat of formation He atof Formatio an n (kca 1 mo 1 one 1)
  • the horizontal axis represents the CPU time (in seconds).
  • the value of H eatof F o rma tio initial structure one 1044. 5 3571 kca 1 - a mo 1-1.
  • the maximum memory capacity required for this calculation example is 506 MB (megabytes) when optimizing the hydrogen structure using the conventional method, and 667 MB when optimizing the side chain structure. Met.
  • the size was 301 MB when the hydrogen structure was optimized, and 301 MB when the side chain structure was optimized.
  • the technique of the present invention was able to reduce the amount of memory.
  • the protein structure optimizing device 4100 performs processing in a stand-alone form has been described as an example, but the protein structure optimizing device 4100 is in response to a request from a client terminal composed of a housing.
  • the processing may be performed in such a manner that the processing result is returned to the client terminal.
  • M ⁇ PAC 2000 which is a semi-empirical molecular orbital program
  • another known calculation method program may be used.
  • molecular orbital calculation programs such as “Gaussian 98 Rev. A. 11.3” (product name) (Gaussian, Inc. (company name), Pittsburgh PA, 2002), and “Game ssJune 20 2002 R2 ”(product name) (Iowa State University, 2002) can be used to optimize the structure by the abinitio molecular orbital method.
  • “Amber 7” product name
  • Ca 1 ifornia, 2002 Un iversity of Ca 1 ifornia, 2002
  • Talker 3.7 product name
  • MOP AC 2000 is called a semi-empirical molecular orbital program and can provide semi-quantitative results.
  • Gaussian and Gamesss are called abinitio molecular orbital calculation programs, which can provide more quantitative results than semi-empirical methods, but generally require much more computation time than semi-empirical methods. It is a target.
  • all or a part of the processes described as being performed automatically can be performed manually, or the processes described as being performed automatically can be performed. All or a part of the processing can be automatically performed by a known method.
  • the illustrated components are functionally conceptual, and need not necessarily be physically configured as illustrated.
  • each unit or each device of the protein structure optimization device 4100 Processing functions, especially the processing functions performed by the control unit 4102, are entirely or optionally performed by a CPU (Central Processing Unit) and a program executed by the CPU. It can be realized, or it can be realized as hardware by wired logic.
  • the program is recorded on a recording medium described later, and is mechanically read by the protein structure optimizing device 4100 as necessary.
  • a computer program for giving an instruction to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded.
  • This computer program is executed by being loaded into a RAM or the like, and forms a control unit 4102 in cooperation with the CPU.
  • this computer program may be recorded in an application program server connected to the protein structure optimization device 4100 via an arbitrary network 4300, and download all or part of the computer program as needed. It is also possible.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • the “recording medium” refers to any “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EEPROM, a CD-ROM, a M ⁇ , a DVD, and various computer systems. Any ⁇ fixed physical medium '' such as built-in ROM, RAM, HD, etc., or a communication line or carrier wave when transmitting a program via a network represented by LAN, WAN, Internet And “communications media” that hold programs for a short period of time.
  • a “program” is a data processing method described in any language and description method, regardless of the format of source code / binary code.
  • the “program” is not necessarily limited to a single program, but may be distributed as a plurality of modules or libraries, or may be a separate program typified by an operating system (OS). Work together to achieve that function Including things. It should be noted that a known configuration or procedure can be used for a specific configuration for reading the recording medium in each apparatus described in the embodiment, a reading procedure, an installation procedure after reading, and the like.
  • the protein structure optimizing device 4100 includes, as further components, various pointing devices such as a mouse, an input device (not shown) including a keyboard image scanner and a digitizer, and a display device used for monitoring input data. (Not shown), a clock generator (not shown) for generating a system clock, and an output device (not shown) such as a printer for outputting various processing results and other data.
  • pointing devices such as a mouse
  • an input device including a keyboard image scanner and a digitizer
  • a display device used for monitoring input data (Not shown)
  • a clock generator for generating a system clock
  • an output device such as a printer for outputting various processing results and other data.
  • the input device, the display device, and the output device may be connected to the control unit 4102 via the input / output interface.
  • Various databases (protein structure information database 4106a and processing result file 4106b) stored in the storage unit 4106 include memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, optical disks, etc.
  • the storage means stores various programs, tables, files, databases, files for web pages, etc. used for various processes and for providing websites.
  • the protein structure optimizing device 4100 connects a peripheral device such as a printer, a monitor and an image scanner to an information processing device such as an information processing terminal such as a known personal computer or a workstation, and connects to the information processing device. It may be realized by implementing software (including programs, data, etc.) for realizing the method of the present invention.
  • the specific form of the dispersion / integration of the protein structure optimizing apparatus 4100 is not limited to the one shown in the drawing, and all or a part thereof may be functionally or physically separated in any unit corresponding to various loads. Can be configured to be distributed and integrated.
  • each database may be independently configured as an independent database device, or one sound of the processing may be realized by using CGI (Common on Gateway Interface).
  • the network 4300 has a function of interconnecting the protein structure optimization apparatus 4100 and an external system 4200, and includes, for example, the Internet, an intranet, and LAN (wired Z wireless).
  • VAN VAN
  • PC communication network public telephone network (including both analog and digital), leased line network (including both analog and digital), CATV network, IMT Cellular network switching network such as 200, GSM or PDC / PDC-P system Z mobile packet switching network, radio paging network, local radio network such as B1uetoo 1: h, PHS network, Any of satellite communication networks such as CS, BS and ISDB may be included. That is, the present system can transmit and receive various data via any network, whether wired or wireless.
  • the coordinate data of a protein is obtained, and the coordinate data of the protein is used to determine the coordinates of a group of neighboring amino acid residues included within a predetermined distance from a specific amino acid residue.
  • a capping substituent is added to the cut portion of the neighboring amino acid residue group, the total charge of the neighboring amino acid residue group to which the capping substituent is added is calculated, and the cap substituent is added.
  • the structure is optimized for the atomic coordinates of a specific amino acid residue using the calculated charge, and the optimized atomic coordinates are converted to the protein coordinate data. Replacement with the corresponding atomic coordinates on the same data, so that the determination of hydrogen position and the problem of packing can be performed using practical computational resources.
  • a structure optimization method, a program, and a recording medium can be provided.
  • a protein structure optimizing apparatus a protein structure optimizing method, a program, and a recording medium which can speed up the optimization processing without any modification to an existing calculation program.
  • this device can be executed using the input / output files of the existing molecular orbital calculation program or molecular mechanics calculation program. Incorporate the algorithm of this device into existing molecular orbital calculation programs and molecular mechanics calculation programs Is also possible.
  • a protein structure optimizing apparatus a protein structure optimizing method, a program, and a program that enable protein structure optimization in consideration of a solvent effect that cannot be achieved by a conventional method, A recording medium can be provided.
  • the substituent for the cap is a hydrogen atom (H) or a methyl group (CH 3 ). It is possible to provide a protein structure optimizing device, a protein structure optimizing method, a program, and a recording medium that can easily eliminate the inconvenience of the method.
  • cysteine (CYS) when cysteine (CYS) is included in the extracted neighboring amino acid residue group, the cysteine (CYS) has a disulfide bond with the cysteine (CYS) and the neighboring amino acid residue group It is determined whether there is another cysteine (CYS) that is not included in the cysteine. If the other cysteine (CYS) exists, the other cysteine (CYS) is also added to the neighboring amino acid residue group. It is possible to provide a protein structure optimization device, a protein structure optimization method, a program, and a recording medium capable of performing structure optimization in consideration of disulfide bonds between cysteines. Industrial applicability
  • the interaction site prediction device, the interaction site prediction method, the program, and the recording medium determine the interaction site by finding a local site with frustration in the primary sequence information of the protein. It can be predicted effectively.
  • the interaction site prediction device, the interaction site prediction method, the program, and the recording medium according to the present invention can predict the interaction site based on the frustration of the local site.
  • the interaction site prediction device, the interaction site prediction method, The program and the recording medium are extremely useful in the field of bioinformatics for analyzing protein sequences and the like.
  • the present invention can be widely practiced in many industrial fields, particularly in the fields of pharmaceuticals, foods, cosmetics, medical care, gene expression analysis, protein three-dimensional structure analysis, and is extremely useful.
  • the active site prediction device, the active site prediction method, the program, and the recording medium can predict the active site of a protein from the information on the energy and spread of molecular orbitals obtained by molecular orbital calculation. it can.
  • the active site prediction device, the active site prediction method, the program, and the recording medium according to the present invention can particularly accurately estimate the active site of a physiologically active polypeptide or protein.
  • the active site prediction device, active site prediction method, program, and recording medium according to the present invention are extremely useful in the field of bioinformatics for analyzing proteins and the like.
  • the present invention can be widely practiced in many industrial fields, particularly in fields such as pharmaceuticals, foods, cosmetics, medical treatment, gene expression analysis, and protein three-dimensional structure analysis, and is extremely useful.
  • the protein interaction information processing device, the protein interaction information processing method, the program, and the recording medium are based on the hydrophobic interaction and the electrostatic interaction obtained from the structural data of the protein. Highly qualitative sites can be identified, and interaction sites can be identified.
  • the protein interaction information processing apparatus, the protein interaction information processing method, the program, and the recording medium according to the present invention are extremely useful in the field of bioinformatics for analyzing proteins and the like. Further, the present invention can be widely practiced in many industrial fields, particularly in fields such as pharmaceuticals, foods, cosmetics, medical treatment, gene expression analysis, and protein three-dimensional structure analysis, and is extremely useful.
  • the binding site prediction device, the binding site prediction method, the program, and the recording medium are, in particular, predicted from the amino acid sequence data or obtained experimentally.
  • the binding site of a protein or a biologically active polypeptide is determined. And the binding partner can be efficiently predicted.
  • the binding site prediction device, the binding site prediction method, the program, and the recording medium according to the present invention enable prediction of protein interaction by bioinformatics in a very short time and enable comprehensive analysis. I do.
  • the binding site prediction device, the binding site prediction method, the program, and the recording medium according to the present invention are extremely useful in the field of bioinformatics for analyzing proteins and the like.
  • the present invention can be widely practiced in many industrial fields, particularly in fields such as pharmaceuticals, foods, cosmetics, medical treatment, gene expression analysis, and protein three-dimensional structure analysis, and is extremely useful.
  • the protein structure optimizing apparatus can optimize the desired atomic coordinates while dividing the protein structure.
  • the protein structure optimizing apparatus, the protein structure optimizing method, the program, and the recording medium according to the present invention are extremely useful in the field of bioinformatics for analyzing proteins and the like. Further, the present invention can be widely practiced in many fields in industry, particularly in the fields of pharmaceuticals, foods, cosmetics, medical care, gene expression analysis, protein three-dimensional structure analysis, and the like, and is extremely useful.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

相互作用予測装置
技術分野 明
本発明は、 相互作用部位予測装置、 相田互作用部位予測方法、 プログラム、 お よび、 記録媒体に関し、 特に、 局所部位のフラストレーションに基づいて相互 作用部位を予測する相互作用部位予測装置、 相互作用部位予測方法、 プロダラ ム、 および、 記録媒体に関する。
また、 本発明は、 活性部位予測装置、 活性部位予測方法、 プログラム、 およ び、 記録媒体に関し、 特に、 生理活性ポリペプチドもしくは蛋白質の活性部位 を高精度で推定する活性部位予測装置、 活性部位予測方法、 プログラム、 およ ぴ、 記録媒体に関する。
また、 本発明は、 タンパク質相互作用情報処理装置、 タンパク質相互作用情 報処理方法、 プログラム、 および、 記録媒体に関し、 特に、 タンパク質の構造 データから求めた疎水相互作用およぴ静電相互作用に基づいてタンパク質単体 時の不安定性の高い部位を特定し相互作用部位を特定すること等のできるタン パク質相互作用情報処理装置、 タンパク質相互作用情報処理方法、 プログラム、 および、 記録媒体に関する。
また、 本発明は、 結合部位予測装置、 結合部位予測方法、 プログラム、 およ び、 記録媒体に関し、 特に、 アミノ酸配列データから予測された、 または、 実 験的に求められた立体構造情報 (アミノ酸残基間の空間上の距離情報) と、 電 荷の情報とを用いて静電的に不安定な部分を予測することにより、 蛋白質また は生理活性ポリぺプチドの結合部位や結合相手を効率的に予測すること等がで きる結合部位予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体に 関する。
さらに、 本発明は、 タンパク質構造最適化装置、 タンパク質構造最適化方法、 プログラム、 および、 記録媒体に関し、 特に、 蛋白質の構造を分割しながら所 望の原子座標の最適化を行うことのできるタンパク質構造最適化装置、 タンパ ク質構造最適化方法、 プログラム、 および、 記録媒体に関する。 背景技術
( I ) タンパク質が働くため、 すなわちタンパク質が一定の機能を表すために は他のタンパク質や基質等となんらかの相互作用をすることが必要である。 し たがって、 タンパク質の相互作用部位を決定することは、 創薬等の分野におい ては極めて重要な研究テーマであり、 従来より、 バイオインフォマティクス分 野などにおいて、 タンパク質の一次配列情報 (アミノ酸配列情報) に対してモ チーフ検索を実行するなどの手法によりタンパク質の相互作用部位を解析する 技術が開発されている。 すなわち、 既知の相互作用部位に特異的に存在するァ ミノ酸配列を探索することにより、 タンパク質の相互作用部位を予測している。 しかしながら、 従来のモチーフ検索などによる相互作用部位の解析手法は、 既知の相互作用部位については解析することができる力 未知の相互作用部位 については解析することができないというシステム構造上の基本的問題点を有 していた。 以下、 この問題点の内容について、 一層具体的に説明する。
すなわち、 従来の相互作用部位の解析手法は、 予め判明している相互作用部 位に特異的な一次配列をモチーフデータベースなどに登録し、 その情報を用い て相互作用部位の予測を行うものであるため、 今までに発見されていない相互 作用部位については、 その解析をすることができなかった。 従って、 今まで発 見されていない未知の相互作用部位をバイオインフォマティクス技術を用いて コンピュータ上で予測する際には、 まったく別の手法を用いる必要があるが、 有効な手法は未だ確立していない。 ところで、 タンパク質のネイティブの立体構造は、 できるだけアミノ酸間の 相互作用にフラストレーシヨンが無いような構造に形作られている。 すなわち、 タンパク質のエネルギー曲面はフラストレーシヨンが無いような全体構造 (ネ ィティブ構造) へ向かって漏斗状に設計されていると言われている (f o l d i n g f u n n e l ) 。 ここで、 ネイティブ構造はフラス トレーションが少 ない構造ではあるが、 要素間に働く相互作用の複雑さ、 自由度の大きさ、 進化 的な経緯などの点から、 フラストレーションが完全に無くなっているわけでは ない。
最近の計算機実験では、 進化の産物であるタンパク質の漏斗状のエネルギー 面は本質的に等方的ではなく、 フラストレーションの大きい方向と小さな方向 が存在している (異方性を持つ) ことがわかってきた (a n i s o t r o p i c f u n n e 1 ) 。 これは構造的に言うならば、 局所的な構造にはフラスト レーシヨンの大きい構造と小さい構造があることを示している。 そして、 フラ ストレーションの大きい局所構造部位は、 全体構造の安定化のために犠牲にな つている構造部位であり、 この部分は、 全体構造の安定ィヒのために歪んだ構造 を取らざるを得ない状況下に置かれており、 いわば全体構造の中における不安 定部位であることを示している。
一方、 タンパク質の相互作用は二つの安定な全体構造をもつタンパク質同士 が作用することにより、 さらに安定化する過程であるといえる。 タンパク質が 相互作用する際の構造の変化について更に説明すると、 タンパク質 Aと Bとが 相互作用する際には、 タンパク質 Aの一部分の構造とタンパク質 Bの一部分の 構造に変化が起こり結合する。
変化が起こる一部分の構造として考えられる部位について考察すると、 まず、 局所的に見ても、 かつ全体的に'見ても安定な局所構造は、 それ以上安定化する 必要性がない。 一方、 全体的に見れば安定であるが局所的に見ると不安定であ る部分は、 他のタンパク質等と結合することによりその部分が安定化し、 さら に結合することにより全体もさらに安定化するという状況が考えられる。 すな わち、 局所的に不安定な構造領域は、 タンパク質相互作用部位である可能性が 比較的高いと考えることができる。 このように局所的に不安定な部位を一次配 列から予測することにより、 相互作用部位の候補を挙げることができるように なる可能性がある。
また、 タンパク質の二次構造予測は、 一次配列から局所的に安定な構造のパ ターンを予測するものである。 この予測方法には、 様々なものが考えられてい る。 古くはァミノ酸の二次構造帰属情報に基づく Ch o u— F a sma nの方 法から、 現在では 3 r d g e n e r a t i o nと呼ばれる進化的に関係のあ る配列をも考慮して構造予測を行う方法として、 (1) n e u r a l n e t wo r kを使う手法や、 (2) l i n e a r s t a t i s t i c sを用いる 牛法や、 (3ノ n e a r e s t n e i g h b o r me t h o d 用レヽる手 法などが考案されており、 種々の異なる手法を用いて二次構造予測を行うこと ができる。
これらの二次構造予測手法は、 基本的には一次配列情報のうち一部の局所配 列を見て予測を行うが、 二次構造はタンパク質の全体の構造との関係で最終的 に決定されるので、 全体と局所部分との間に整合性が取れない部位、 すなわち フラストレーションが大きい局所的部位では二次構造予測結果は外れる場合が 多い (二次構造予測の限界) 。
ここで、 このようなフラストレーシヨンの大きい局所部位の二次構造予測に おいては、 上述した様々な手法における処理の仕方の差が大きいといえるだろ う。 すなわち、 種々の手法による誤差が大きくなる、 すなわち精度の悪くなる 部位等が、 フラストレーシヨンの大きい局所部位である可能性が高いといえる。 よって、 様々な手法における二次構造予測の結果比較を通して、 フラストレー ションの比較的大きな局所部位の予測が可能になると考えることができる。 また、 タンパク質の立体構造データが分かっている場合、 すなわち、 既存の P D Bなどに立体構造データが登録されているタンパク質は、 その全体構造が 既知であるため、 様々な二次構造予測手法の予測結果とその実際の構造との差 を見ることにより、 より明確にフラストレーションのある局所部位 (相互作用 部位になっている確率の高い部位) を見つけることが可能になると考えられる。 従って、 本発明は、 タンパク質の一次配列情報においてフラストレーション のある局所部位を発見することにより相互作用部位を効果的に予測することの できる、 相互作用部位予測装置、 相互作用部位予測方法、 プログラム、 および、 記録媒体を提供することを目的としている。
( Π ) また、 生理活性ポリペプチド又は蛋白質の活性部位を推定する方法は 種々提案されているが、 それらの方法はアミノ酸配列、 遺伝配列のみを用いた 方法と、 立体構造の情報を用いた方法の 2つに大別される。
しかしながら、 従来技術による活性部位の予測方法は予測精度が低いという 問題点を有していた。
以下、 この問題点の内容について、 一層具体的に説明する。
まず、 前者の遺伝配列のみを用いた予測方法の代表的な技術として、 例えば、 特開平 1 1一 2 1 3 0 0 3号公報 (『蛋白質機能部位の予測方法と予測装 置』) のようにオリゴぺプチドの出現頻度を利用して機能部位を予測する方法 が挙げられる。 前者の方法は、 時間、 計算コストの面で優れている、 立体構造 の情報のない蛋白質の解析に利用できる、 などの利点がある。 しかしながら、 立体構造の情報が有る場合と比べると、 精度が低いという問題点を有する。 一方、 後者の立体構造を用いる活性部位予測方法において最も一般的に利用 されている方法は、 蛋白質の大きな溝を探す方法である。 ほとんどの活性部位 は結合ポケットと呼ばれる蛋白質の溝に位置している。 その溝を探すことで酵 素の活性部位を予測するという技術である。 しかしながら、 溝が複数見つかる 場合や溝の位置と活性部位が一致しない場合も多く、 精度が高くないという問 題点を有する。 さらに、 活性に必要なアミノ酸残基と、 単に活性部位の側に存 在しているアミノ酸残基を区別することができないという問題点を有する。 ' そこで、 単にトポロジーの情報のみに頼るのではなく、 計算化学を利用して、 予測精度を高めようとする試みが多くされている。 例えば、 O n d r e c h e nらは活性部位においては解離性ァミノ酸残基の p H滴定曲線が異常になりや すいという事実を利用して、 活性部位を予測するシステムを発表している (P r o c. Na t l . Ac a d. S c i . USA, Vo l . 98, I s s u e 22, 1 2473-1 2478, Oc t o b e r 23, 2001) 。 しかし、 この方法では古典論による計算を採用しているために、 そもそも計算精度が低 いという問題点を有する。 また、 弓 I用した論文にも発表されているデータによ ると、 p H滴定曲線が異常な解離性ァミノ酸残基でも活性部位にならない場合 があるという問題点を有する。
他にも、 E l o c kらは蛋白質を不安定化させているアミノ酸残基を古典論 の計算によって求めて、 結合部位または活性部位になる可能性が高いことを示 してレヽる 、 「 J o u r n a l o f Mo l e c u l a r B i o l o g y」 Vo l . 31 2, No. 4, 885-896, S e p t emb e r 28, 2 001) 。 しかしながら、 前述の方法と同様に古典論を利用しているために計 算精度が低く、 また、 蛋白質を不安定ィ匕しているアミノ酸残基が、 活性部位に なるという理論的な根拠はないという問題点を有する。
以上の従来技術による予測方法の問題点をまとめると、 活性部位予測方法に 理論的な裏付けが乏しいこと、 用いている計算の精度が不十分であること等が 挙げられる。 これらの問題点により従来の活性部位の予測精度に限界がある。 従って、 本発明は、 分子軌道計算によって得られた分子軌道のエネルギーや 広がりの情報から蛋白質の活性部位を予測することのできる、 活性部位予測装 置、 活性部位予測方法、 プログラム、 および、 記録媒体を提供することを目的 としている。
(m) また、 タンパク質が働くため、 すなわちタンパク質が一定の機能を表す ためには他のタンパク質や基質等となんらかの相互作用をすることが必要であ る。 したがって、 タンパク質の相互作用部位を決定することは、 創薬等の分野 においては極めて重要な研究テーマであり、 従来より、 バイオインフォマティ タス分野などにおいて、 タンパク質の一次配列情報 (アミノ酸配列情報) に対 してモチーフ検索を実行するなどの手法によりタンパク質の相互作用部位を解 析する技術が開発されている。 すなわち、 既知の相互作用部位に特異的に存在 するアミノ酸配列を探索することにより、 タンパク質の相互作用部位を予測し ている。
しかしながら、 従来のモチーフ検索などによる相互作用部位の解析手法は、 既知の相互作用部位については解析することができるが、 未知の相互作用部位 については解析することができないというシステム構造上の基本的問題点を有 していた。
すなわち、 従来の相互作用部位の解析手法は、 予め判明している相互作用部 位に特異的な一次配列をモチーフデータベースなどに登録し、 その情報を用い て相互作用部位の予測を行うものであるため、 今までに発見されていない相互 作用部位については、 その解析をすることができなかった。 従って、 今まで発 見されていない未知の相互作用部位をバイオインフォマティクス技術を用いて コンピュータ上で予測する際には、 まったく別の手法を用いる必要があるが、 有効な手法は未だ確立していない。
一方、 タンパク質の相互作用は二つの安定な全体構造をもつタンパク質同士 が作用することにより、 さらに安定化する過程であるといえる。 タンパク質が 相互作用する際の構造の変化について更に説明すると、 タンパク質 Aと Bとが 相互作用する際には、 タンパク質 Aの一部分の構造とタンパク質 Bの一部分の 構造に変化が起こり結合する。
変化が起こる一部分の構造として考えられる部位について考察すると、 まず、 局所的に見ても、 かつ全体的に見ても安定な局所構造は、 それ以上安定化する 必要性がない。 一方、 全体的に見れば安定であるが局所的に見ると不安定であ る部分は、 他のタンパク質等と結合することによりその部分が安定化し、 さら に結合することにより全体もさらに安定ィ匕するという状況が考えられる。 すな わち、 局所的に不安定な構造領域は、 タンパク質相互作用部位である可能性が 比較的高いと考えることができる。 このように局所的に不安定な部位を一次配 列から予測することにより、 相互作用部位の候補を挙げることができるように なる可能性がある。
従って、 本発明は、 タンパク質の構造データから求めた疎水相互作用および 静電相互作用に基づいてタンパク質単体時の不安定性の高い部位を特定し相互 作用部位を特定すること等のできる、 タンパク質相互作用情報処理装置、 タン パク質相互作用情報処理方法、 プログラム、 および、 記録媒体を提供すること を目的としている。
(IV) また、 蛋白質または生理活性ポリペプチドが一定の機能を示すためには、 他の蛋白質等と相互作用することが重要である。 特定の蛋白質の相互作用を阻 害したり、 相互作用を強めたりするような物質は医薬品になる可能性を秘めて レ、る。 したがって、 蛋白質の相互作用部位、 さらには、 蛋白質の相互作用相手 を予測することは生物学、 医学、 薬学上、 極めて重要な問題である。 このため、 バイオインフォマティクスの分野においては、 従来から様々な方法により蛋白 質の相互作用相手を予測することが試みられている。
しかしながら、 既知のバイオインフォマティクスによる蛋白質の相互作用の 予測手法は計算負担が大きく処理時間が長時間かかるものであり、 また、 予測 精度は低いためさらなる精度の高くかつ処理時間が短い手法の開発が望まれて いるという問題点を有していた。
以下、 この問題点の内容について、 一層具体的に説明する。
例えば、 バイオインフォマティクス分野における相互作用部位予測に関して は、 モチーフ検索などによる予測技術が開発されてきた。 しかし、 モチーフ検 索は既知の相互作用部位については解析することができるが、 未知の相互作用 部位については解析できないという問題点がある。
他にも、 アミノ酸頻度角军析を利用して結合部位を予測する方法も開発されて いる。 例えば、 特開平 1 1— 2 1 3 0 0 3号公報、 特開平 1 0— 2 2 2 4 8 6 号公報、 特開平 1 0— 0 4 5 7 9 5号公報などがある。 しかしながら、 これら の予測方法は、 予測精度が低いという問題点がある。 また、 この他にも、 例えば、 2つの蛋白質の立体構造をドッキングさせ、 最 も安定な複合体構造を得る方法がある。 この方法の予測精度は高いが、 いくつ かの問題点がある。 第一に、 蛋白質のうちに立体構造が分かっているのはほん の一部に過ぎないので、 ほとんどの蛋白質には適応できないことである。 第二 に、 これらの手法は計算負担が大きく処理時間が長時間かかるものであるため、 網羅的な計算を行うことが困難であることである。
さらに、 相互作用部位予測よりも難しい相互作用相手予測については有効な 手段が確立されていない。 つまり、 全く未知の相互作用部位、 さらには、 相互 作用相手を高精度に予測するためには、 全く新しいアプローチが必要であるが、 有効な手段は未だ確立していない。
従って、 本発明は、 バイオインフォマティクスによる蛋白質の相互作用の予 測を極めて短時間で計算可能にし、 網羅的な解析を可能にする、 結合部位予測 装置、 結合部位予測方法、 プログラム、 および、 記録媒体を提供することを目 的としている。
(V) また、 タンパク質の立体構造を基にしたドラッグデザインを行う際には、 一般的に結晶構造が出発構造となる場合が多いが (例えば、 「H. — D. ヘル ツエ, G. フォルカース著, 江崎俊之訳, 「分子モデリング」 , 地人書館, 1 998年」 参照。 ) 、 これには 2つの問題がある。 ひとつは、 X線結晶回折で は一般的には水素位置が決められないことである (例えば、 「平山令明著, 「生命科学のための結晶解析入門」 , 丸善株式会社, 1 996年」 参照。 ) 。 欠落している水素は、 モデリングソフト (例えば、 Ac c e l r y s I n c. (会社名) の 「We b L a b V i ewe r P r o 4. 2」 (製品名) や 「 I n s i g h t I I」 (製品名) (www. a c c e l r y s. c om) T r i p o s , I n c. (会社名) の 「SYBYL 6. 7」 (製品名) (w ww. t r i p o s, c omノ 、 C amb r i d g e S o i t C o r p o r a t i o n (会社名)の 「C h e m 3 D 7. 0」 (製品名) (www. c a m s o f t. c o m) など) を用いて機械的に付加することはできるが、 エネ ルギー的に安定となる配向となるわけではない。 もう一つの問題は、 結晶構造 中では分子がパッキングされるために、 いわば 「干物」 のような状態となって おり、 その構造が必ずしも生体中で機能している構造を反映しているとは限ら ないことである。 「生身の状態」 に近づけるためには、 少なくとも側鎖部分を リラックスさせる必要がある。 そのため、 局所的な原子構造の安定化のために、 構造最適化が不可欠となる (例えば、 「H. -D. ヘルツエ, G. フォルカー ス著, 江崎俊之訳, 「分子モデリング」 , 地人書館, 1998年」 参照。 ) 。 また、 タンパク質の電子状態を計算する手法には、 例えば、 半経験的分子軌 道計算プログラムである 「MOPAC 2000 V e r . 1. 0」 (製品名) (F u j i t u L i m i t e d (会社名) To k y o, 2000) に実装 されている 「MOZYME法」 (例えば、 Γ J . J . p. S t ewa r t, I n t . J. Qu a n t. C h e m. , 58, 133, 1996. 」 参照。 ) などがある。 この方法を用いると、 2万原子程度、 1000残基のタンパク質 の実用的なレベルで計算できる。 ただし、 これは 「EF (E i g e n v e c t o r F o 1 1 o w i n g ) 法」 (例えば、 「 J . B a k e r , J . C o m p . C h e m. , 7, 385, 1 986. 」 参照。 ) や 「BFGS (B r o y d e n-F 1 e t c h e r -Go 1 d f a r b-S h a nn o) 法」 (例えば、 「C. G. B r o y d e n, C omp u t r J o u r n a l , 1 3, 31 7, 1970. 」 、 「R. F l e t c h e r, J . I n s t. Ma t h. Ap p l . , 6, 222, 1 970. 」 、 「D. Go l d f a r b, Ma t h ema t i c s o f C omp u t a t i o n, 24, 23, 1 970. J 、 「D. F . Sh a nn o, Ma t h ema t i c s o f C omp u t a t i o n, 24, 647, 1 970. j 参照。 ) などの構造最適化を行わない場合である。 MOP AC 2000では通常、 低分子に対しては信頼性の高い EF法が用いら れ、 高分子に対しては収束が速く必要メモリの少量ィ匕が図れる BFGS法が用 いられる。
また、 生体分子の計算においては溶媒効果を考慮することが重要である (例 W
11
えば、 「H. — D . ヘルツエ, G . フォルカース著, 江崎俊之訳, 「分子モデ リング」 , 地人書館, 1 9 9 8年」 および 「櫻井 実, 猪飼 篤編, 「生物ェ 学基礎コース 計算機化学入門」 , 丸善株式会社, 1 9 9 9」 参照。 ) 。
しかしながら、 蛋白質の全原子について上述したいずれかの手法により構造 最適化を行う際の実用的な最適化計算は、 水素原子だけ最適化する場合には 8 0 0残基程度、 側鎖を最適化する場合には 5 0 0残基程度が限度となるという システム構造上の問題点を有していた。
ここで、 本問題点は近傍に位置する原子の立体障害などが主要因であるため、 何も全原子を一度に計算に考慮する必要はなく、 それぞれの部位について、 局 所的に見て安定な構造を求めてあげれば良いはずである。 つまり、 全体構造を 部分構造に分割し、 局所的な構造最適化を繰り返すことで、 この問題を実用的 な計算資源を用いて解決することができる。 しかしながら、 従来の最適化計算 において、 蛋白質の構造を分割しながら高精度で最適化を行う手法は存在しな かった。
生体分子の計算における溶媒効果の重要性について種々の文献により指摘さ れているが (例えば、 「H. - D . ヘルツヱ, G . フォルカース著, 江崎俊之 訳, 「分子モデリング」 , 地人書館, 1 9 9 8年」 および 「櫻井 実, 猪飼 篤編, 「生物工学基礎コース 計算機化学入門」 , 丸善株式会社, 1 9 9 9」 参照。 ) 、 従来の方法では溶媒効果を考慮に入れたタンパク質の構造最適化が 不可能であった。
従って、 本発明は、 蛋白質の構造を分割しながら所望の原子座標の最適化を 行うことのできる、 タンパク質構造最適化装置、 タンパク質構造最適化方法、 プログラム、 および、 記録媒体を提供することを目的としている。 発明の開示
( I ) 上述した目的を達成するため、 本発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 および、 プログラムは、 目的のタンパク質の一次配列 情報を入力する入力手段 (入力ステップ) と、 タンパク質の一次配列情報から 当該タンパク質の二次構造を予測する二次構造予測プログラムに対して上記入 力手段 (入力ステップ) により入力された上記一次配列情報の二次構造予測シ ミュレーションを実行させる二次構造予測プログラム実行手段 (二次構造予測 プログラム実行ステップ) と、 上記二次構造予測プログラム実行手段 (二次構 造予測プログラム実行ステップ) による上記二次構造予測プログラムの二次構 造予測結果を比較する予測結果比較手段 (予測結果比較ステップ) と、 上記予 測結果比較手段 (予測結果比較ステップ) による比較結果に基づいて、 上記目 的のタンパク質の一次配列情報の局所部分のフラストレーシヨンを計算するフ ラス トレーシヨン計算手段 (フラス トレーション計算ステップ) と、 上記フラ ス トレーシヨン計算手段 (フラストレーション計算ステップ) により計算され た上記局所部分の上記フラストレーシヨンにより上記目的のタンパク質の相互 作用部位を予測する相互作用部位予測手段 (相互作用部位予測ステップ) とを 備えた (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的のタンパク質の一次配 列情報を入力し、 タンパク質の一次配列情報から当該タンパク質の二次構造を 予測する二次構造予測プログラムに対して入力された一次配列情報の二次構造 予測シミュレーシヨンを実行させ、 二次構造予測プログラムの二次構造 測結 果を比較し、 比較結果に基づいて、 目的のタンパク質の一次配列情報の局所部 分のフラス トレーションを計算し、 計算された局所部分のフラス トレーション により目的のタンパク質の相互作用部位を予測するので、 タンパク質の一次配 列情報においてフラストレーシヨンのある局所部位を発見することにより相互 作用部位を効果的に予測することができる。
つぎの発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 および、 プログラムは、 目的のタンパク質の一次配列情報を入力する入力手段 (入カス テツプ) と、 上記目的のタンパク質の二次構造データを取得する二次構造デー タ取得手段 (二次構造データ取得ステップ) と、 タンパク質の一次配列情報か ら当該タンパク質の二次構造を予測する二次構造予測プログラムに対して上記 入力手段 (入力ステップ) により入力された上記一次配列情報の二次構造予測 シミュレーシヨンを実行させる二次構造予測プログラム実行手段 (二次構造予 測プログラム実行ステップ) と、 上記二次構造予測プログラム実行手段 (二次 構造予測プログラム実行ステップ) による上記二次構造予測プログラムの二次 構造予測結果と、 上記二次構造データ取得手段 (二次構造データ取得ステツ プ) により取得した上記二次構造データとを比較する予測結果比較手段 (予測 結果比較ステップ) と、 上記予測結果比較手段 (予測結果比較ステップ) によ る比較結果に基づいて、 上記目的のタンパク質の一次配列情報の局所部分のフ ラストレーシヨンを計算するフラス トレーション計算手段 (フラス トレーショ ン計算ステップ) と、 上記フラストレーション計算手段 (フラストレーション 計算ステップ) により計算された上記局所部分の上記フラストレーションによ り上記目的のタンパク質の相互作用部位を予測する相互作用部位予測手段 (相 互作用部位予測ステップ) とを備えた (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的のタンパク質の一次配 列情報を入力し、 目的のタンパク質の二次構造データを取得し、 タンパク質の 一次配列情報から当該タンパク質の二次構造を予測する二次構造予測プロダラ ムに対して入力された一次配列情報の二次構造予測シミュレーションを実行さ せ、 二次構造予測プログラムの二次構造予測結果と、 取得した二次構造データ とを比較し、 比較結果に基づいて、 目的のタンパク質の一次配列情報の局所部 分のフラストレーションを計算し、 計算された局所部分のブラストレーション により目的のタンパク質の相互作用部位を予測するので、 二次構造予測プログ ラムの予測結果と目的のタンパク質の実際の二次構造との差を見ることにより、 より明確にフラストレーションのある局所部位 (相互作用部位になっている確 率の高い部位) を見つけることが可能になる。
つぎの発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 および、 プログラムは、 上記に記載の相互作用部位予測装置、 相互作用部位予測方法、 および、 プログラムにおいて、 上記二次構造予測プログラムの上記二次構造予 測結果に対する確信度を示す確信度情報を設定する確信度情報設定手段 (確信 度情報設定ステップ) をさらに備え (含み) 、 上記フラストレーション計算手 段 (フラス トレーション計算ステップ) は、 上記確信度情報設定手段 (確信度 情報設定ステップ) により設定された上記確信度情報および上記比較結果に基 づいて、 上記局所部分の上記フラストレーションを計算することを特徴とする。 これはフラストレーシヨン計算の一例を一層具体的に示すものである。 この 装置、 方法、 および、 プログラムによれば、 二次構造予測プログラムの二次構 造予測結果に対する確信度を示す確信度情報を設定し、 設定された確信度情報 および比較結果に基づいて、 局所部分のフラストレーションを計算するので、 確信度情報が高い (すなわち、 シミュレーションの精度の高い) プログラムに よる二次構造予測結果データに対する重みを高くすることにより、 フラス トレ ーシヨン計算においてシミュレーシヨン結果に対する確信度を反映させること ができるようになる。
また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンビユー タに読み取らせて実行することによって、 上記に記載されたプログラムをコン ピュータを利用して実現することができ、 これら各方法と同様の効果を得るこ とができる。
(Π) また、 このような状況下、 本発明者は、 簡便でかつ正確な蛋白質の機能 部位 (活性部位) の推定方法等につき鋭意検討を行った結果、 1) 分子軌道法 によって求められる蛋白質の最高被占軌道 (HOMO; h i g e s t o c c u p i e d mo l e c u l a r o r b i t a l) または最低空軌道 (L UMO; l o e s t un o c c up i e d mo l e c u l a r o r b i t a 1 ) 、 ならびに、 その周辺軌道の位置と活性部位の位置との間に関係が あること、 2) 蛋白質の主鎖原子に分布する分子軌道の軌道エネルギーが相対 的に高いァミノ酸残基と活性部位との間に関連があることを見出し、 本発明を 成した。
本発明は、 以下に後述するように、 1) 精度が高いと言われている分子軌道 計算を利用していること、 2) 福井謙一らによって提唱され、 多くの科学者に よって実証されてきたフロンティア軌道の位置と反応部位との関係性を蛋白質 の系に応用したものであるので、 理論的な根拠があるという 2点によって、 高 い精度の予想が期待できるという特徴を有している。
すなわち、 この発明の活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体は、 以下の考えに立脚してなされたものである。 福井謙一の フロンティア軌道理論によれば、 最高被占軌道 (HOMO) は化学物質の電子 供与的反応に関与し、 最低空軌道 (LUMO) は化学物質の電子受容的反応に 関与する。 この理論は低分子化合物に関してはよく実証されている。 そこで、 本発明者は、 蛋白質のような巨大分子でも同様の理論が成立するのではないか と考えた。 その可能性については計算化学的なアプローチによって提示してい ¾ (J o u r n a l o f t h e Am e r ι c a n (c h em i c a l
S o c i e t y ; 2001 ; 1 23 (33) ; 816 1— 8162) 。 そし て、 本発明者は計算条件の改良、 フロンティア軌道とその周辺の軌道という抽 象的な概念から具体的な定義に変更、 計算条件を詳細に検討して、 さらに実施 例を増やしたことにより、 電子状態から逆に活性部位を予測するという本発明 を完成させた。
上述した目的を達成するため、 本発明にかかる活性部位予測方法は、 蛋白質 または生理活性ポリべプチドの電子状態を分子軌道計算によって求めて、 フロ ンティア軌道とその周辺軌道、 および Zまたは、 主鎖の重原子に局在する軌道 エネルギーを特定し、 当該フロンティア軌道とその周辺軌道の位置、 および z または、 当該軌道エネルギーに基づいて当該蛋白質または生理活性ポリぺプチ ドの活性部位となるァミノ酸残基を予測することを特徴とする。
この方法によれば、 蛋白質または生理活性ポリべプチドの電子状態を分子軌 道計算によって求めて、 フロンティア軌道とその周辺軌道、 および/または、 主鎖の重原子に局在する軌道エネルギーを特定し、 当該フ口ンティア軌道とそ の周辺軌道の位置、 および Zまたは、 当該軌道エネルギーに基づいて当該蛋白 質または生理活性ポリぺプチドの活性部位となるァミノ酸残基を予測するので、 精度が高いと言われている分子軌道計算を利用し、 フロンティア軌道の位置ま たは軌道エネルギーの高い位置と反応部位との関係性を蛋白質または生理活性 ポリペプチドの系に応用するため高い精度の活性部位予想を行うことができる ようになる。
つぎの発明にかかる活性部位予測装置、 活性部位予測方法、 および、 プログ ラムは、 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得手段 (構造データ取得ステップ) と、 上記構造データ取得手段 (構造データ取得ステップ) にて取得した上記構造データに基づいて上記蛋白 質または生理活性ポリペプチドの電子状態を分子軌道計算によって求めてフロ ンティァ軌道を特定するフロンティァ軌道計算手段 (フロンティァ軌道計算ス テツプ) と、 上記フロンティア軌道と予め定めたエネルギー差になる分子軌道 を当該フロンティア軌道の周辺軌道として決定する周辺軌道決定手段 (周辺軌 道決定ステップ) と、 上記フロンティア軌道と上記周辺軌道が分布しているァ ミノ酸残基を活性部位の候補のァミノ酸残基として決定する候補ァミノ酸残基 決定手段 (候補アミノ酸残基決定ステップ) と、 上記候補アミノ酸残基決定手 段 (候補アミノ酸残基決定ステップ) により決定された上記候補アミノ酸残基 の中から活性部位を選択して活性部位を予測する活性部位予測手段 (活性部位 予測ステップ) とを備えた (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的の蛋白質または生理活 性ポリぺプチドの構造データを取得し、 取得した構造データに基づいて蛋白質 または生理活性ポリぺプチドの電子状態を分子軌道計算によって求めてフロン ティア軌道を特定し、 フロンティア軌道と予め定めたエネルギー差になる分子 軌道を当該フロンティア軌道の周辺軌道として決定し、 フロンティア軌道と周 辺軌道が分布しているアミノ酸残基を活性部位の候補のアミノ酸残基として決 定し、 決定された候補アミノ酸残基の中から活性部位を選択して活性部位を予 測するので、 精度が高いと言われている分子軌道計算を利用し、 フロンティア 軌道の位置と反応部位との関係性を蛋白質または生理活性ポリぺプチドの系に 応用するため高い精度の活性部位予想を行うことができるようになる。
つぎの発明にかかる活性部位予測装置、 活性部位予測方法、 および、 プログ ラムは、 目的の蛋白質または生理活性ポリぺプチドの構造データを取得する構 造データ取得手段 (構造データ取得ステップ) と、 上記構造データ取得手段 (構造データ取得ステップ) にて取得した上記構造データに基づいて上記蛋白 質または生理活性ポリべプチドの電子状態を分子軌道計算によって求めて主鎖 の重原子に局在する軌道エネルギ"を特定する軌道エネルギー計算手段 (軌道 エネルギー計算ステップ) と、 上記軌道エネルギー計算手段 (軌道エネルギー 計算ステップ) にて特定された上記軌道エネルギーのうち予め定めた値を超え る軌道エネルギーとなる分子軌道および/または相対的に軌道エネルギーが高 い分子軌道が分布しているアミノ酸残基を活性部位の候補のァミノ酸残基とし て決定する候補アミノ酸残基決定手段 (候補アミノ酸残基決定ステップ) とを 備えた (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的の蛋白質または生理活 性ポリべプチドの構造データを取得し、 取得した構造データに基づいて蛋白質 または生理活性ポリべプチドの電子状態を分子軌道計算によって求めて主鎖の 重原子に局在する軌道エネルギーを特定し、 特定された軌道エネルギーのうち 予め定めた値を超える軌道エネルギーとなる分子軌道および/または相対的に 軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部位の候捕 のアミノ酸残基として決定するので、 精度が高いと言われている分子軌道計算 を利用し、 軌道エネルギーの高い位置と反応部位との関係性を蛋白質または生 理活性ポリぺプチドの系に応用するため高い精度の活性部位予想を行うことが できるようになる。 つぎの発明にかかる活性部位予測装置、 活性部位予測方法、 および、 プログ ラムは、 目的の蛋白質または生理活性ポリぺプチドの構造データを取得する構 造データ取得手段 (構造データ取得ステップ) と、 上記構造データ取得手段 (構造データ取得ステップ) にて取得した上記構造データに基づレ、て上記蛋白 質または生理活性ポリぺプチドの電子状態を分子軌道計算によって求めてフロ ンティァ軌道を特定するフロンティァ軌道計算手段 (フロンティァ軌道計算ス テツプ) と、 上記構造データ取得手段 (構造データ取得ステップ) にて取得し た上記構造データに基づいて上記蛋白質または生理活性ポリぺプチドの電子状 態を分子軌道計算によって求めて主鎖の重原子に局在する軌道エネルギーを特 定する軌道エネルギー計算手段 (軌道エネルギー計算ステップ) と、 上記フロ ンティァ軌道と予め定めたエネルギー差になる分子軌道を当該フロンティア軌 道の周辺軌道として決定する周辺軌道決定手段 (周辺軌道決定ステップ) と、 上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基、 および Z または、 上記軌道エネルギー計算手段 (軌道エネルギー計算ステップ) にて特 定された上記軌道エネルギーのうち予め定めた値を超える軌道エネルギーとな る分子軌道および Zまたは相対的に軌道エネルギーが高い分子軌道が分布して いるアミノ酸残基を活性部位の候補のアミノ酸残基として決定する候補アミノ 酸残基決定手段 (候補アミノ酸残基決定ステップ) と、 上記候補アミノ酸残基 決定手段 (候補アミノ酸残基決定ステップ) により決定された上記候補アミノ 酸残基の中から活性部位を選択して活性部位を予測する活性部位予測手段 (活 性部位予測ステップ) とを備えた (含む) ことを特徴とする。 ■
この装置、 方法、 および、 プログラムによれば、 目的の蛋白質または生理活 性ポリぺプチドの構造データを取得し、 取得した構造データに基づいて蛋白質 または生理活性ポリぺプチドの電子状態を分子軌道計算によって求めてフロン ティア軌道を特定し、 取得した構造データに基づいて蛋白質または生理活性ポ リペプチドの電子状態を分子軌道計算によって求めて主鎖の重原子に局在する 軌道エネルギーを特定し、 フロンティア軌道と予め定めたエネルギー差になる 分子軌道を当該フロンティア軌道の周辺軌道として決定し、 フロンティ: と周辺軌道が分布しているアミノ酸残基、 および/または、 特定された軌道ェ ネルギ一のうち予め定めた値を超える軌道エネルギーとなる分子軌道おょぴ z または相対的に軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を 活性部位の候補のアミノ酸残基として決定し、 決定された候補アミノ酸残基の 中から活性部位を選択して活性部位を予測するので、 精度が高いと言われてい る分子軌道計算を利用し、 フロンティア軌道の位置または軌道エネルギーの高 V、位置と反応部位との関係性を蛋白質または生理活性ポリぺプチドの系に応用 するため高い精度の活性部位予想を行うことができるようになる。
つぎの発明にかかる活性部位予測装置、 活性部位予測方法、 および、 プログ ラムは、 上記に記載の活性部位予測装置、 活性部位予測方法、 および、 プログ ラムにおいて、 分子軌道計算において、 以下の 3つの計算条件、 1 ) 蛋白質ま たは生理活性ポリペプチドのまわりに水分子を発生させる、 2 ) 蛋白質または 生理活性ポリペプチドの周りに連続的な誘電体を置く、 3 ) 蛋白質または生理 活性ポリぺプチド表面の解離性ァミノ酸残基を無電荷の状態にし、 内部に埋ま つている解離性アミノ酸を電荷状態にする、 のうち少なくとも一つの計算条件 を設定する計算条件設定手段 (計算条件設定ステップ) をさらに備えた (含 む) ことを特徴とする。
これは分子軌道計算の一例を一層具体的に示すものである。 この装置、 方法、 および、 プログラムによれば、 分子軌道計算において、 以下の 3つの計算条件、 1 ) 蛋白質または生理活性ポリペプチドのまわりに水分子を発生させる、 2 ) 蛋白質または生理活性ポリペプチドの周りに連続的な誘電体を置く、 3 ) 蛋白 質または生理活性ポリべプチド表面の解離性アミノ酸残基を無電荷の状態にし、 内部に埋まっている解離性アミノ酸を電荷状態にする、 のうち少なくとも一つ の計算条件を設定するので、 3つの計算条件を適宜設定することにより、 効率 的に分子軌道計算を実行することができ、 さらに、 活性部位予測の精度を大幅 に向上させることができるようになる。 また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上記に記載されたプログラムを記録したことを特徴とする。
. この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンビユー タに読み取らせて実行することによって、 上記に記載されたプログラムをコン ピュータを利用して実現することができ、 これら各方法と同様の効果を得るこ とができる。
(m) また、 上述した目的を達成するため、 本発明にかかるタンパク質相互作 用情報処理装置、 タンパク質相互作用情報処理方法、 および、 プログラムは、 相互作用する複数のタンパク質の一次構造データと単体時および zまたは複合 体形成時の立体構造データとを含む構造データを取得する構造データ取得手段 (構造データ取得ステップ) と、 上記構造データ取得手段 (構造データ取得ス テツプ) にて取得した上記構造データに従って、 上記一次構造データを構成す るアミノ酸残基毎に疎水性相互作用エネルギーを特定する疎水面特定手段 (疎 水面特定ステップ) と、 上記構造データ取得手段 (構造データ取得ステップ) にて取得した上記構造データに従って、 上記一次構造データを構成するァミノ 酸残基毎に静電相互作用エネルギーを特定する静電相互作用部位特定手段 (静 電相互作用部位特定ステップ) と、 上記疎水面特定手段 (疎水面特定ステツ プ) にて特定された上記疎水性相互作用エネルギー、 および、 上記静電相互作 用部位特定手段 (静電相互作用部位特定ステップ) にて特定された上記静電相 互作用エネルギーに基づいて不安定性の高い上記ァミノ酸残基の部位を特定す ることにより相互作用部位を特定する相互作用部位特定手段 (相互作用部位特 定ステップ) とを備えた (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 相互作用する複数のタンパ ク質の一次構造データと単体時および/または複合体形成時の立体構造データ とを含む構造データを取得し、 取得した構造データに従って、 一次構造データ を構成するアミノ酸残基毎に疎水性相互作用エネルギーを特定し、 取得した構 造データに従って、 一次構造データを構成するァミノ酸残基毎に静電相互作用 エネルギーを特定し、 特定された疎水性相互作用エネルギー、 および、 静電相 互作用エネノレギーに基づいて不安定性の高いァミノ酸残基の部位を特定するこ とにより相互作用部位を特定するので、 構造データによりタンパク質の相互作 用^位を容易に特定することができるようになる。
つぎの発明にかかるタンパク質相互作用情報処理装置、 タンパク質相互作用 情報処理方法、 および、 プログラムは、 上記に記載のタンパク質相互作用情報 処理装置、 タンパク質相互作用情報処理方法、 および、 プログラムにおいて、 上記構造データ取得手段 (構造データ取得ステップ) にて取得した上記構造デ ータに従って、 上記一次構造データを構成するアミノ酸残基毎に溶媒接触面を 特定する溶媒接触面特定手段 (溶媒接触面特定ステップ) をさらに備え (含 み) 、 上記相互作用部位特定手段 (相互作用部位特定ステップ) は、 上記溶媒 接触面特定手段 (溶媒接触面特定ステップ) にて特定された上記溶媒接触面、 上記疎水面特定手段 (疎水面特定ステップ) にて特定された上記疎水性相互作 用エネルギー、 および、 上記静電相互作用部位特定手段 (静電相互作用部位特 定ステップ) にて特定された上記静電相互作用エネルギーに基づいて不安定性 の高い上記ァミノ酸残基の部位を特定することにより相互作用部位を特定する ことを特徴とする。 .
この装置、 方法、 および、 プログラムによれば、 取得した構造データに従つ て、 一次構造データを構成するアミノ酸残基毎に溶媒接触面を特定し、 特定さ れた溶媒接触面、 疎水性相互作用エネルギー、 および、 静電相互作用エネルギ 一に基づいて不安定性の高いァミノ酸残基の部位を特定することにより相互作 用部位を特定するので、 複合体時の構造データがある場合に、 タンパク質の相 互作用部位をさらに正確かつ容易に特定することができるようになる。
つぎの発明にかかるタンパク質相互作用情報処理装置、 タンパク質相互作用 情報処理方法、 および、 プログラムは、 上記に記載のタンパク質相互作用情報 処理装置、 タンパク質相互作用情報処理方法、 および、 プログラムにおいて、 上記相互作用部位特定手段 (相互作用部位特定ステップ) にて特定された上記 相互作用部位について、 相互作用する相手側の一次配列を特定し、 当該一次配 列を含む一次構造を持つ候補タンパク質を検索する候補タンパク質検索手段
(候補タンパク質検索ステップ) をさらに備え (含み) 、 上記候補タンパク質 検索手段 (候補タンパク質検索ステップ) にて検索された上記候補タンパク質 について、 上記相手側の一次配列の部分が上記候補タンパク質の相互作用部位 として特定されるか否かを確認することを特徴とする。
この装置、 方法、 および、 プログラムによれば、 相互作用部位特定手段 (相 互作用部位特定ステップ) にて特定された相互作用部位について、 相互作用す る相手側の一次配列を特定し、 当該一次配列を含む一次構造を持つ候補タンパ ク質を検索し、 検索された候補タンパク質について、 上述した構造データ取得 手段 (構造データ取得ステップ) 、 溶媒接触面特定手段 (溶媒接触面特定ステ ップ) (複合体時の構造データがある場合) 、 疎水面特定手段 (疎水面特定ス テツプ) 、 静電相互作用部位特定手段 (静電相互作用部位特定ステップ) 、 お ょぴ、 相互作用部位特定手段 (相互作用部位特定ステップ) を実行することに より、 相手側の一次配列の部分が候補タンパク質の相互作用部位として特定さ れるか否かを確認するので、 未知の相互作用を予測することが容易にできるよ うになる。
また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンビユー タに読み取らせて実行することによって、 上記に記載されたプログラムをコン ピュータを利用して実現することができ、 これら各方法と同様の効果を得るこ. とができる。
(IV) また、 2つの蛋白質が自発的に相互作用するためには、 結合することに より系全体のエネルギーが下がることが必要となる。 つまり、 蛋白質の中で不 安定な部分は、 結合によって安定ィヒする可能性を秘めているので、 結合しやす い部分と考えることができる。 また、 相互作用相手は他の蛋白質と比べて結合 する能力が高いと考えられる。 つまり、 相互作用相手を予測するためには、 網 羅的に相互作用を計算した上で、 他よりも相互作用する能力が高いものを探索 する必要がある。 そのためには、 1対 1の相互作用だけではなく、 多対多の相 互作用の計算が必要なので、 計算コストを大幅に改善する必要がある。
本発明の中心的な概念は、 蛋白質の構造上、 他の部位よりも不安定な領域が 結合部位の可能性が高いというものである。 つまり、 本発明は、 局所的に不安 定な領域を比較的簡易な計算によって求めることで、 結合部位を予測するもの である。
すなわち、 本発明は、 主に、 基本的に蛋白質の配列情報のみから高精度に結 合部位を予測できるようにすること (ただし、 必要に応じて立体構造情報を追 加できる。 ) 極めて短時間で計算可能にし、 網羅的な解析を可能にすること、 の 2点を特徴とするものである。 .
従って、 本発明は、 蛋白質のアミノ酸情報から立体構造情報 (アミノ酸間の 空間上の距離) を予測して、 立体構造と電荷の情報から静電的に不安定な部分 を予測する、 および/または、 2つの蛋白質が結合する時の静電的なエネルギ 一を計算することにより、 結合部位、 結合相手を予測すること等ができる、 結 合部位予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体に関する。 上述した目的を達成するため、 本発明にかかる結合部位予測方法は、 蛋白質 または生理活性ポリべプチドのアミノ酸配列データから当該蛋白質または生理 活性ポリべプチドの立体構造における各アミノ酸残基間の空間上の距離データ を求め、 当該 £巨離データと各ァミノ酸の電荷に従って静電的に不安定なァミノ 酸残基を特定することにより結合部位を予測することを特徴とする。
この方法によれば、 蛋白質または生理活性ポリぺプチドのァミノ酸配列デー タから当該蛋白質または生理活性ポリぺプチドの立体構造における各アミノ酸 残基間の空間上の距離データを求め、 当該距離データと各アミノ酸の電荷に従 つて静電的に不安定なァミノ酸残基を特定することにより結合部位を予測する ので、 蛋白質または生理活性ポリぺプチドのァミノ酸配列から静電的に不安定 になりそうなァミノ酸残基が結合部位になりやすいことを利用して、 高速かつ 高精度に結合部位を予測することができるようになる。
つぎの発明にかかる結合部位予測装置、 結合部位予測方法、 および、 プログ ラムは、 目的の蛋白質または生理活性ポリぺプチドのアミノ酸配列データを取 得するアミノ酸配列データ取得手段 (アミノ酸配列データ取得ステップ) と、 上記ァミノ酸配列データ取得手段 (ァミノ酸配列データ取得ステップ) により 取得されたァミノ酸配列データに含まれる各ァミノ酸残基の間の空間上の距離 を決定する空間距離決定手段 (空間距離決定ステップ) と、 上記アミノ酸配列 データに含まれる各アミノ酸残基が持つ電荷を決定する電荷決定手段 (電荷決 定ステップ) と、 上記空間距離決定手段 (空間距離決定ステップ) により決定 された各アミノ酸残基間の空間上の距離と、 上記電荷決定手段 (電荷決定ステ ップ) により決定された各アミノ酸残基が持つ電荷とに従って、 各アミノ酸残 基のエネルギーを計算するエネルギー計算手段 (エネルギー計算ステップ) と、 上記エネルギー計算手段 (エネルギー計算ステップ) により計算された上記ェ ネルギ一に従って、 結合部位となる候補アミノ酸残基を決定する候補アミノ酸 残基決定手段 (候補アミノ酸残基決定ステップ) とを備えた (含む) ことを特 徴とする。
この装置、 方法、 および、 プログラムによれば、 目的の蛋白質または生理活 性ポリぺプチドのァミノ酸配列データを取得し、 取得されたァミノ酸配列デー タに含まれる各アミノ酸残基の間の空間上の距離を決定し、 アミノ酸配列デー タに含まれる各ァミノ酸残基が持つ電荷を決定し、 決定された各ァミノ酸残基 間の空間上の距離と、 決定された各アミノ酸残基が持つ電荷とに従って、 各ァ ミノ酸残基のエネルギーを計算し、 計算されたエネルギーに従って、 結合部位 となる候補ァミノ酸残基を決定するので、 蛋白質または生理活性ポリぺプチド のァミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部位にな りやすいことを利用して、 高速かつ高精度に結合部位を予測することができる ようになる。 つぎの発明にかかる結合部位予測装置、 結合部位予測方法、 および、 プログ ラムは、 目的の複数の蛋白質または生理活性ポリぺプチドのアミノ酸配列デー タを取得するアミノ酸配列データ取得手段 (アミノ酸配列データ取得ステツ プ) と、 上記目的の複数の蛋白質または生理活性ポリペプチドの結合した複合 体の立体構造情報を生成する複合体構造生成手段 (複合体構造生成ステップ) と、 上記アミノ酸配列データ取得手段 (アミノ酸配列データ取得ステップ) に より取得された複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空 間上の距離を、 上記複合体構造生成手段 (複合体構造生成ステップ) により生 成した上記複合体の立体構造情報に従って決定する空間距離決定手段 (空間距 離決定ステップ) と、 上記複数のアミノ酸配列データに含まれる各アミノ酸残 基が持つ電荷を決定する電荷決定手段 (電荷決定ステップ) と、'上記空間距離 決定手段 (空間距離決定ステップ) により決定された各アミノ酸残基間の空間 上の距離と、 上記電荷決定手段 (電荷決定ステップ) により決定された各アミ ノ酸残基が持つ電荷とに従って、 各アミノ酸残基のエネルギーを計算するエネ ルギー計算手段 (エネルギー計算ステップ) と、 上記複合体構造生成手段 (複 合体構造生成ステップ) により上記複合体について結合部位を変えて上記複合 体の立体構造情報を生成し、 上記エネルギー計算手段 (エネルギー計算ステツ プ) により各ァミノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最 小となる結合部位を求めるエネルギー最小化手段 (エネルギー最小化ステツ プ) と、 上記エネルギー最小化手段 (エネルギー最小化ステップ) によりエネ ルギ一の総和が最小となる結合部位を、 結合部位の候補ァミノ酸残基として決 定する候補アミノ酸残基決定手段 (候補アミノ酸残基決定ステップ) とを備え た (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的の複数の蛋白質または 生理活性ポリペプチドのアミノ酸配列データを取得し、 目的の複数の蛋白質ま たは生理活性ポリぺプチドの結合した複合体の立体構造情報を生成し、 取得さ れた複数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離 を、 生成した複合体の立体構造情報に従って決定し、 複数のアミノ酸配列デー タに含まれる各アミノ酸残基が持つ電荷を決定し、 決定された各アミノ酸残基 間の空間上の距離と、 決定された各アミノ酸残基が持つ電荷とに従って、 各ァ ミノ酸残基のエネルギーを計算し、 複合体について結合部位を変えて複合体の 立体構造情報を生成し、 各アミノ酸残基のエネルギーを計算し、 当該エネルギ 一の総和が最小となる結合部位を求め、 エネルギーの総和が最小となる結合部 位を、 結合部位の候補アミノ酸残基として決定するので、 蛋白質または生理活 性ポリぺプチドのァミノ酸配列から静電的に不安定になりそうなァミノ酸残基 が結合部位になりやすいことを利用して、 高速かつ高精度に結合部位を予測す ることができるようになる。
つぎの発明にかかる結合部位予測装置、 結合部位予測方法、 および、 プログ ラムは、 目的の蛋白質または生理活性ポリべプチドのアミノ酸配列データと、 結合候補となる 1つまたは複数の蛋白質または生理活性ポリべプチドのァミノ 酸配列データとを取得するァミノ酸配列データ取得手段 (ァミノ酸配列データ 取得ステップ) と、 上記目的の蛋白質または生理活性ポリペプチドと、 上記結 合候補となる蛋白質または生理活性ポリぺプチドとが結合した複合体の立体構 造情報を生成する複合体構造生成手段 (複合体構造生成ステップ) と、 上記ァ ミノ酸配列データ取得手段 (ァミノ酸配列データ取得ステップ) により取得さ れた目的のァミノ酸配列データと結合候補のァミノ酸配列データに含まれる各 アミノ酸残基の間の空間上の距離を、 上記複合体構造生成手段 (複合体構造生 成ステップ) により生成した上記複合体の立体構造情報に従って決定する空間 距離決定手段 (空間距離決定ステップ) と、 上記目的のアミノ酸配列データと 上記結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決 定する電荷決定手段 (電荷決定ステップ) と、 上記空間距離決定手段 (空間距 離決定ステップ) により決定された各アミノ酸残基間の空間上の距離と、 上記 電荷決定手段 (電荷決定ステップ) により決定された各アミノ酸残基が持つ電 荷とに従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算手段 (エネルギー計算ステップ) と、 上記複合体構造生成手段 (複合体構造生成ス テップ) により上記複合体について結合部位を変えて上記複合体の立体構造情 報を生成し、 上記エネルギー計算手段 (エネルギー計算ステップ) により各ァ ミノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部 位を求めるエネルギー最小化手段 (エネルギー最小化ステップ) と、 全ての結 合候補について上記エネルギー最小化手段 (エネルギー最小化ステップ) を実 行した結果、 上記エネルギーの総和が最小となる結合部位をもつ結合候補を決 定する結合候補決定手段 (結合候捕決定ステップ) とを備えた (含む) ことを 特徴とする。
この装置、 方法、 および、 プログラムによれば、 目的の蛋白質または生理活 性ポリペプチドのアミノ酸配列データと、 結合候補となる 1つまたは複数の蛋 白質または生理活性ポリぺプチドのァミノ酸配列データとを取得し、 目的の蛋 白質または生理活性ポリぺプチドと、 結合候補となる蛋白質または生理活性ポ リぺプチドとが結合した複合体の立体構造情報を生成し、 取得された目的のァ ミノ酸配列データと結合候補のアミノ酸配列データに含まれる各ァミノ酸残基 の間の空間上の距離を、 生成した複合体の立体構造情報に従って決定し、 目的 のァミノ酸配列データと結合候補のァミノ 配列データに含まれる各ァミノ酸 残基が持つ電荷を決定し、 決定された各アミノ酸残基間の空間上の距離と、 決 定された各アミノ酸残基が持つ電荷とに従って、 各アミノ酸残基のエネルギー を計算し、 複合体について結合部位を変えて複合体の立体構造情報を生成し、 各ァミノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結 合部位を求め、 全ての結合候補についてエネルギー最小化処理を実行した結果、 エネルギーの総和が最小となる結合部位をもつ結合候捕を決定するので、 蛋白 質または生理活性ポリぺプチドのァミノ酸配列から静電的に不安定になりそう なアミノ酸残基が結合部位になりやすいことを利用して、 高速かつ高精度に最 適な結合候補の蛋白質を予測することができるようになる。
また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンビユー タに読み取らせて実行することによって、 上記に記載されたプログラムをコン ピュータを利用して実現することができ、 これら各方法と同様の効果を得るこ とができる。
(V) また、 上述した目的を達成するため、 本発明にかかるタンパク質構造最 適化装置、 タンパク質構造最適化方法、 および、 プログラムは、 タンパク質の 座標データを取得する座標データ取得手段 (座標データ取得ステップ) と、 上 記タンパク質の座標データについて、 特定のアミノ酸残基から所定の距離内に 含まれる近傍アミノ酸残基群の座標を抽出する近傍アミノ酸残基群抽出手段
(近傍アミノ酸残基群抽出ステップ) と、 上記近傍アミノ酸残基群の切り口の 部分にキヤップ用置換基を付加するキヤップ付加手段 (キヤップ付加ステツ プ) と、 上記キャップ付加手段 (キャップ付加ステップ) により上記キャップ 用置換基が付加された上記近傍アミノ酸残基群の全体の電荷を計算する電荷計 算手段 (電荷計算ステップ) と、 上記キャップ付加手段 (キャップ付加ステツ プ) により上記キヤップ用置換基が付加された上記近傍ァミノ酸残基群につい て、 上記電荷計算手段 (電荷計算ステップ) により計算された上記電荷を用い て上記特定のアミノ酸残基の原子座標について構造最適化を実行する構造最適 化手段 (構造最適化ステップ) と、 上記構造最適化手段 (構造最適化ステツ プ) にて最適化された上記原子座標を、 上記タンパク質の座標データ上の対応 する原子座標と置換する原子座標置換手段 (原子座標置換ステップ) とを備え た (含む) ことを特徴とする。
この装置、 方法、 および、 プログラムによれば、 タンパク質の座標データを 取得し、 タンパク質の座標データについて、 特定のアミノ酸残基から所定の距 離内に含まれる近傍アミノ酸残基群の座標を抽出し、 近傍アミノ酸残基群の切 り口の部分にキャップ用置換基を付カ卩し、 キャップ用置換基が付加された近傍 ァミノ酸残基群の全体の電荷を計算し、 キヤップ用置換基が付加された近傍ァ ミノ酸残基群について、 計算された電荷を用いて特定のアミノ酸残基の原子座 標について構造最適化を実行し、 最適化された原子座標を、 タンパク質の座標 データ上の対応する原子座標と置換するので、 水素位置の決定ゃパッキングの 問題の解消を、 実用的な計算資源を用いて行うことが可能となる。
また、 この装置、 方法、 および、 プログラムによれば、 既存の計算プロダラ ムには一切手を加えずに最適化処理の高速化を図ることができる。 すなわち、 既存の分子軌道計算プログラムや、 分子力学計算プログラムの入出力ファイル を用いて、 本装置を実行することができる。 但し、 本装置のアルゴリズムを既 存の分子軌道計算プログラムや、 分子力学計算プログラムに組み込むことも可 能である。
また、 この装置、 方法、 および、 プログラムによれば、 従来の方法では不可 能な溶媒効果を考慮に入れたタンパク質の構造最適化が可能になる。
つぎの発明にかかるタンパク質構造最適化装置、 タンパク質構造最適化方法、 および、 プログラムは、 上記に記載のタンパク質構造最適化装置、 タンパク質 構造最適化方法、 および、 プログラムにおいて、 上記キャップ用置換基は、 水 素原子 (H) またはメチル基 (C H3) であることを特徴とする。
これはキャップ用置換基の一例を一層具体的に示すものである。 この装置、 方法、 および、 プログラムによれば、 キャップ用置換基は、 水素原子 (H) ま たはメチル基 (C H3) であるので、 近傍アミノ酸残基群について機械的に座 標を切り取ったときの切り口が、 ラジカルとなり計算に不都合を生じることを 容易に解消することができるようになる。
つぎの発明にかかるタンパク質構造最適化装置、 タンパク質構造最適化方法、 および、 プログラムは、 上記に記載のタンパク質構造最適化装置、 タンパク質 構造最適化方法、 および、 プログラムにおいて、 上記近傍アミノ酸残基群抽出 手段 (近傍アミノ酸残基群抽出ステップ) は、 抽出した上記近傍アミノ酸残基 群の中にシスティン (C Y S ) が含まれている場合には、 当該システィン (C Y S ) とジスルフィド結合をしておりかつ上記近傍ァミノ酸残基群には含まれ ない別のシスティン (CYS) が存在しているか判定し、 当該別のシスティン (CYS) が存在する場合には当該別のシスティン (CYS) も近傍アミノ酸 残基群に加えることを特徴とする。
これは近傍アミノ酸残基群抽出手段 (近傍アミノ酸残基群抽出ステップ) の —例を一層具体的に示すものである。 この装置、 方法、 および、 プログラムに よれば、 近傍アミノ酸残基群抽出手段 (近傍アミノ酸残基群抽出ステップ) は、 抽出した近傍アミノ酸残基群の中にシスティン (CYS) が含まれている場合 には、 当該システィン (CYS) とジスルフイド結合をしておりかつ近傍アミ ノ酸残基群には含まれない別のシスティン (CYS) が存在しているか判定し、 当該別のシスティン (CYS) が存在する場合には当該別のシスティン (CY S) も近傍アミノ酸残基群に加えるので、 システィン間のジスルフイ ド結合を 考慮して構造最適化を行うことができるようになる。
また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンビユー タに読み取らせて実行することによって、 上記に記載されたプログラムをコン ピュータを利用して実現することができ、 これら各方法と同様の効果を得るこ とができる。 図面の簡単な説明
第 1図は、 本発明の基本原理を示す原理構成図であり、 第 2図は、 本発明が 適用される本システムの構成の一例を示すブロック図であり、 第 3図は、 予測 結果データベース 1◦ 6 aに格納される情報の一例を示す図であり、 第 4図は、 本実施形態における本システムのメイン処理の一例を示すフローチャートであ り、 第 5図は、 本実施形態における本システムの二次構造データ取得処理の一 例を示すフローチャートであり、 第 6図は、 本システムのフラストレーション 計算部 102 eにより実行されるフラストレーション実行処理の一例を示すフ ローチャートであり、 第 7図は、 相互作用部位予測装置 1 0 0の出力装置 1 1 4に表示される相互作用部位予測結果の表示画面の一例を示す図であり、 第 8 図は、 相互作用部位予測装置 1 0 0のモニタに表示される本実施例の処理結果 出力画面の一例を示す図であり、 第 9図は、 既知のドッキング .シミュレーシ ョンによりフラストレーションが大きい部位であると予測された部位が実際に 相互作用部位として機能しているかを確認するための図であり、 第 1 0図は、 本発明の基本原理を示す原理構成図であり、 第 1 1図は、 本発明が適用される 本システムの構成の一例を示すブロック図であり、 第 1 2図は、 フロンティア 軌道計算部 1 1 0 2 aの構成の一例を示すブロック図であり、 第 1 3図は、 活 性部位予測部 1 1 0 2 gの構成の一例を示すプロック図であり、 第 1 4図は、 本実施形態における本システムのメイン処理の一例を示すフローチャートであ り、 第 1 5図は、 本実施形態における本システムの分子軌道計算処理の一例を 示すフローチャートであり、 第 1 6図は、 本実施形態における本システムのフ 口ンティア軌道とその周辺軌道による候補ァミノ酸残基決定処理の一例を示す フローチャートであり、 第 1 7図は、 本実施形態における本システムの各分子 軌道のァミノ酸への帰属情報決定処理の一例を示すフローチャートであり、 第 1 8図は、 本実施形態における本システムの候補アミノ酸残基比較処理の一例 を示すフローチャートであり、 第 1 9図は、 本実施形態における本システムの 主鎖の重原子に局在する軌道エネルギーによる候補アミノ酸残基決定処理の一 例を示すフローチャートであり、 第 2 0図は、 分子軌道計算で得られた計算結 果の一例を示す図であり、 第 2 1図は、 候補アミノ酸残基が蛋白質の立体構造 中どの位置に存在しているかを確認するための表示画面の一例を示す図であり、 第 2 2図は、 分子軌道計算で得られた計算結果の一例を示す図であり、 第 2 3 図は、 実施例 1においてリボヌクレアーゼ T 1のフロンティア軌道が分布した アミノ酸残基を示す図表であり、 第 2 4図は、 本実施例 1において主鎖の窒素 原子に分布している分子軌道の軌道エネルギーをアミノ酸の残基番号に対して プロットした図であり、 第 2 5図は、 本実施例 1において軌道エネルギーが高 いアミノ酸残基と軌道エネルギーとを抽出した図表であり、 第 26図は、 本実 施例 1において第 23図に示したフロンティア軌道による候補アミノ酸残基と、 第 24図および第 25図に示した主鎖原子の軌道エネルギーによる候捕ァミノ 酸残基の共通部分を抽出した図表であり、 第 27図は、 実施例 2においてリポ ヌクレアーゼ Aのフロンティア軌道が分布したアミノ酸残基を示す図表であり、 第 28図は、 本実施例 2において主鎖の窒素原子に分布している分子軌道の軌 道エネルギーをアミノ酸の残基番号に対してプロットした図であり、 第 29図 は、 本実施例 2において軌道エネルギーが高いァミノ酸残基と軌道エネルギー とを抽出した図表であり、 第 30図は、 本実施例 2において第 27図に示した フロンティア軌道による候補アミノ酸残基と、 第 28図および第 29図に示し た主鎖原子の軌道エネルギーによる候補アミノ酸残基の共通部分を抽出した図 表であり、 第 3 1図は、 本発明の基本原理を示す原理構成図であり、 第 32図 は、 本発明が適用される本システムの構成の一例を示すブロック図であり、 第 33図は、 本実施形態における本システムのメイン処理の一例を示すフローチ ヤートであり、 第 34図は、 本実施形態における本システムの溶媒接触面特定 処理の一例を示すフローチャートであり、 第 35図は、 本実施形態における本 システムの疎水面特定処理の一例を示すフローチャートであり、 第 36図は、 本実施形態における本システムの静電相互作用部位特定処理の一例を示すフロ 一チャートであり、 第 37図は、 本実施形態における本システムの相互作用部 位特定処理の一例を示すフローチャートであり、 第 38図は、 本実施形態にお ける本システムの相互作用部位予測処理の一例を示すフローチヤ一トであり、 第 39図は、 タンパク質相互作用情報処理装置 100が、 溶媒接触面特定部 1 02 bの処理により、 b a r n a s e— b a r s t a r複合体の結晶構造に基 づき、 b a r n a s eについて各ァミノ酸残基毎に溶媒接触面積の差 Δ Sを計 算した処理図であり、 第 40図は、 タンパク質相互作用情報処理装置 100力 疎水面特定部 102 cの処理により、 b a r n a s e単体の結晶構造に基づき、 b a r n a s eについて各アミノ酸残基毎に疎水性相互作用エネルギーを計算 した処理図であり、 第 41図は、 タンパク質相互作用情報処理装置 1 00が、 静電相互作用特定部 102 dの処理により、 b a r n a s e単体の結晶構造に 基づき、 b a r n a s eについて各アミノ酸残基毎に静電相互作用エネルギ を計算した処理図であり、 第 42図は、 タンパク質相互作用情報処理装置 10 0力 溶媒接触面特定部 102 bの処理により、 b a r n a s e— b a r s t a r複合体の結晶構造に基づき、 b a r s t a rについて各アミノ酸残基毎に 溶媒接触面積の差 A Sを計算した処理図であり、 第 43図は、 タンパク質相互 作用情報処理装置 100力 疎水面特定部 102 cの処理により、 b a r s t a r単体の結晶構造に基づき、 b a r s t a rについて各アミノ酸残基毎に疎 水性相互作用エネルギーを計算した処理図であり、 第 44図は、 タンパク質相 互作用情報処理装置 100が、 静電相互作用特定部 102 dの処理により、 b a r s t a r単体の結晶構造に基づき、 b a r s t a rについて各アミノ酸残 基毎に静電相互作用エネルギーを計算した処理図であり、 第 45図は、 タンパ ク質相互作用情報処理装置 10◦力 溶媒接触面特定部 102 bの処理により、 R i b o n c l e a s e- i n h i b i t o r複合体の結晶構造に基づき、 R i b o nu c l e a s eについて各ァミノ酸残基毎に溶媒接触面積の差 Δ S を計算した処理図であり、 第 46図は、 タンパク質相互作用情報処理装置 1 0 0が、 疎水面特定部 102 cの処理により、 R i b o nu c l e a s e単体の 結晶構造に基づき、 R i b o nu c l e a s eについて各ァミノ酸残基毎に疎 水性相互作用エネルギーを計算した処理図であり、 第 47図は、 タンパク質相 互作用情報処理装置 100力 静電相互作用特定部 102 dの処理により、 R i b o nu c l e a s e単体の結晶構造に基づき、 R i b o nu c l e a s e について各ァミノ酸残基毎に静電相互作用エネルギーを計算した処理図であり、 第 48図は、 タンパク質相互作用情報処理装置 100が、 溶媒接触面特定部 1 02 bの処理により、 R i b o n u c l e a s e— i nh i b i t o r複合体 の結晶構造に基づき、 i nh i b i t o rについて各ァミノ酸残基毎に溶媒接 触面積の差 Δ Sを計算した処理図であり、 第 49図は、 タンパク質相互作用情 報処理装置 100 、 疎水面特定部 102 cの処理により、 i n h i b i t o r単体の結晶構造に基づき、 i nh i b i t o rについて各アミノ酸残基毎に 疎水性相互作用エネルギーを計算した処理図であり、 図 50は、 タンパク質相 互作用情報処理装置 100が、 静電相互作用特定部 102 dの処理により、 i n h i b i t o r単体の結晶構造に基づき、 i nh i b i t o rについて各ァ ミノ酸残基毎に静電相互作用エネルギーを計算した処理図であり、 第 5 1図は、 本発明により 1つの蛋白質のァミノ酸配列情報からその蛋白質の結合部位を予 測する場合の概念を説明する図であり、 第 52図は、 本発明により複数の蛋白 質のァミノ酸配列情報からそれらの蛋白質で複合体を形成するときの結合部位 を予測する場合の概念を説明する図であり、 第 53図は、 本発明が適用される 本システムの構成の一例を示すプロック図であり、 第 54図は、 本発明が適用 される空間距離決定部 31 02 bの構成の一例を示すプロック図であり、 第 5 5図は、 本発明が適用されるエネルギー計算部 3102 dの構成の一例を示す ブロック図であり、 第 56図は、 本発明の高速計算手法の概念を示す図であり、 第 57図は、 複数のアミノ酸配列上で結合残基を仮定する場合の概念を示す図 であり、 第 58図は、 着目残基の概念を説明する図であり、 第 59図は、 本実 施形態における本システムの処理の一例を示すフローチャートであり、 第 60 図は、 処理結果の候補ァミノ酸残基のエネルギーなどの一例を示す図であり、 第 6 1図は、 立体構造上で不安定な部分がクラスター化している場合の一例を 示す図であり、 第 62図は、 ドッキングシミュレーションを用いて複合体構造 を生成する場合の概念を示す図であり、 第 63図は、 蛋白質 Aと蛋白質 Bの各 アミノ酸残基を結合残基とした場合のエネルギーの総和をプロットした図の一 例であり、 第 64図は、 2つのグルタミン酸の配列上の距離と空間上の距離と の関係を示す図であり、 第 65図は、 リポヌクレアーゼ Aの各アミノ酸残基の エネルギーをアミノ酸残基番号に対してプロットした図であり、 第 66図は、 リボヌクレアーゼ Aのアミノ酸残基のエネルギーが 0以上のものを結合部位候 補として表にまとめた図であり、 第 67図は、 PDBに格納されたァセチルコ W
35
リン ·エステラーゼ ·インヒビターの立体構造情報データの一部を示す図であ り、 第 68図は、 本発明により求めたアセチルコリン ·エステラーゼ .インヒ ビターのエネルギーを示す図であり、 第 69図は、 アセチルコリン 'エステラ ーゼ 'インヒビターのエネルギーが 0以上のもの 10個を結合部位候補として 取り出し、 実際に結合部位かどうかを実験的に調べた結果を示す図であり、 第 飞 0図は、 横車由に、 h un t i n g t i n— a s s o c i t a t e d p r o t e i n i n t e r a c t i n g p r o t e i nの結合咅 |5位のァミノ酸残 基番号をとり、 縦車由に n i t r i c o x i d e s y n t h a s e 2Aの 結合部位のァミノ酸残基番号をとり、 各結合部位で複合体を生成したときのェ ネルギ一の総和を等高線表示した図であり、 第 71図は、 各候補蛋白質の相互 作用エネルギーと遺伝子の数のヒストグラムであり、 第 72図は、 本発明の基 本原理を示すフローチャートであり、 第 73図は、 本発明が適用される本シス テムの構成の一例を示すブロック図であり、 第 74図は、 本実施形態における 本システムのメイン処理の一例を示すフローチャートであり、 第 75図は、 タ ンパク質の座標データの一例を示す図であり、 第 76図は、 本実施形態におけ る切り口に水素原子を付加する場合のキヤップ付加処理の一例を示すフローチ ヤートであり、 第 77図は、 もとの座標とキャップ置換基を付加した後の座標 の概念を示す図であり、 第 78図は、 本実施形態における切り口に水素原子を 付加する場合のキャップ付加処理の一例を示すフローチャートであり、 第 79 図は、 もとの座標とキャップ置換基を付カ卩した後の座標の概念を示す図であり、 第 80図は、 本実施形態における切り口にメチル基を付加する場合のキャップ 付加処理の一例を示すフローチャートであり、 第 8 1図は、 もとの座標とキヤ ップ置換基を付加した後の座標の概念を示す図であり、 第 82図は、 本実施形 態における切り口にメチル基を付加する場合のキヤップ付加処理の一例を示す フローチャートであり、 第 83図は、 もとの座標とキャップ置換基を付加した 後の座標の概念を示す図であり、 第 84図は、 PDB形式データの三文字表記 (1 8— 20カラムの文字) でアミノ酸種別を判別する場合の概念を説明する 図であり、 第 85図は、 アミノ酸残基 iの水素原子に最適化フラグを設定する 場合の一例を示す図であり、 第 86図は、 アミノ酸残基 iの水素と側鎖原子に 最適化フラグを設定する場合の一例を示す図であり、 第 87図は、 MOPAC 2000の入力ファイルの一例を示す図であり、 第 88図は、 MOP AC 20 00による構造最適化処理の結果を示す出力ファイルの一例を示す図であり、 第 89図は、 従来の最適化手法 (MOZ YME法 +B FG S法) と本発明の手 法により水素構造を最適化した場合の計算結果を示す図であり、 第 90図は、 従来の最適化手法 (MOZYME法 +BFGS法) と本発明の手法により側鎖 構造を最適化した場合の計算結果を示す図である。 発明を実施するための最良の形態
(I) 以下に、 本発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 プログラム、 および、 記録媒体の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施の形態によりこの発明が限定されるものではない。
[本発明の概要]
以下、 本発明の概要について説明し、 その後、 本発明の構成おょぴ処理等に ついて詳細に説明する。 図 1は本発明の基本原理を示す原理構成図である。 本発明は、 概略的に、 以下の基本的特徴を有する。 まず、 利用者は、 目的の タンパク質の一次配列情報である目的配列データ 10を本発明の相互作用部位 予測装置に入力する。 この目的配列データ 10の入力は、 例えば、 利用者が S WI S S— PROTや P I Rや Tr EMB L等の外部のデータベースに登録さ れた一次配列情報を選択することにより入力してもよく、 また、 所望の一次配 列情報を直接入力してもよい。
ついで、 本発明の相互作用部位予測装置は、 タンパク質の一次配列情報から 当該タンパク質の二次構造を予測する二次構造予測プログラム 20 a〜20 d に対して入力された目的配列データ 10の二次構造予測シミュレーシヨンを実 行する。 ここで、 二次構造プログラム 20 a〜20 dは、 例えば、 Ch o u— F a s m a nの方法や、 n e u r a l n e t o r kを使う手法や、 1 i n e a r s t a t i s t i c s ·¾:用レヽる手 や、 n e a r e s t n e i g h b o r me t h o dを用いる手法などを利用して二次構造予測シミュレーシ ョンを実行する。
ついで、 本発明の相互作用部位予測装置は、 各二次構造予測プログラム 20 a〜 20 dの二次構造予測結果 3 0 a〜 30 dを比較する (6 0) 。 すなわち、 目的配列データ 6 1に対応する各予測プログラムの実行結果を並置して比較す る (6 3〜6 6) 。
そして、 本発明の相互作用部位予測装置は、 この比較結果に基づいて、 目的 のタンパク質の一次配列情報の局所部分のフラストレーションを計算する (7 0) 。 すなわち、 比較結果から各予測結果データ (6 3~6 6) で異なる二次 構造を予測した局所部分を抽出して、 その部分のフラストレーシヨンを計算す る。 既存の二次構造予測プログラム 20 a〜 20 dは、 基本的には一次配列情 報のうち一部の局所配列を見て予測を行うが、 二次構造はタンパク質の全体の 構造との関係で最終的に決定されるので、 全体と局所部分との間に整合性が取 れない部位、 すなわちフラストレーシヨンが大きい局所的部位では二次構造予 測結果は外れる場合が多い。 従って、 複数のプログラムにおいて予測結果が外 れる局所部分については、 フラストレーシヨンが大きいと仮定することができ る。
フラストレーションの計算方法は、 例えば、 異なる予測結果データを出力し た二次構造予測プログラム数に応じてフラストレーションを増減してもよく、 あるいは、 異なる予測結果のそれぞれの構造における確信度の平均値や分散値 などに応じてフラストレーションを増減してもよく、 また、 その部分のァミノ 酸配列を分子力学または分子動力学などの手法を用いてエネルギー量を求めそ のエネルギー量を用いてフラストレーションを計算してもよい。
そして、 本発明の相互作用部位予測装置は、 計算された局所部分のフラス ト レーシヨンにより目的のタンパク質の相互作用部位を予測する (8 0) 。 すな わち、 例えば、 一定の閾値を超えるフラストレーションが存在する局所部分 ( 6 7 ) を相互作用部位と予測する。
また、 本発明の相互作用部位予測装置は、 例えば、 P D Bや S C O Pなどの 外部のデータベースに目的のタンパク質の二次構造データが登録されている場 合にはその二次構造データ 4 0を取得し、 予測結果の比較において用いる (6 0 ) 。 すなわち、 目的のタンパク質が実際に採る二次構造データ 6 2と、 予測 プログラムの予測結果データ 6 3〜 6 6とを比較する。
そして、 実際の二次構造データ 6 2と予測プログラムの予測結果データ 6 3 〜6 6とが異なっている部分については、 高いフラストレーシヨンを計算する。 タンパク質の立体構造データが分かっている場合、 すなわち、 既存の P D Bな どに立体構造データが登録されているタンパク質は、 その全体構造が既知であ るため、 様々な二次構造予測手法の予測結果とその実際の構造との差を見るこ とにより、 より明確にフラス トレーションのある局所部位 (相互作用部位にな つている確率の高い部位) を見つけることが可能になる。 例えば、 実際の二次 構造データ 6 2と異なる予測結果データを出力した二次構造予測プログラム数 に応じてフラストレーシヨンを増減してもよい。
さらに、 本発明の相互作用部位予測装置は、 二次構造予測プログラム 2 0 a 〜 2 0 dの二次構造予測結果データ 3 0 a〜 3 0 dに対する確信度を示す確信 度情報 5 0を設定する。 すなわち、 二次構造予測プログラム 2 0 a〜2 0 dの シミュレーション精度を実際の二次構造データなどに基づいて設定する。
そして、 本発明の相互作用部位予測装置は、 設定された確信度情報おょぴ比 較結果に基づいて、 局所部分の上記フラストレーションを計算する。 すなわち、 確信度情報が高い (すなわち、 シミュレーションの精度の高い) プログラムに よる二次構造予測結果データに対する重みを高くすることにより、 フラス トレ ーシヨン計算においてシミュレーシヨン結果に対する確信度を反映させること ができる。
構成] まず、 本システムの構成について説明する。 図 2は、 本発明が適用される本 システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係す る部分のみを概念的に示している。 本システムは、 概略的に、 相互作用部位予 測装置 1 0 0と、 配列情報や立体構造等に関する外部データベースおよびホモ 口ジー検索や二次構造予測等の外部プログラム等を提供する外部システム 2 0 0とを、 ネットワーク 3 0 0を介して通信可能に接続して構成されている。 図 2においてネットワーク 3 0 0は、 相互作用部位予測装置 1 0 0と外部シ ステム 2 0 0とを相互に接続する機能を有し、 例えば、 インタ一ネット等であ る。
図 2において外部システム 2 0 0は、 ネットワーク 3 0 0を介して、 相互作 用部位予測装置 1 0 0と相互に接続され、 利用者に対して配列情報や立体構造 等に関する外部データベース、 および、 ホモロジ一検索やモチーフ検索や二次 構造予測等の外部プログラムを実行するウェブサイトを提供する機能を有する。 ここで、 外部システム 2 0 0は、 WE Bサーバや A S Pサーバ等として構成 してもよく、 そのハードウェア構成は、 一般に市販されるワークステーション、 パーソナルコンピュータ等の情報処理装置およびその付属装置により構成して もよい。 また、 外部システム 2 0 0の各機能は、 外部システム 2 0 0のハード ウェア構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力装置、 通 信制御装置等およびそれらを制御するプログラム等により実現される。
図 2において相互作用部位予測装置 1 0 0は、 概略的に、 相互作用部位予測 装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、 通信回線等に 接続されるルータ等の通信装置 (図示せず) に接続される通信制御インターフ エース部 1 0 4、 入力装置 1 1 2および出力装置 1 1 4に接続される入出力制 御インターフェース部 1 0 8、 および、 各種のデータベースやテーブル (予測 結果データベース 1 0 6 a〜タンパク質構造データベース 1 0 6 c ) を格納す る記憶部 1 0 6を備えて構成されており、 これら各部は任意の通信路を介して 通信可能に接続されている。 さらに、 この相互作用部位予測装置 1 0 0は、 ル 一タ等の通信装置および専用線等の有線または無線の通信回線を介して、 ネッ トワーク 3 0 0に通信可能に接続されている。
図 2において記憶部 1 0 6に格納される各種のデータベースやテーブル (予 測結果データベース 1 0 6 a〜タンパク質構造データベース 1 0 6 c ) は、 固 定ディスク装置等のストレージ手段であり、 各種処理に用いる各種のプロダラ ムゃテ一ブルやフアイルゃデ一タベースゃゥェブページ用フアイル等を格納す る。
これら記憶部 1 0. 6の各構成要素のうち、 予測結果データベース 1 0 6 aは、 二次構造予測プログラムの予測結果などに関する情報を格納する予測結果情報 格納手段である。 図 3は、 予測結果データベース 1 0 6 aに格納される情報の 一例を示す図である。
この予測結果データベース 1 0 6 aに格納される情報は、 図 3に示すように、 目的のタンパク質の一次配列情報 (アミノ酸配列情報) である目的配列データ、 タンパク質構造データベースから取得した目的配列データの二次構造データ、 およぴ、 各二次構造予測プログラムの予測結果データを相互に関連付けて構成 されている。
また、 確信度情報データベース 1 0 6 bは、 二次構造予測プログラムの二次 構造予測結果データに対する確信度を示す確信度情報を格納する予測結果情報 格納手段である。 例えば、 シミュレーション結果の精度の標準的な値 (例えば、 二次構造予測結果と実際の二次構造データとの一致率であるシミュレーション 精度が 6 0 %の場合など) の確信度を 1とし、 標準値より精度が高い場合には その精度に応じて確信度の値を大きくし、 また、 標準値より精度が低い場合に はその精度に応じて確信度の値を小さくしてもよい。 さらに、 二次構造プログ ラムごと、 構造ごと、 各配列におけるアミノ酸ごとに確信度を設定してもよい。 すなわち、 例えば、 ある二次構造予測プログラムがある配列のあるアミノ酸に ついてその二次構造を予測するとき、 その構造がひ構造である確信度、 構造 である確信度等をそれぞれ別々に設定してもよい。 また、 タンパク質構造データベース 1 0 6 cは、 タンパク質の立体構造デー タを格納したデータベースである。 タンパク質構造データベース 1 0 6 cは、 インターネットを経由してアクセスする外部のタンパク質構造データベースで あってもよく、 また、 これらのデータベースをコピーしたり、 オリジナルの配 列情報を格納したり、 さらに独自のァノテーション情報等を付加したりして作 成したィンハウスデータベースであってもよい。
また、 図 2において、 通信制御インターフェース部 1 0 4は、 相互作用部位 予測装置 1 0 0とネットワーク 3 0 0 (またはルータ等の通信装置) との間に おける通信制御を行う。 すなわち、 通信制御インターフェース部 1 0 4は、 他 の端末と通信回線を介してデータを通信する機能を有する。
また、 図 2において、 入出力制御インターフェース部 1 0 8は、 入力装置 1 1 2や出力装置 1 1 4の制御を行う。 ここで、 出力装置 1 1 4としては、 モニ タ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下 においては出力装置をモニタとして記載する) 。 また、 入力装置 1 1 2として は、 キーボード、 マウス、 および、 マイク等を用いることができる。 また、 モ ニタも、 マウスと協働してポインティングデバイス機能を実現する。
また、 図 2において、 制御部 1 0 2は、 O S (O e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 およ ぴ所要データを格納するための内部メモリを有し、 これらのプログラム等によ り、 種々の処理を実行するための情報処理を行う。 制御部 1 0 2は、 機能概念 的に、 目的配列入力部 1◦ 2 a、 二次構造予測プログラム実行部 1 0 2 b、 二 次構造予測プログラム 1 0 2 c、 予測結果比較部 1 0 2 d、 フラストレーショ ン計算部 1 0 2 e、 相互作用部位予測部 1 0 2 f 、 二次構造データ取得部 1 0 2 g、 および、 確信度情報設定部 1 0 2 hを備えて構成されている。
このうち、 目的配列入力部 1 0 2 aは、 目的のタンパク質の一次配列情報 (目的配列データ) を入力する入力手段である。 また、 二次構造予測プロダラ ム実行部 1 0 2 bは、 二次構造予測プログラムに対して入力手段により入力さ れた一次配列情報 (目的配列データ) の二次構造予測シミュレーションを実行 させる二次構造予測プログラム実行手段である。 また、 二次構造予測プロダラ ム 1 0 2 cは、 タンパク質の一次配列情報から当該タンパク質の二次構造を予 測する二次構造予測プログラムである。
また、 予測結果比較部 1 0 2 dは、 二次構造予測プログラムの二次構造予測 結果を比較する予測結果比較手段、 および、 二次構造予測プログラムの二次構 造予測結果と二次構造データ取得手段により取得した二次構造データとを比較 する予測結果比較手段である。 また、 フラストレーシヨン計算部 1 0 2 eは、 予測結果比較手段による比較結果に基づいて、 目的のタンパク質の一次配列情 報 (目的配列データ) の局所部分のフラス トレーションを計算するフラス トレ ーシヨン計算手段、 および、 確信度情報設定手段により設定された確信度情報 および比較結果に基づいて、 局所部分のフラストレーションを計算するフラス トレーシヨン計算手段である。
また、 相互作用部位予測部 1 0 2 f は、 ブラス トレーシヨン計算手段により 計算された局所部分のフラストレーシヨンにより目的のタンパク質の相互作用 部位を予測する相互作用部位予測手段である。 また、 二次構造データ取得部 1 0 2 gは、 目的のタンパク質の二次構造データを取得する二次構造データ取得 手段である。 また、 確信度情報設定部 1 0 2 hは、 二次構造予測プログラムの 二次構造予測結果に対する確信度を示す確信度情報を設定する確信度情報設定 手段である。 なお、 これら各部によって行なわれる処理の詳細については、 後 述する。
[システムの処理]
次に、 このように構成された本実施の形態における本システムの処理の一例 について、 以下に図 4〜図 7を参照して詳細に説明する。
[メイン処理]
次に、 メイン処理の詳細について図 4を参照して説明する。 図 4は、 本実施 の形態における本システムのメイン処理の一例を示すフローチヤ一トである。 まず、 相互作用部位予測装置 1 0 0は、 目的配列入力部 1 0 2 aの処理によ り、 利用者に対して目的のタンパク質の一次配列情報 (目的配列データ) を入 力させる (ステップ S A— 1 ) 。
ついで、 相互作用部位予測装置 1 0 0は、 二次構造データ取得部 1 0 2 gの 処理により、 利用者が入力した目的配列データの二次構造データを取得する (ステップ S A—2 ) 。
ここで、 ステップ S A— 2において、 二次構造データ取得部 1 0 2 gにより 実行される二次構造データ取得処理の詳細について図 5を参照して説明する。 図 5は、 本実施形態における本システムの二次構造データ取得処理の一例を示 すフローチャートである。
まず、 二次構造データ取得部 1 0 2 gは、 タンパク質構造データベース 1 0 6 cを参照して目的配列データが登録されているか判定する (ステップ S B— 1 ) 。 ステップ S B— 1において、 目的配列デ'ータがタンパク質構造データべ ース 1 0 6 cに登録されている場合には、 二次構造データ取得部 1 0 2 gは、 タンパク質構造データベース 1 0 6 cから目的配列データの二次構造データを 取得して予測結果データベース 1 0 6 aの所定の記憶領域に格納する (ステツ プ S B— 2 ) 。
一方、 ステップ S B— 1において、 目的配列データがタンパク質構造データ ベース 1 0 6 cに登録されていない場合には、 二次構造データ取得部 1 0 2 g は、 目的配列データに類似する配列のタンパク質の二次構造データがタンパク 質構造データベース 1 0 6 cに存在するか判断する (ステップ S B— 3 ) 。 す なわち、 二次構造データ取得部 1 0 2 gは、 例えば、 配列間のホモロジ一を判 定するプログラムを用いて、 目的配列データと、 タンパク質構造データベース 1 0 6 cに登録された構造既知のタンパク質に対応する配列データとを比較し て、 高い相同性を有する配列データ (目的配列データの一部分に対応するもの であってもよい) が存在するか否かを判断する。 ステップ S B— 3において、 目的配列データに類似する配列のタンパク質の 二次構造データがタンパク質構造データベース 1 0 6 cに存在する場合には、 二次構造データ取得部 1 0 2 gは、 類似部分の二次構造データを予測結果デー タベース 1 0 6 aの所定の記憶領域に格納する (ステップ S B— 4 ) 。 なお、 目的配列データのうち一部分について二次構造データが存在する場合には、 二 次構造データが存在する部分について、 当該二次構造データを予測結果データ ベース 1 0 6 aに格納する。
一方、 ステップ S B— 3において、 目的配列データに類似する配列のタンパ ク質の二次構造データがタンパク質構造データベース 1 0 6 cに存在しない場 合には、 二次構造データ取得処理が終了する。
再ぴ図 4に戻り、 相互作用部位予測装置 1 0 0は、 二次構造予測プログラム 実行部 1 0 2 bの処理により、 目的配列データを 1つまたは 2つ以上の二次構 造予測プログラム 1 0 2 cに実行させる (ステップ S A— 3 ) 。 すなわち、 二 次構造予測プログラム実行部 1 0 2 bは、 例えば、 目的配列データを所定のフ ォーマットに変換したり、 また、 目的配列データに所定のヘッダ情報などを追 加したりすることにより、 各二次構造予測プログラム 1 0 2 cの入力形式を合 わせた後、 二次構造予測プログラム 1 0 2 cを実行する。 ここで、 二次構造予 測プログラム 1 0 2 cは、 相互作用部位予測装置 1 0 0の内部に存在するプロ グラムであってもよく、 また、 ネットワーク 3 0 0を介してリモートで実行す ることができる外部システム 2 0 0の外部プログラムであってもよい。
ついで、 二次構造予測プログラム実行部 1 0 2 bは、 各二次構造予測プログ ラム 1 0 2 cのシミュレーシヨン結果である二次構造予測結果を予測結果デー タベース 1 0 6 aの所定の記憶領域に格鈉する (ステップ S A— 4 ) 。
ついで、 相互作用部位予測装置 1 0 0は、 予測結果比較部 1 0 2 dの処理に より、 予測結果データベース 1 0 6 aに格納された目的配列データに対する各 二次構造予測プログラム 1 0 2 cの二次構造予測結果を比較する (ステップ S A— 5 ) 。 すなわち、 予測結果比較部 1 0 2 dは、 各二次構造予測プログラム 1 0 2 cの二次構造予測結果について、 目的配列データの先頭から最後までの 各予測結果を比較する。 なお、 ステップ S A— 2において、 二次構造予測プロ ダラム実行部 1 0 2 bが目的配列データに対応する二次構造データを取得でき た場合、 すなわち、 予測結果データベース 1 0 6 aに目的配列データの二次構 造データが格納されている場合には、 二次構造データと各二次構造予測プログ ラム 1 0 2 cの二次構造予測結果とを比較する。
ついで、 相互作用部位予測装置 1 0 0は、 フラストレーション計算部 1 0 2 eの処理により、 目的配列データの局所部分のフラストレーシヨンのスコアを 計算する (ステップ S A— 6 ) 。 ここで、 図 6は、 本システムのフラストレー ション計算部 1 0 2 eにより実行されるフラストレーション実行処理の一例を 示すフローチャートである。
図 6に示すように、 フラストレーシヨン計算部 1 0 2 eによるフラストレー シヨンのスコアの計算方法は、 例えば、 二次構造予測プログラムが異なる二次 構造予測結果を出力した局所部分について、 結果が異なる二次構造予測プログ ラムの数に応じてスコアを増減してもよく、 あるいは、 異なる予測結果のそれ ぞれの構造における確信度の平均値や分散値などに応じてフラストレーシヨン を増減してもよく、 また、 二次構造予測プログラムが異なる二次構造予測結果 を出力した局所部分について、 アミノ酸配列を分子力学または分子動力学など の手法を用いてエネノレギー量を求めそのエネノレギー量を用いてフラストレーシ ヨンを計算してもよい (ステップ S C— 1 ) 。
また、 フラストレーション計算部 1 0 2 eは、 二次構造データと予測プログ ラムの二次構造予測結果とが異なっている部分について、 高いフラストレーシ ヨンのスコアを計算してもよい (ステップ S C— 2 ) 。 例えば、 二次構造デー タと異なる二次構造予測結果を出力した二次構造予測プログラムの数に応じて スコアを增減してもよい。
また、 フラストレーシヨン計算部 1 0 2 eは、 確信度情報データベース 1 0 6 bを参照して、 予め確信度情幸艮設定部 1 0 2 hの処理により格納された各二 次構造予測プログラム 1 0 2 cの確信度情報を取得し、 確信度情報に基づいて フラストレーションのスコアを計算してもよい (ステップ S C— 3 ) 。 すなわ ち、 フラストレーション計算部 1 0 2 eは、 シミュレーション精度の高い二次 構造予測プログラム 1 0 2 cの二次構造予測結果に高い重みを付けて、 フラス トレーシヨンのスコアを計算する。
ここで、 確信度情報設定部 1 0 2 hによる確信度情報の設定の一例を示す。 まず、 確信度情報設定部 1 0 2 hは、 各二次構造予測プログラム 1 0 2 cの二 次構造予測結果と、 二次構造データとを比較して、 各二次構造予測プログラム 1 0 2 cの二次構造予測結果の精度 (一致率) を計算する。 そして、 確信度情 報設定部 1 0 2 hは、 各二次構造予測プログラム 1 0 2 cの精度の平均値を標 準の確信度情報 (例えば、 1 ) として設定し、 平均値以上の精度については標 準の確信度情報よりも高い値 (例えば、 1より大きい数) を計算し、 平均値以 下の精度については標準の確信度情報よりも低い値 (例えば、 1より小さい 数) を計算して、 確信度情報データベース 1 0 6 bの所定の記憶領域に格納す る。
なお、 確信度情報設定部 1 0 2 hは、 各二次構造予測プログラム 1 0 2 cの 確信度情報を各配列中の各アミノ酸 (残基) 毎に設定してもよい。 すなわち、 各二次構造予測プログラム 1 0 2 cによる配列の予測結果につき配列中のアミ ノ酸毎に二次構造予測プログラム 1 0 2 cの確信度情報を設定してもよい (例 えば、 配列中の一番目のアミノ酸について、 プログラム Aは、 ひ構造の確信度 情報が 1 . 5であり、 ]3構造の確信度情報が 0 . 7であり、 その他の構造の確 信度情報が 1 . 1である等) 。
また、 確信度情報設定部 1 0 2 hは、 各二次構造予測プログラム 1 0 2 cの 確信度情報を構造 (a構造、 /3構造など) 毎に設定してもよい。 すなわち、 各 二次構造予測プログラム 1 0 2 cによっては、 特定の構造について高い精度を 有するものや低い精度を有するものが存在するため、 構造毎に二次構造予測プ ログラム 1 0 2 cの確信度情報を設定してもよい (例えば、 プログラム Aは、 構造の確信度情報が 1. 5であり、 ]3構造の確信度情報が 0. 7であり、 そ の他の構造の確信度情報が 1. 1である等) 。
再び図 4に戻り、 相互作用部位予測装置 100は、 相互作用部位予測部 10 2 f の処理により、 計算された局所部分のフラストレーシヨンのスコアにより 目的配列データのうち相互作用部位となる局所部分を予測する (ステップ SA -7) 。 すなわち、 相互作用部位予測部 102 f は、 例えば、 一定の閾値を超 えるフラストレーションのスコアである局所部分を相互作用部位と予測する。 ついで、 相互作用部位予測装置 100は、 配列データの相互作用部位の予測 結果を出力装置 1 14に出力する (ステップ S A— 8) 。
ここで、 図 7は、 相互作用部位予測装置 100の出力装置 1 14に表示され る相互作用部位予測結果の表示画面の一例を示す図である。 この図に示すよう に相互作用部位予測結果の表示画面は、 例えば、 目的配列データの配列情報の 表示領域 MA— 1、 相互作用部位と予測される局所部分の表示領域 MA— 2お よび MA— 3、 相互領域部位と予測される局所部分のフラストレーシヨンのス コアの表示領域 MA— 4および MA— 5等を含んで構成されている。 これにて、 メイン処理が終了する。
[実施例]
以下に本発明の実施例について、 図 8および図 9を参照して詳細に説明する。 本実施例は、 哺乳類アデ二ル酸シクラーゼ (Mamma 1 i a n Ad e n y 1 y 1 Cy c l a s e) (PDB I D : 1 C J K) (本明細書において 「MAC」 という。 ) のアミノ酸配列についてプログラム 1および 2を用いて 二次構造予測を行い、 その二次構造予測結果に基づいてフラストレーションの 計算を行い、 相互作用部位の予測を行った場合の一例である。
図 8は、 相互作用部位予測装置 100のモニタに表示される本実施例の処理 結果出力画面の一例を示す図である。 この図に示すように処理結果出力画面は、 例えば、 MACのアミノ酸配列が ストランド構造である場合の確信度を示す グラフの表示領域 MB— 1、 MACのアミノ酸配列が αヘリックス構造である 場合の確信度を示すグラフの表示領域 MB— 2、 MACのアミノ酸配列がその 他の二次構造である場合の確信度を示すグラフの表示領域 MB— 3、 MACの ァミノ酸配列の表示領域 MB _4、 フラストレーションの値が高いァミノ酸配 列の断片領域 (すなわち、 相互作用部位である可能性が高い領域) を示す表示 領域 MB— 5、 プログラム 1の二次構造予測結果の表示領域 MB— 6、 プログ ラム 2の二次構造予測結果の表示領域 M B-7等を含んで構成されている。 本実施例において、 フラストレーションの計算は、 2つのプログラムが異な つた二次構造予測を行い、 その配列部分が比較的長く、 かつ、 それぞれの予測 結果の確信度が比較的高いものについて、 フラストレーシヨンを大きく設定し ている。 この他に、 確信度を用いずに、 直接二次構造の予測の差を用いてフラ ストレーシヨンを計算することもできる。
図 9は、 既知のドッキング · シミュレーションによりフラストレーシヨンが 大きい部位であると予測された部位が実際に相互作用部位として機能している かを確認するための図である。
図 9において MACについて予測した立体構造は空間充填模型 (s a c e f i l l) にて記載されている。 なお、 フラストレーションの大きい部位は濃 い色で表示されている。 また、 図 9において MACとコンプレックスを作るそ の他のタンパク質は針金模型 (w i r e f r ame) にて記載されている。 図 9に示すように、 フラストレーションの大きい部位は、 他のタンパク質との距 離が比較的近く、 これらの部位またはこれらと連続した配列の一部が相互作用 部位である確率が高いことを示している。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述し た実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内に おいて種々の異なる実施の形態にて実施されてよいものである。
例えば、 相互作用部位予測装置 100がスタンドアローンの形態で相互作用 部位予測を行う場合を一例に説明したが、 相互作用部位予測装置 100とは另リ 筐体で構成されるクライアント端末からの要求に応じて相互作用部位予測を行 い、 その予測結果を当該クライアント端末に返却するように構成してもよい。 また、 実施形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手 動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自 動的に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各 種の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 相互作用部位予測装置 100に関して、 図示の各構成要素は機能概念 的なものであり、 必ずしも物理的に図示の如く構成されていることを要しない。 例えば、 相互作用部位予測装置 1 00の各サーバが備える処理機能、 特に制 御部にて行なわれる各処理機能については、 その全部または任意の一部を、 C PU (C e n t r a l P r o c e s s i n g Un i t) および当該 C PU にて解釈実行されるプログラムにて実現することができ、 あるいは、 ワイヤー ドロジックによるハードウェアとして実現することも可能である。 なお、 プロ グラムは、 後述する記録媒体に記録されており、 必要に応じて相互作用部位予 測装置 1 00に機械的に読み取られる。
また、 このプログラムは、 相互作用部位予測装置 1 00に対して任意のネッ トワークを介して接続されたアプリケーションプログラムサーバに記録されて もよく、 必要に応じてその全部または一部をダウンロードすることも可能であ る。
また、 記憶部 1 0 6に格納される各種のデータベース等 (予測結果データべ ース 1 06 a〜タンパク質構造データベース 1 06 c) は、 RAM、 ROM等 のメモリ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光ディスク等のストレージ手段であり、 各種処理やウェブサイト提供に用いる 各種のプログラムゃテープルやフアイノレゃデータベースゃゥェブベージ用ファ ィル等を格納する。
また、 相互作用部位予測装置 100は、 既知のパーソナルコンピュータ、 ヮ ークステーション等の情報処理端末等の情報処理装置にプリンタゃモニタゃィ メージスキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法を実現 させるソフトウェア (プログラム、 データ等を含む) を実装することにより実 現してもよい。
さらに、 相互作用部位予測装置 100の分散 ·統合の具体的形態は図示のも のに限られず、 その全部または一部を、 各種の負荷等に応じた任意の単位で、 機能的または物理的に分散 ·統合して構成することができる。 例えば、 各デー タベースを独立したデータベース装置として独立に構成してもよく、 また、 処 理のー眘を CG I (C o mm o n Ga t ewa y I n t e r f a c e) を 用いて実現してもよい。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体 に格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディ スク、 光磁気ディスク、 ROM、 E PROM, EE PROM, CD— ROM、 MO、 DVD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステム に内蔵される ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるい は、 LANゝ WAN, インターネットに代表されるネットワークを介してプロ グラムを送信する場合の通信回線や搬送波のように、 短期にプログラムを保持 する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処 理方法であり、 ソースコードやバイナリコード等の形式を問わない。 なお、 「プログラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュ ールゃライブラリとして分散構成されるものや、 〇S (Op e r a t i n g
S y s t em) に代表される別個のプログラムと協働してその機能を達成する ものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取る ための具体的な構成、 読み取り手順、 あるいは、 読み取り後のインストール手 順等については、 周知の構成や手順を用いることができる。
また、 ネットワーク 3 0 0は、 相互作用部位予測装置 1 0 0と外部システム 2 0 0とを相互に接続する機能を有し、 例えば、 インターネットや、 イントラ ネットや、 L AN (有線 Z無線の双方を含む) や、 VANや、 パソコン通信網 や、 公衆電話網 (アナログ/デジタルの双方を含む) や、 専用回線網 (アナ口 グノデジタルの双方を含む) や、 C A T V網や、 I MT 2 0 0 0方式、 G S M 方式または P D CZ P D C— P方式等の携帯回線交換網 Z携帯パケット交換網 や、 無線呼出網や、 B 1 u e t o o t h等の局所無線網や、 P H S網や、 C S、 B Sまたは I S D B等の衛星通信網等のうちいずれかを含んでもよい。 すなわ ち、 本システムは、 有線'無線を問わず任意のネットワークを介して、 各種デ ータを送受信することができる。
以上詳細に説明したように、 本発明によれば、 目的のタンパク質の一次配列 情報を入力し、 タンパク質の一次配列情報から当該タンパク質の二次構造を予 測する二次構造予測プログラムに対して入力された一次配列情報の二次構造予 測シミュレーシヨンを実行させ、 二次構造予測プログラムの二次構造予測結果 を比較し、 比較結果に基づいて、 目的のタンパク質の一次配列情報の局所部分 のフラストレーシヨンを計算し、 計算された局所部分のフラストレーシヨンに より目的のタンパク質の相互作用部位を予測するので、 タンパク質の一次配列 情報においてフラストレーシヨンのある局所部位を発見することにより相互作 用部位を効果的に予測することができる相互作用部位予測装置、 相互作用部位 予測方法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 目的のタンパク質の一次配列情報を入力し、 目的の タンパク質の二次構造データを取得し、 タンパク質の一次配列情報から当該タ ンパク質の二次構造を予測する二次構造予測プログラムに対して入力された一 次配列情報の二次構造予測シミュレーションを実行させ、 二次構造予測プログ ラムの二次構造予測結果と、 取得した二次構造データとを比較し、 比較結果に 03
52
基づいて、 目的のタンパク質の一次配列情報の局所部分のフラストレーション を計算し、 計算された局所部分のフラストレーシヨンにより目的のタンパク質 の相互作用部位を予測するので、 二次構造予測プログラムの予測結果と目的の タンパク質の実際の二次構造との差を見ることにより、 より明確にフラストレ ーシヨンのある局所部位 (相互作用部位になっている確率の高い部位) を見つ けることが可能になる相互作用部位予測装置、 相互作用部位予測方法、 プログ ラム、 および、 記録媒体を提供することができる。
さらに、 本発明によれば、 二次構造予測プログラムの二次構造予測結果に対 する確信度を示す確信度情報を設定し、 設定された確信度情報および比較結果 に基づいて、 局所部分のフラス トレーションを計算するので、 確信度情報が高 レヽ (すなわち、 シミュレーションの精度の高い) プログラムによる二次構造予 測結果データに対する重みを高くすることにより、 フラス トレーション計算に おいてシミュレーション結果に対する確信度を反映させることができる相互作 用部位予測装置、 相互作用部位予測方法、 プログラム、 および、 記録媒体を提 供することができる。
( Π ) また、 以下に、 本発明にかかる活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施の形態によりこの発明が限定されるものではない。 本実施の形 態は、 蛋白質の活性部位予測に関する場合を一例に説明するが、 当業者であれ ば本実施の形態の記載に基づいて本発明を生理活性ポリぺプチドに容易に適用 することができる。
[本発明の概要]
以下、 本発明の概要について説明し、 その後、 本発明の構成および処理等に ついて詳細に説明する。 図 1 0は本発明の基本原理を示す原理構成図である。 本発明は、 概略的に、 以下の基本的特徴を有する。 すなわち、 まず目的の蛋 白質の立体構造データを P D B ( P r o t e i n D a t a B a n k ) など の外部データベースなどから取得する (ステップ S 1 ) 。 そして、 蛋白質の立体構造データに基づいて分子軌道計算を行い、 目的の蛋 白質の立体構造データに基づいてフロンティア軌道 (最高被占軌道 (HOM O) または最低空軌道 (LUMO) ) 、 および/または、 主鎖原子の軌道エネ ルギーを求める (ステップ S 2) 。
ここで、 最高被占軌道 (HOMO) または最低空軌道 (LUMO) の軌道ェ ネルギ一は、 例えば、 市販のプログラム MOP AC 200 0 (J . J. P. S t e wa r t, F j i t s u L i m i t e d, T o k y o, J a a n (1 9 9 9) ) 等を用いて AMIハミルトニアン法等により計算することがで きる (ステップ S 2 1) 。
また、 分子軌道計算には半経験的分子軌道計算、 非経験的分子軌道計算の他 にも、 密度汎関数計算を用いてもよい。 現在の計算機の処理能力では半経験的 分子軌道が好適であるが、 将来的にはより精度の高い方法での応用が可能であ る。
ここで、 発明者は計算条件を鋭意検討した結果、 予測に必要な 3つの計算条 件を見つけることに成功した (ステップ S 3) 。 第一は、 水分子を計算に含め ることである。 水分子と蛋白質との間の水素結合、 さらには水分子と蛋白質と の間の電荷移動を考慮するために、 入力データの蛋白質のまわりに水分子を発 生させることが必要である。 結晶構造のデータのなかに水分子の情報が含まれ ているので、 それらを活用することも可能であるが、 ほとんどの場合は数が全 く足りない。 従って、 例えば蛋白質と水素結合できるような位置に水分子を置 くという方法等により入力データの蛋白質のまわりに水分子を発生させて分子 軌道計算を行う (ステップ S 3 1) 。
第二に、 水分子の誘電的な効果を考慮する必要がある (ステップ S 3 2) 。 これには様々な方法が考えられる。 例えば、 蛋白質の周りに連続的な誘電体を 置く方法 (K 1 am tらが開発した COSMO法などが代表例である。 ) 等を 用いることができる。 第三に、 非常に大きな分子について本発明を応用したい場合は、 溶媒の影響 を考慮することにより計算機の処理能力の限界を超えてしまうことが予想され る。 その場合は、 蛋白質表面の解離性アミノ酸残基を無電荷の状態 (例えば、 グルタミン酸をプロトン化する) にし、 内部に埋まっている解離性アミノ酸を 電荷状態 (例えば、 グルタミン酸を脱プロ トン化する) にすることによって、 溶媒を考慮した計算結果を近似的に求める (ステップ S 3 3 ) 。
このように、 本発明では、 3つの計算条件を適宜設定することにより、 効率 的に分子軌道計算を実行することができ、 さらに、 活性部位予測の精度を大 に向上させることができるようになる。
ここで、 本発明における 「フロンティア軌道の周辺軌道」 の定義を次のよう に行う。 一般的に 『フロンティア軌道』 とは 『最高被占軌道 (H OMO) 』 と 『最低空軌道 ( L UMO) 』 の 2つのことを指す。 しかし、 蛋白質のような巨 大分子の系ではフロンティァ軌道とエネルギー的にほとんど変わらない分子軌 道がフロンティァ軌道と同様に機能に重要な役割を果たすことが多い。 発明者 が鋭意研究した結果、 多少のエネルギーの違い (例えば l〜2 e V程度) であ れば、 フロンティア軌道と変わらない役割を果たすことが分かった。 そこで、 本発明ではフロンティア軌道をその周辺領域にまで拡張している。 例えば、 最 高被占軌道 (H OMO) とのエネルギー差が予め定めた閾値 (例えば、 2 e V 等) 以内の全ての被占軌道、 および、 最低空軌道とのエネルギー差が予め定め た閾値 (例えば、 2 e V等) 以内の全ての空軌道をフロンティア軌道の 『周辺 軌道』 と定義する。 この定義の拡張が本発明の特徴のうちの一つである。 次に、 本発明は、 求めたフロンティア軌道と周辺軌道を蛋白質のアミノ酸配 列中の特定のアミノ酸残基に帰属させる (ステップ S 4 ) 。 分子軌道のァミノ 酸残基への帰属は以下のように行う。
各分子軌道は以下のように基底関数の線形結合によって表される。 φ —∑ c ( iは基底関数の番号、 は基底関数、 C iは係数) 各基底関数は原子に所属し、 各原子はアミノ酸残基に所属している。 したが つて、 各基底関数はいずれかのアミノ酸残基に所属している。 そこで、 原子ご と、 ならびにアミノ酸残基ごとの分布率を求める。
D (K) =∑ C i 2
( iは原子またはアミノ酸残基 Kに所属している全ての基底関数) これにより、 分子軌道ごとに最も分布率の大きなアミノ酸残基、 または、 最 も分布率の大きな原子を含んでいるアミノ酸残基を得ることができる。 それら を各分子軌道が分布するアミノ酸残基と定義する。 このように定義すると、 分 子軌道がどこのァミノ酸に分布しているかを 1対 1で対応をとることができる。 一般的に分子軌道はある程度の広がりがあるので、 一つのァミノ酸残基に分布 しているという発想は量子化学の世界では一般的ではないが、 発明者は機能に 関係する軌道に限っては、 ほとんど一つのァミノ酸に局在しているという事実 を発見した。 分子軌道とアミノ酸を 1対 1で対応させることは、 専門家以外に も分かりやすく、 専門家以外が本発明を利用することには大きな助けとなる。 この点も本発明の利点の一つである。
以上により、 蛋白質のフロンティア軌道と周辺軌道が分布しているアミノ酸 残基が判明するが、 本発明は、 このアミノ酸残基を活性部位の候補のアミノ酸 残基 (以下 「候補アミノ酸残基」 または単に 「候補」 という。 ) として決定す る (ステップ S 4 ) 。
次に、 本発明は、 活性部位になりえない候補の削除などを行い、 活性部位を 予測する (ステップ S 5 ) 。 例えば、 トリプトファンやフエ二ルァラニンのよ うな芳香環を含んでいるアミノ酸残基は性質上フ口ンティア軌道と周辺軌道に なりやすいという性質をもっている。 しかし、 ほとんどの場合はそれらが活性 部位にはなりえないことがわかっている。 同様にジスルフィド結合しているシ スティン、 メチォニンもフロンティァ軌道と周辺軌道が分布しやすいが活性部 位にはほとんどならないことがわかっている。 フロンティア軌道と周辺軌道の うち、 これらのアミノ酸残基に所属しているものは、 活性部位の候補から除く。 残ったフロンティア軌道と周辺軌道が分布しているアミノ酸残基が活性部位 の候補であるが、 ここで、 活性部位は一つのアミノ酸残基であるケースはほと んどなく、 複数のアミノ酸残基によって構成されている。 したがって、 実際に 目的の蛋白質の立体構造データから立体構造を既知のグラフィックソフトなど を用いて表示させて、 フロンティア軌道と周辺軌道を表示させると多くの場合 で、 フロンティア軌道と周辺軌道が集まって存在している場所がある。 そのよ うに、 立体構造上で局在化してクラスタを作っている部分の候補アミノ酸残基 が活性部位である可能性が極めて高いため、 このような候補を選択して、 活性 部位として予想する。
また、 主鎖原子の軌道エネルギーも用いる場合には、 上述したフロンティア 軌道を用いる場合と同様の計算条件で計算をするが、 分子軌道をアミノ酸では なく、 分子に帰属させることに違いがある (ステップ S 2 2 ) 。 すなわち、 あ るアミノ酸の主鎖の原子 (例えば、 窒素や炭素など) に分布している分子軌道 の軌道エネルギーに着目する。 そのような分子軌道は複数あるので、 その中で 最も特徴的な、 例えば、 最もエネルギーの高い被占軌道の軌道エネルギーに着 目する。 ここでも、 アミノ酸と軌道エネルギーが 1対 1で対応する。
このように各アミノ酸を主鎖の原子に分布している分子軌道の軌道エネルギ 一と各ァミノ酸を対応させて解析に応用するという方法は従来にはない手法で ある。 例えば、 アミノ酸の番号と軌道エネルギーをプロットとすると、 軌道ェ ネルギ一の相対的な大きさが分かる。 軌道エネルギーが相対的に高い原子が存 在するアミノ酸残基の部分が活性部位である可能性が高い。 また、 予め定めた 値を超える軌道エネルギーをもつ分子軌道の分布するアミノ酸残基が活性部位 W
57 になる可能性が高い。 閾値は同様の機能を持つ蛋白質の活性部位の軌道エネル ギーなどを参考にして決定してもよい。
以上に示した 2つの手法 (ステップ S 2 1およびステップ S 2 2 ) は、 それ ぞれ活性部位を予測すること、 分子軌道計算を利用していることで共通してい る。 しかしながら、 その予測方法による予測結果は全く同一ではない。 それぞ れの方法に関して、 強みや弱みがあることは容易に予想できる。 これらを手法 を組み合わせてそれぞれの候補を比較することで、 さらに精度を上げることが できる。 例えば、 異なる方法の全ての予測結果において活性部位と予測される ァミノ酸残基、 一部の方法で活性部位であると予測されるァミノ酸残基という ように分類することで、 活性部位らしさをより正確に表現することができる。
[システム構成]
まず、 本システムの構成について図 1 1〜図 1 3を参照して説明する。 図 1 1は、 本発明が適用される本システムの構成の一例を示すブロック図であり、 該構成のうち本発明に関係する部分のみを概念的に示している。 本システムは、 概略的に、 蛋白質活性部位予測装置 1 1 0 0と、 蛋白質の構造情報等に関する 外部データベースやホモ口ジー検索等の外部プログラム等を提供する外部シス テム 1 2 0 0とを、 ネットワーク 1 3 0 0を介して通信可能に接続して構成さ れている。
図 1 1においてネットワーク 1 3 0 0は、 蛋白質活性部位予測装置 1 1 0 0 と外部システム 1 2 0 0とを相互に接続する機能を有し、 例えば、 ィンターネ ット等である。
図 1 1において外部システム 1 2 0 0は、 ネットワーク 1 3 0 0を介して、 蛋白質活性部位予測装置 1 1 0 0と相互に接続され、 利用者に対して蛋白質の 構造情報等に関する外部データベースゃホモロジ一検索やモチーフ検索等の外 部プログラムを実行するウェブサイトを提供する機能を有する。
ここで、 外部システム 1 2 0 0は、 WE Bサーバや A S Pサーバ等として構 成してもよく、 そのハードウェア構成は、 一般に巿販されるワークステーショ ン、 パーソナルコンピュータ等の情報処理装置およびその付属装置により構成 してもよい。 また、 外部システム 1 2 0 0の各機能は、 外部システム 1 2 0 0 のハードウェア構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力 装置、 通信制御装置等およびそれらを制御するプログラム等により実現される。 図 1 1において蛋白質活性部位予測装置 1 1 0 0は、 概略的に、 蛋白質活性 部位予測装置 1 1 0 0の全体を統括的に制御する C P U等の制御部 1 1 0 2、 通信回線等に接続されるルータ等の通信装置 (図示せず) に接続される通信制 御インターフェース部 1 1 0 4、 入力装置 1 1 1 2や出力装置 1 1 1 4に接続 される入出力制御インターフェース部 1 1 0 8、 および、 各種のデータベース やテーブルなどを格納する記憶部 1 1 0 6を備えて構成されており、 これら各 部は任意の通信路を介して通信可能に接続されている。 さらに、 この蛋白質活 性部位予測装置 1 1 0 0は、 ルータ等の通信装置および専用線等の有線または 無線の通信回線を介して、 ネットワーク 1 3 0 0に通信可能に接続されている。 記憶部 1 1 0 6に格納される各種のデータベースやテーブル (蛋白質構造デ ータベース 1 1 0 6 aおよび処理結果データ 1 1 0 6 b ) は、 固定ディスク装 置等のストレージ手段であり、 各種処理に用いる各種のプログラムやテーブル やファイルやデータベースやウェブページ用ファイル等を格納する。
これら記憶部 1 1 0 6の各構成要素のうち、 蛋白質構造^ータベース 1 1 0 6 aは、 蛋白質の構造データ (アミノ酸配列データ、 3次元構造データ、 各種 のァノテーシヨン情報等を含む) を格納したデータベースである。 蛋白質構造 データベース 1 1 0 6 aは、 インターネットを経由してアクセスする外部のデ ータベースであってもよく、 また、 こ らのデータベースをコピーしたり、 ォ リジナルの配列情報を格納したり、 さらに独自のァノテーション情報等を付加 したりして作成したィンハウスデータベースであってもよい。
また、 処理結果データ 1 1 0 6 bは、 制御部 1 1 0 2による処理結果に関す る情報等を格納する処理結果データ格納手段である。 また、 図 1 1において、 通信制御インターフェース部 1 1 0 4は、 蛋白質活 性部位予測装置 1 1 0 0とネットワーク 1 3 0 0 (またはルータ等の通信装 置) との間における通信制御を行う。 すなわち、 通信制御インターフェース部 1 1 0 4は、 他の端末と通信回線を介してデータを通信する機能を有する。 また、 図 1 1において、 入出力制御インターフェース部 1 1 0 8は、 入力装 置 1 1 1 2や出力装置 1 1 1 4の制御を行う。 ここで、 出力装置 1 1 1 4とし ては、 モニタ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下においては出力装置 1 1 1 4をモニタとして記載する場合があ る) 。 また、 入力装置 1 1 1 2としては、 キーボード、 マウス、 および、 マイ ク等を用いることができる。 また、 モニタも、 マウスと協働してポインティン グデバイス機能を実現する。
また、 図 1 1において、 制御部 1 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および所要データを格納するための内部メモリを有し、 これらのプログラム等 により、 種々の処理を実行するための情報処理を行う。 制御部 1 1 0 2は、 機 能概念的に、 フロンティァ軌道計算部 1 1 0 2 a、 周辺軌道決定部 1 1 0 2 b、 水分子設定部 1 1 0 2 c、 誘電体設定部 1 1 0 2 d、 電荷設定部 1 1 0 2 e、 候補ァミノ酸残基決定部 1 1 0 2 f 、 活性部位予測部 1 1 0 2 g、 軌道エネル ギー計算部 1 1 0 2 h、 および、 構造データ取得部 1 1 0 2 pを備えて構成さ れている。
このうち、 フロンティア軌道計算部 1 1 0 2 aは、 構造データに基づいて蛋 白質の電子状態を分子軌道計算によって求めてフロンティァ軌道を特定するフ ロンティア軌道計算手段である。 ここで、 フロンティア軌道計算部 1 1 0 2 a は、 図 1 2に示すように、 最高被占軌道計算部 1 1 0 2 iと最低空軌道計算部 1 1 0 2 jを備えて構成される。 また、 周辺軌道決定部 1 1 0 2 bは、 フロンティア軌道と予め定めたェネル ギー差になる分子軌道を当該フロンティア軌道の周辺軌道として決定する周辺 軌道決定手段である。
また、 水分子設定部 1 1 0 2 cは、 蛋白質のまわりに水分子を発生させて分 子軌道計算等の量子化学計算を行う水分子設定手段である。
また、 誘電体設定部 1 1 0 2 dは、 蛋白質の周りに連続的な誘電体を置いて 分子軌道計算等の量子化学計算を行う誘電体設定手段である。
また、 電荷設定部 1 1 0 2 eは、 蛋白質表面の解離性アミノ酸残基を無電荷 の状態にし、 內部に埋まっている解離性アミノ酸を電荷状態にして分子軌道計 算等の量子化学計算を行う電荷設定手段である。
また、 候補ァミノ酸残基決定部 1 1 0 2 ίは、 フロンティァ軌道と周辺軌道 が分布しているアミノ酸残基、 および Ζまたは、 軌道エネルギーのうち予め定 めた値を超える軌道エネルギーとなる分子軌道および/または相対的に軌道ェ ネルギ一が高い分子軌道が分布しているアミノ酸残基を活性部位の候補のァミ ノ酸残基として決定する候補アミノ酸残基決定手段である。
また、 活性部位予測部 1 1 0 2 gは、 候補ァミノ酸残基決定部 1 1 0 2 f に より決定された候補ァミノ酸残基の中から活性部位を選択して活性部位を予測 する活性部位予測手段である。 ここで、 活性部位予測部 1 1 0 2 gは、 図 1 3 に示すように、 活性部位になりえない候補の削除を行う特定ァミノ酸残基除外 部 1 1 0 2 kと、 立体構造上で局在化してクラスタを作っている部分の候補ァ ミノ酸残基を選択する局在アミノ酸残基選択部 1 1 0 2 mと、 各手法による候 補を比較して重複する候補を選択する候補比較部 1 1 0 2 nとを備えて構成さ れる。
また、 構造データ取得部 1 1 0 2 J は、 目的の蛋白質の構造データを取得す る構造データ取得手段である。
なお、 これら各部によって行なわれる処理の詳細については、 後述する。
[システムの処理] 次に、 このように構成された本実施の形態における本システムの処理の一例 について、 以下に図 14〜図 21を参照して詳細に説明する。
[メイン処理]
まず、 メイン処理の詳細について図 14を参照して説明する。 図 14は、 本 実施形態における本システムのメイン処理の一例を示すフローチヤ一トである。 蛋白質活性部位予測装置 1 100は、 構造データ取得部 1 102 pの処理に より、 まず目的の蛋白質の立体構造データを PDB (P r o t e i n D a t a B a nk) などの外部データベースなどから取得する (ステップ SA1—
1) o
ついで、 蛋白質活性部位予測装置 1 100は、 制御部 1 102の処理により、 蛋白質の立体構造データに基づいて量子化学計算による分子軌道の計算を行う (ステップ SA1— 2) 。 ここで、 分子軌道計算処理の詳細について図 15を 参照して説明する。 図 15は、 本実施形態における本システムの分子軌道計算 処理の一例を示すフローチヤ一トである。
まず、 蛋白質活性部位予測装置 1 100は、 蛋白質の座標を取得し (ステツ プ SB 1— 1) 、 分子軌道計算を行う。 ここで、 分子軌道計算については、 例 えば、 「計算機化学入門」 (櫻井実、 猪飼篤 編、 丸善、 1999年) などに 詳しく角旱説されている。 以下に分子軌道計算処理の一例を説明する。 まず、 フ オック方程式を解く (ステップ S B 1— 2〜ステップ S B 1— 7) 。 この方程 式は 『非線形』 であるため、 解が収束するまで繰り返し計算する解法を取る。
FC = S C ε 本方程式において、 Fはフォック行列、 Cは LCAO係数を要素とした行列、 Sは重なり積分を要素とした行列、 εは軌道エネルギーの要素としたべクトル を示す。 フォック行列は F = h + G * Dというように、 密度行列 Dと関連付け ることができる。 密度行列は LC AO係数から計算することができる。 Fの生 成 (ステップ SB 1— 4) 、 Fの対角化 (ステップ SB 1— 5) 、 密度行列の 生成 (ステップ S B 1— 6 ) の各ステップを密度行列が収束するまで行う。 そして、 蛋白質活性部位予測装置 1 100は、 軌道エネルギーや分子軌道の 係数を取得し (ステップ SB 1— 8) 、 系のエネルギーを求める (ステップ S B 1— 9) 。 これにて、 分子軌道計算処理が終了する。
再び図 14に戻り、 蛋白質活性部位予測装置 1 100は、 ステップ SA1— 2において求めた分子軌道等の情報に基づいてフロンティア軌道とその周辺軌 道から候補アミノ酸残基を決定する (ステップ SA1— 3) 。 ここで、 フロン ティア軌道とその周辺軌道による候補ァミノ酸残基決定処理の詳細について図 1 6を参照して説明する。 図 16は、 本実施形態における本システムのフロン ティア軌道とその周辺軌道による候捕ァミノ酸残基決定処理の一例を示すフ口 一チヤ一トである。
まず、 蛋白質活性部位予測装置 1 100は、 計算した分子軌道が蛋白質のァ ミノ酸配列のうちどのアミノ酸残基に分布しているかを帰属する (ステップ S C I— 1) 。 ここで、 分子軌道計算を行うと、 出力として、 各分子軌道につい て 2つの情報 『分布の仕方』 、 『軌道エネルギー』 が得られるが、 ここでは 『分布の仕方』 の情幸艮より、 各分子軌道がどの原子 (アミノ酸残基) に分布し ているかを特定する。 ここで、 各分子軌道のアミノ酸への帰属情報決定処理の 詳細について図 17を参照して説明する。 図 17は、 本実施形態における本シ ステムの各分子軌道のアミノ酸への帰属情報決定処理の一例を示すフローチヤ ートである。
まず、 N番目の分子軌道を取得し (ステップ SD 1— 1) 、 原子ごとに原子 に所属している基底関数の係数の 2乗を足し合わせ (ステップ SD 1— 2) 、 アミノ酸ごとにアミノ酸に所属する原子に所属する基底関数の係数の 2乗和を 足し合わせる (ステップ SD 1— 3) 。
そして、 和が最も大きいアミノ酸を N番目の分子軌道が所属しているアミノ 酸であると特定する (ステップ SD 1—4) 。 また、 図 2 0は分子軌道計算で得られた計算結果の一例を示す図である。 図 2 0に示す例においては、 5残基からなるオリゴペプチド (R EWT Y) を一 例に説明する。 本図によると、 分子軌道 1はアミノ酸残基 R、 分子軌道 2はァ ミノ酸残基 T、 分子軌道 3はアミノ酸残基 Ε、 分子軌道 4はアミノ酸残基 W、 分子軌道 5はアミノ酸残基 R、 分子軌道 6はアミノ酸残基 Y、 分子軌道 7はァ ミノ酸残基 Εに帰属する。
これにて、 各分子軌道のアミノ酸への帰属情報決定処理が終了する。
再び図 1 6に戻り、 蛋白質活性部位予測装置 1 1 0 0は、 フロンティァ軌道 とその周辺軌道を定義する。 すなわち、 フロンティア軌道計算部 1 1 0 2 aは、 最高被占軌道計算部 1 1 0 2 iおよぴ最低空軌道計算部 1 1 0 2 jの処理によ り最高被占軌道 (H OMO) は分子軌道 4に決定し、 最低空軌道 (L UMO) は分子軌道 5に決定する。 また、 本実施形態において 2 e V以内の軌道エネル ギーである分子軌道をフロンティァ軌道の周辺軌道と定義すると、 周辺軌道決 定部 1 1 0 2 bは、 分子軌道 2、 3、 4、 5、 6までを周辺軌道と決定する。 従って、 候補ァミノ酸残基決定部 1 1 0 2 f は、 分子軌道 2、 3、 4、 5、 6 に刘-応するァミノ酸残基が、 活性部位の候補ァミノ酸残基として決定する (ス テツプ S C 1— 2 ) 。
次に、 活性部位予測部 1 1 0 2 gは、 特定ァミノ酸残基除外部 1 1 0 2 kの 処理により、 機能部位候補として不適切なものを除外する (ステップ S C 1— 3 ) 。 この例では、 特定ァミノ酸残基除外部 1 1 0 2 kは、 分子軌道 4は活性 部位になる可能性が低いアミノ酸残基であるトリブトファンに分布しているの で除外する。 その結果、 候補アミノ酸残基は分子軌道 2、 3、 5および 6に絞 ら;^る。
次に、 活性部位予測部 1 1 0 2 gは、 局在ァミノ酸残基選択部 1 1 0 2 mの 処理により、 候補が空間的にどのように存在しているかを調べ、 局在している アミノ酸残基を選択する (ステップ S C 1— 4 ) 。 図 2 1は、 候補アミノ酸残 基が蛋白質の立体構造中どの位置に存在しているかを確認するための表示画面 の一例を示す図である。
図 2 1に示すように、 既知のグラフィック表示プログラムにより、 蛋白質の 構造データを針金モデル、 リボンモデル、 パイプモデル、 ボールアンドスティ ックモデル、 または、 空間充填モデルのうちいずれかのモデルによりグラフィ ック表示し、 その中に候補アミノ酸残基を表示する。 本図の場合は右のほうに 偏ったクラスタリングが存在しているので、 クラスタリングを形成する 3つの 候捕が機能部位である可能性は高い。
これにて、 フロンティア軌道とその周辺軌道による候補アミノ酸残基決定処 理が終了する。
再び図 1 4に戻り、 蛋白質活性部位予測装置 1 1 0 0は、 ステップ S A 1— 2において求めた分子軌道等の情報に基づいて主鎖の重原子に局在する軌道ェ ネルギ一から候補アミノ酸残基を決定する (ステップ S A 1 — 4 ) 。 ここで、 主鎖の重原子に局在する軌道エネルギーによる候補アミノ酸残基決定処理の詳 細について図 1 9を参照して説明する。 図 1 9は、 本実施形態における本シス テムの主鎖の重原子に局在する軌道エネルギーによる候補ァミノ酸残基決定処 理の一例を示すフローチャートである。
まず、 蛋白質活性部位予測装置 1 1 0 0は、 計算した分子軌道が蛋白質のァ ミノ酸配列を構成する原子のうちどの原子に分布しているかを帰属する (ステ ップ S F 1— 1 ) 。 ステップ S C 1— 1においてはアミノ酸ごとの分布を求め たが、 ここでは原子ごとの分布を求める点が異なる。
ここで、 図 2 2は分子軌道計算で得られた計算結果の一例を示す図である。 本図によると、 分子軌道 1は原子番号 1、 分子軌道 2は原子番号 4、 分子軌道 5は原子番号 1、 分子軌道 6は原子番号 4、 分子軌道 7は原子番号 2、 分子軌 道 8は原子番号 3、 分子軌道 9は原子番号 1、 分子軌道 1 0は原子番号 4に帰 属する。 次に、 軌道エネルギー計算部 1 1 0 2 hは、 特定の主鎖の重原子に帰属して いる分子軌道のみを抽出する (ステップ S F 1— 2 ) 。 図 2 2に示す例におい て、 主鎖 N原子に着目すると、 Rの主鎖 N原子 (原子番号 1 ) には、 分子軌道 1、 5、 9が分布し、 Eの主鎖 N原子 (原子番号 4 ) には、 分子軌道 2、 6、 1 0が分布する。
次に、 軌道エネルギー計算部 1 1 0 2 hは、 着目したものの中で、 最もエネ ルギ一の高い被占軌道を選択する (ステップ S F 1— 3 ) 。 図 2 2に示す例に おいて、 分子軌道 9および 1 0は空軌道なので除外すると、 Rの主鎖 N原子 (原子番号 1 ) は分子軌道 5、 Eの主鎖 N原子 (原子番号 4 ) は分子軌道 6が 最もエネルギーが高いため軌道エネルギー計算部 1 1 0 2 hはそれぞれ選択す る。 すなわち、 Rの軌道エネルギーについては一 6 e V、 Eの軌道エネルギー については一 5 e Vが代表エネルギーになる。
次に、 軌道エネルギー計算部 1 1 0 2 hは、 アミノ酸残基番号を横軸、 代表 エネルギーを縦軸にとり、 代表エネルギーをプロットするプロット図を作成し X. (ステップ S F 1— 4 ) 、 図中のピーク部分の周辺部位を候補ァミノ酸残基 として特定する (ステップ S F 1— 5 ) 。
これにて、 主鎖の重原子に局在する軌道エネルギーによる候補アミノ酸残基 決定処理が終了する。
再び図 1 4に戻り、 蛋白質活性部位予測装置 1 1 0 0は、 活性部位予測部 1 1 0 2 gの処理により、 候補ァミノ酸残基の中から活性部位を選択して活性部 位を予測する (ステップ S A 1— 5 ) 。 ここで、 候補アミノ酸残基比較処理の 詳細について図 1 8を参照して説明する。 図 1 8は、 本実施形態における本シ ステムの候補アミノ酸残基比較処理の一例を示すフローチャートである。 図 1 8に示すように、 上述したフ口ンティア軌道および主鎖原子の軌道エネ ルギーを用いた手法により複数の候補アミノ酸残基を生成すると (ステップ S E 1— 1 ) 、 活性部位予測部 1 1 0 2 gは、 候捕比較部 1 1 0 2 11の処理によ り、 各手法による候補が一致するか判定し (ステップ S E 1— 2 ) 、 一致しな い場合には、 前後のアミノ酸も候補に追加 (一致しない場合には更に次のアミ ノ酸も追加) して上述の手法による候補決定手法を再ぴ実行する (ステップ S E 1 - 3) 。
一方、 ステップ SE 1 _2において各手法による候補が一致する場合には、 活性部位予測部 1 102 gはこの候補を活性部位として予測する (ステップ S E 1 -4) 。 これにて、 候補ァミノ酸残基比較処理が終了する。
これにて、 メイン処理が終了する。
[本発明の実施例 1 ; リボヌクレアーゼ T 1 ] ' 次に、 本発明の実施例 1の詳細について図 23〜図 26を参照して説明する。 加水分 酵素であるリポヌクレアーゼ T 1は実験的によく調べられていて、 必須なァミノ酸残基は H i s 40、 G l u 58、 A r g 77S H i s 92であ るということが実験的に証明されている。
リポヌクレアーゼ T 1ついて、 X線結晶構造データに基づき市販のプログラ ム I n s i g h t I Iによって水素分子を付加して、 分子軌道計算に必要な座 標を完成した。 そして、 市販のプログラム MOPAC 2000を用いて最適化 構造を求めた後に、 電子状態を得た。 蛋白質まわりに水分子を置き、 さらに連 続誘電体近似 (COSMO法) を用いて溶媒の影響を考慮した。
ここで、 実施例 1においてリボヌクレアーゼ T 1のフロンティア敏 L道が分布 したァミノ酸残基を図 23に示す表に示す。
図 23に示すように、 活性部位の候補となりうるのは、 HOMOから 2番目 に G 1 u 58と、 HOMOから 3番目に H i s 40、 LUMOから 4番目の H i s 92、 LUMOから 3番目に Ar g 77が分布した。 この 4つのアミノ残 基は近くに集まっているので、 ここが活性部位であると容易に予想することが できる。 これは実験データと良く一致している。 また、 H i s 40と G 1 u 5 8が求核的に、 Ar g 77と H i s 92が求電子的に働くと予想できる。 つま り、 従来の技術とは異なり、 活性部位の位置だけではなく、 反応のメカニズム を解析することができる。 次に主鎖の窒素原子に着目した。 図 2 4は、 本実施例 1において主鎖の窒素 原子に分布している分子軌道の軌道エネルギーをアミノ酸の残基番号に対して プロットした図である。 本図に示すようにアミノ酸残基番号 4 0、 6 0、 8 0、 9 0付近に軌道エネルギーの高い部分が現れる。 また、 本実施例 1において軌 道エネルギーが高いアミノ酸残基と軌道エネルギーとを抽出した表を図 2 5に 示す。 軌道エネルギーの高いァミノ酸残基の周辺にあるアミノ酸残基が活性部 位の候補にある。
また、 図 2 3に示したフロンティア軌道による候補アミノ酸残基と、 図 2 4 およぴ図 2 5に示した主鎖原子の軌道エネルギーによる候補アミノ酸残基の共 通部分を抽出した表を図 2 6に示す。 例えば、 フロンティア軌道による方法で 求核基の候補 4つ、 求電子基の候補 4つを挙げた。 また、 主鎖原子の軌道エネ ルギ一による方法でピーク (5番目まで考慮する) となるアミノ酸残基から前 後 2残基ずつを候補とした。 そして、 お互いに共通しているものを挙げると、 4 0、 5 7、 5 8、 7 7、 9 2と 5つがあがる。
図 2 6により共通部分として抽出されたアミノ酸残基はいずれも実験で求め られた活性に必要なアミノ酸残基 (4 0、 5 8、 7 7、 9 2 ) によく対応して いる (5 7は 5 8に近いために活性部位と誤って判断された。 ) 。
[実施例 2 ; リボヌクレアーゼ A]
次に、 実施例 2の詳細について図 2 7から図 3 0を参照して説明する。 加水 分解酵素であるリボヌクレアーゼ Aは実験的によく調べられていて、 必須なァ ミノ酸残基は H i s 1 2、 H i s 1 1 9であるということが実験的に証明され ている。
リボヌクレアーゼ Aついて、 X線結晶構造データに基づき市販のプログラム I n s i g h t I Iによって水素分子を付加して、 分子軌道計算に必要な座標 を完成した。 そして、 市販のプログラム MO P A C 2 0 0 0を用いて最適化構 造を求めた後に、 電子状態を得た。 蛋白質まわりに水分子を置き、 さらに連続 誘電体近似 (C O S MO法) を用いて溶媒の影響を考慮した。 ここで、 本実施例においてリボヌクレアーゼ Aのフロンティア軌道が分布し たアミノ酸残基を図 2 7に示す表に示す。
次に主鎖の窒素原子に着目した。 図 2 8は、 本実施例 2において主鎖の窒素 原子に分布している分子軌道の軌道エネルギーをアミノ酸の残基番号に対して プロットした図である。 本図に示すようにアミノ酸残基番号 1 2、 4 7、 1 1 7、 7 6、 5 3の付近に軌道エネルギーの高い部分が現れる。 また、 軌道エネ ルギ一が高いアミノ酸残基と軌道エネルギーとを抽出した表を図 2 9に示す。 軌道エネルギーの高いアミノ酸残基の周辺にあるアミノ酸残基が活性部位の候 補にある。
また、 図 2 7に示したフロンティア軌道による候補アミノ酸残基と、 図 2 8 および図 2 9に示した主鎖原子の軌道エネルギーによる候補アミノ酸残基の共 通部分を抽出した表を図 3 0に示す。 例えば、 フロンティア軌道による方法で '求核基の候補 4つ、 求電子基の候補 4つを挙げた。 また、 主鎖原子の軌道エネ ルギ一による方法でピーク (5番目まで考慮する) となるアミノ酸残基から前 後 2残基ずつを候補とした。 そして、 お互いに共通しているものを挙げると、 1 2、 1 4、 1 1 9と 3つがあがる。
図 3 0により共通部分として抽出されたアミノ酸残基はいずれも実験で求め られた活性に必要なアミノ酸残基 (1 2、 1 1 9 ) によく対応している (1 4 は 1 2に近いために活性部位と誤って判断された。 ) 。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述し た実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内に おいて種々の異なる実施の形態にて実施されてよいものである。
例えば、 蛋白質活性部位予測装置 1 1 0 0がスタンドアローンの形態で処理 を行う場合を一例に説明したが、 蛋白質活性部位予測装置 1 1 0 0とは別筐体 で構成されるクライアント端末からの要求に応じて処理を行い、 その処理結果 を当該クライアント端末に返却するように構成してもよい。 また、 実施形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手 動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自 動的に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各 種の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 蛋白質活性部位予測装置 1 1 00に関して、 図示の各構成要素は機能 概念的なものであり、 必ずしも物理的に図示の如く構成されていることを要し ない。
例えば、 蛋白質活性部位予測装置 1 1 00の各部または各装置が備える処理 機能、 特に制御部 1 1 0 2にて行なわれる各処理機能については、 その全部ま たは任意の一部を、 C PU (C e n t r a l P r o c e s s i n g U n i t ) および当該 C P Uにて解釈実行されるプログラムにて実現することができ、 あるいは、 ワイヤードロジックによるハードウェアとして実現することも可能 である。 なお、 プログラムは、 後述する記録媒体に記録されており、 必要に応 じて蛋白質活性部位予測装置 1 1 00に機械的に読み取られる。
すなわち、 ROMまたは HDなどの記憶部 1 1 06などには、 O S (O p e r a t i n g S y s t em) と協働して C P Uに命令を与え、 各種処理を行 うためのコンピュータプログラムが記録されている。 このコンピュータプログ ラムは、 RAM等にロードされることによって実行され、 CPUと協働して制 御部 1 1 02を構成する。 また、 このコンピュータプログラムは、 蛋白質活性 部位予測装置 1 1 00に対して任意のネットワーク 1 300を介して接続され たアプリケーションプログラムサーバに記録されてもよく、 必要に応じてその 全部または一部をダウンロードすることも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体 に格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディ スク、 光磁気ディスク、 ROM、 E PROM, EE PROM, CD-ROM, MO、 DVD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステム に内蔵される ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるい は、 LAN, WAN, インターネットに代表されるネットワークを介してプロ グラムを送信する場合の通信回線や搬送波のように、 短期にプログラムを保持 する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処 理方法であり、 ソースコードゃバイナリコード等の形式を問わない。 なお、 「プログラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュ ールゃライブラリとして分散構成されるものや、 O S (O p e r a t i n g
S y s t e m) に代表される別個のプログラムと協働してその機能を達成する ものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取る ための具体的な構成、 読み取り手順、 あるいは、 読み取り後のインス トール手 順等については、 周知の構成や手順を用いることができる。
記憶部 1 1 0 6に格納される各種のデータベース等 (蛋白質構造データべ一 ス 1 1 0 6 aおよび処理結果データ 1 1 0 6 b) は、 RAM、 ROM等のメモ リ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光デ イスク等のストレージ手段であり、 各種処理やウェブサイト提供に用いる各種 のプログラムやテープノレやフアイノレゃデータベースゃゥェブぺージ用ファイル 等を格納する。
また、 蛋白質活性部位予測装置 1 1 0 0は、 既知のパーソナルコンピュータ、 ワークステーション等の情報処理端末等の情報処理装置にプリンタゃモニタや イメージスキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法を実 現させるソフトウェア (プログラム、 データ等を含む) を実装することにより 実現してもよい。
さらに、 蛋白質活性部位予測装置 1 1 0 0の分散 ·統合の具体的形態は図示 のものに限られず、 その全部または一部を、 各種の負荷等に応じた任意の単位 で、 機能的または物理的に分散 ·統合して構成することができる。 例えば、 各 データベースを独立したデータベース装置として独立に構成してもよく、 また、 処理の一きを CG I (C ommo n Ga t e wa y I n t e r f a c e) を用いて実現してもよい。 '
また、 ネットワーク 1 300は、 蛋白質活性部位予測装置 1 100と外部シ ステム 1 200とを相互に接続する機能を有し、 例えば、 インターネットゃ、 イントラネットや、 LAN (有線ノ無線の双方を含む) や、 VANや、 パソコ ン通信網や、 公衆電話網 (アナログ/デジタルの双方を含む) や、 専用回線網 (アナログ Zデジタルの双方を含む) や、 CATV網や、 I MT 2000方式、 GSM方式または PDC/PDC— P方式等の携帯回線交換網/携帯バケツト 交換網や、 無線呼出網や、 B 1 u e t o o t h等の局所無線網や、 PHS網や、 C S、 B Sまたは I SDB等の衛星通信網等のうちいずれかを含んでもよい。 すなわち、 本システムは、 有線'無線を問わず任意のネットワークを介して、 各種データを送受信することができる。
以上詳細に説明したように、 本発明によれば、 蛋白質または生理活性ポリぺ プチドの電子状態を分子軌道計算によって求めて、 フロンティァ軌道とその周 辺軌道、 および/または、 主鎖の重原子に局在する軌道エネルギーを特定し、 当該フロンティア軌道とその周辺軌道の位置、 および Zまたは、 当該軌道エネ ルギ一に基づいて当該蛋白質または生理活性ポリべプチドの活性部位となるァ ミノ酸残基を予測するので、 精度が高いと言われている分子軌道計算を利用し、 フロンティア軌道の位置または軌道エネルギーの高い位置と反応部位との関係 性を蛋白質または生理活性ポリペプチドの系に応用するため高い精度の活性部 位予想を行うことができる活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体を提供することができる。 . ' また、 本発明によれば、 目的の蛋白質または生理活性ポリペプチドの構造デ ータを取得し、 .取得した構造データに基づいて蛋白質または生理活性ポリぺプ チドの電子状態を分子軌道計算によって求めてフロンティァ軌道を特定し、 フ 口ンティア軌道と予め定めたエネルギー差になる分子軌道を当該フ口ン 軌道の周辺軌道として決定し、 フロンティア軌道と周辺軌道が分布しているァ ミノ酸残基を活性部位の候補のァミノ酸残基として決定し、 決定された候補ァ ミノ酸残基の中から活性部位を選択して活性部位を予測するので、 精度が高い と言われている分子軌道計算を利用し、 フロンティア軌道の位置と反応部位と の関係性を蛋白質または生理活性ポリペプチドの系に応用するため高い精度の 活性部位予想を行うことができる活性部位予測装置、 活性部位予測方法、 プロ グラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 目的の蛋白質または生理活性ポリペプチドの構造デ ータを取得し、 取得した構造データに基づいて蛋白質または生理活性ポリぺプ チドの電子状態を分子軌道計算によって求めて主鎖の重原子に局在する軌道ェ ネルギーを特定し、 特定された軌道エネルギーのうち予め定めた値を超える軌 道エネルギーとなる分子軌道および/または相対的に軌道エネルギーが高い分 子軌道が分布しているアミノ酸残基を活性部位の候補のアミノ酸残基として決 定するので、 精度が高いと言われている分子軌道計算を利用し、 軌道エネルギ 一の高い位置と反応部位との関係性を蛋白質または生理活性ポリペプチドの系 に応用するため高い精度の活性部位予想を行うことができる活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体を提供することができる。 また、 本発明によれば、 目的の蛋白質または生理活性ポリペプチドの構造デ ータを取得し、 取得した構造データに基づいて蛋白質または生理活性ポリぺプ チドの電子状態を分子軌道計算によって求めてフロンティア軌道を特定し、 取 得した構造データに基づいて蛋白質または生理活性ポリぺプチドの電子状態を 分子軌道計算によって求めて主鎖の重原子に局在する軌道エネルギーを特定し、 フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロンティ ァ軌道の周辺軌道として決定し、 フロンティア軌道と周辺軌道が分布している アミノ酸残基、 および/または、 特定された軌道エネルギーのうち予め定めた 値を超える軌道エネルギーとなる分子軌道および/または相対的に軌道エネル ギ一が高い分子軌道が分布しているァミノ酸残基を活性部位の候補のァミノ酸 残基として決定し、 決定された候補アミノ酸残基の中から活性部位を選択して 活性部位を予測するので、 精度が高いと言われている分子軌道計算を利用し、 フロンティァ軌道の位置または軌道エネルギーの高い位置と反応部位との関係 性を蛋白質または生理活性ポリべプチドの系に応用するため高い精度の活性部 位予想を行うことができる活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体を提供することができる。
さらに、 本発明によれば、 分子軌道計算において、 以下の 3つの計算条件 1 ) 蛋白質または生理活性ポリぺプチドのまわりに水分子を発生させる、 2 ) 蛋白質または生理活性ポリペプチドの周りに連続的な誘電体を置く、
3 ) 蛋白質または生理活性ポリぺプチド表面の解離性ァミノ酸残基を無電荷 の状態にし、 内部に埋まっている解離性アミノ酸を電荷状態にする、
のうち少なくとも一つの計算条件を設定するので、 3つの計算条件を適宜設 定することにより、 効率的に分子軌道計算を実行することができ、 さらに、 活 性部位予測の精度を大幅に向上させることができる活性部位予測装置、 活性部 位予測方法、 プログラム、 および、 記録媒体を提供することができる。
(Π) また、 以下に、 本発明にかかるタンパク質相互作用情報処理装置、 タン パク質相互作用情報処理方法、 プログラム、 および、 記録媒体の実施の形態を 図面に基づいて詳細に説明する。 なお、 この実施の形態によりこの発明が限定 さ;^るものではない。
[本発明の概要]
以下、 本発明の概要について説明し、 その後、 本発明の構成および処理等に ついて詳細に説明する。 図 3 1は本発明の基本原理を示す原理構成図である。 本発明は、 概略的に、 以下の基本的特徴を有する。
本発明は、 溶媒接触面の疎水性相互作用に基づき不安定性の高い部位を特定 する。 すなわち、 本発明は、 まず、 相互作用する複数のタンパク質の単体時の 溶媒接触面積 (溶媒分子が接することのできる分子表面の面積であり 「溶媒露 出表面積」 ともいう) と複合体形成時の溶媒接触面積とを別々に計算し、 その 差を取ることにより相互作用部分の溶媒接触面を求める。 つまり、 単体時の溶 媒接触面積と複合体形成時の溶媒接触面積との差が大きい部位は、 複合体を形 成すると溶媒に接触する面積が少なくなることを示すため、 このような部位は 相互作用部位である可能性が高いということができるので、 差が大きいァミノ 酸残基部位を相互作用部位の溶媒接触面として特定する。 なお、 複合体時の構 造データがなレ、場合本処理は行わなレ、。
そして、 本発明はタンパク質の溶媒接触面について疎水性相互作用エネルギ 一を求めることにより、 タンパク質の一次構造を構成するアミノ酸残基中で溶 媒面でありかつ疎水面である部位を特定する。 このような部位は、 単体時にお いては不安定性が高く、 複合体形成時においては疎水面が覆い隠されることに より安定化すると考えられるため、 相互作用部位となる可能性が高い部位であ るといえる。
また、 本発明は、 タンパク質中において静電相互作用エネルギーの高い部位 を特定することにより不安定性の高い部位を特定する。 すなわち、 本発明は、 分子軌道法などにより求められた原子電荷 (部分電荷) に基づいて静電相互作 用エネルギーの高い部位を計算する。 このような部位は単体時においては不安 定性が高く、 複合体形成時においてはエネルギー的に安定化すると考えられる ため、 相互作用部位となる可能性が高い部位であるといえる。 ここで、 原子電 荷は分子軌道法などによる各種の計算手法により求めてもよいし、 分子力学法 や分子動力学法等において各種のパラメータ値として与えられた原子電荷の値 などを流用してもよい。
そして、 本発明は、 溶媒接触面、 疎水性相互作用エネルギー、 および、 静電 相互作用エネルギーに基づいて不安定性の高い部位を特定することにより相互 作用部位を特定する。
、構成] まず、 本システムの構成について説明する。 図 3 2は、 本発明が適用される 本システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係 する部分のみを概念的に示している。 本システムは、 概略的に、 タンパク質相 互作用情報処理装置 2 1 0 0と、 配列情報等に関する外部データベースやホモ ロジー検索等の外部プログラム等を提供する外部システム 2 2 0 0とを、 ネッ トワーク 2 3 0 0を介して通信可能に接続して構成されている。
図 3 2においてネットワーク 2 3 0 0は、 タンパク質相互作用情報処理装置 2 1 0 0と外部システム 2 2 0 0とを相互に接続する機能を有し、 例えば、 ィ ンターネッ ト等である。
図 3 2において外部システム 2 2 0 0は、 ネッ トワーク 2 3 0 0を介して、 タンパク質相互作用情報処理装置 2 1 0 0と相互に接続され、 利用者に対して D N A等の配列情報やタンパク質等の構造情報等に関する外部データベースや ホモ口ジー検索やモチーフ検索等の外部プログラムを実行するゥヱブサイトを 提供する機能を有する。
ここで、 外部システム 2 2 0 0は、 WE Bサーバや A S Pサーバ等として構 成してもよく、 そのハードウェア構成は、 一般に市販されるワークステーショ ン、 パーソナルコンピュータ等の情報処理装置およびその付属装置により構成 してもよい。 また、 外部システム 2 2 0 0の各機能は、 外部システム 2 2 0 0 のハードウユア構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力 装置、 通信制御装置等およびそれらを制御するプログラム等により実現される。 図 3 2においてタンパク質相互作用情報処理装置 2 1 0 0は、 概略的に、 タ ンパク質相互作用情報処理装置 2 1 0◦の全体を統括的に制御する C P U等の 制御部 2 1 0 2、 通信回線等に接続されるルータ等の通信装置 (図示せず) に 接続される通信制御インターフェース部 2 1 0 4、 入力装置 2 1 1 2や出力装 置 2 1 1 4に接続される入出力制御インターフェース部 2 1 0 8、 および、 各 種のデータベースやテーブルなどを格納する記憶部 2 1 0 6を備えて構成され ており、 これら各部は任意の通信路を介して通信可能に接続されている。 さら に、 このタンパク質相互作用情報処理装置 2 1 0 0は、 ルータ等の通信装置お ょぴ専用線等の有線または無線の通信回線を介して、 ネットワーク 2 3 0 0に 通信可能に接続されている。
記憶部 2 1 0 6に格納される各種のデータベースやテーブル (タンパク質構 造データベース 2 1 0 6 aおよび処理結果データ 2 1 0 6 b ) は、 固定ディス ク装置等のス トレージ手段であり、 各種処理に用いる各種のプログラムゃテー ブルやフアイルゃデ一タベースゃゥェブぺージ用フアイル等を格納する。 これら記憶部 2 1 0 6の各構成要素のうち、 タンパク質構造データベース 2 1 0 6 aは、 タンパク質のアミノ酸配列情報 (一次構造データ) や立体構造デ ータ (構成原子の 3次元座標データ等) や各種のァノテーシヨン情報を格納し たデータベースである。 タンパク質構造データベース 2 1 0 6 aは、 インター ネットを経由してアクセスする外部のデータベースであってもよく、 また、 こ れらのデータベースをコピーしたり、 オリジナルの配列情報を格納したり、 さ らに独自のァノテーション情報等を付加したりして作成したィンハウスデータ ベースであってもよい。
また、 処理結果データ 2 1 0 6 bは、 処理結果データに関する情報等を格納 する処理結果データ格納手段である。
また、 図 3 2において、 通信制御インターフェース部 2 1 0 4は、 タンパク 質相互作用情報処理装置 2 1 0 0とネットワーク 2 3 0 0 (またはルータ等の 通信装置) との間における通信制御を行う。 すなわち、 通信制御インターフエ ース部 2 1 0 4は、 他の端末と通信回線を介してデータを通信する機能を有す る。
また、 図 3 2において、 入出力制御インターフェース部 2 1 0 8は、 入力装 置 2 1 1 2や出力装置 2 1 1 4の制御を行う。 ここで、 出力装置 2 1 1 4とし ては、 モニタ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下においては出力装置 2 1 1 4をモニタとして記載する場合があ る) 。 また、 入力装置 2 1 1 2としては、 キーボード、 マウス、 および、 マイ ク等を用いることができる。 また、 モニタも、 マウスと協働してポインティン グデバイス機能を実現する。
また、 図 32において、 制御部 2102は、 OS (Op e r a t i n g S y s t em) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および所要データを格納するための内部メモリを有し、 これらのプログラム等 により、 種々の処理を実行するための情報処理を行う。 制御部 2102は、 機 能概念的に、 構造データ取得部 2102 a, 溶媒接触面特定部 2102 b, 疎 水面特定部 2102 c, 静電相互作用部位特定部 2102 d、 相互作用部位特 定部 2102 e、 および、 相互作用予測部 2102 f を備えて構成されている。 このうち、 構造データ取得部 2102 aは、 相互作用する複数のタンパク質 の一次構造データと単体時および Zまたは複合体形成時の立体構造データとを 含む構造データを取得する構造データ取得手段である。 また、 溶媒接触面特定 部 2102 bは、 構造データ取得手段にて取得した構造データに従って、 一次 構造データを構成するァミノ酸残基毎に溶媒接触面を特定する溶媒接触面特定 手段である。
また、 疎水面特定部 2102 cは、 構造データ取得手段にて取得した構造デ ータに従って、 一次構造データを構成するアミノ酸残基毎に疎水性相互作用ェ ネルギーを特定する疎水面特定手段である。 また、 静電相互作用部位特定部 2 102 dは、 構造データ取得手段にて取得した構造データに従って、 一次構造 データを構成するアミノ酸残基毎に静電相互作用エネルギーを特定する静電相 互作用部位特定手段である。
また、 相互作用部位特定部 2102 eは、 溶媒接触面特定手段にて特定され た溶媒接触面、 疎水面特定手段にて特定された疎水性相互作用エネルギー、 お よび、 静電相互作用部位特定手段にて特定された静電相互作用エネルギーに基 づいて不安定性の高いァミノ酸残基の部位を特定することにより相互作用部位 を特定する相互作用部位特定手段である。 また、 相互作用予測部 2102 f は、 相互作用部位特定手段にて特定された 相互作用部位について、 相互作用する相手側の一次配列を特定し、 当該一次配 列を含む一次構造を持つ候補タンパク質を検索する候補タンパク質検索部 21 02 gを備え、 候補タンパク質検索手段にて検索された候補タンパク質につい て、 構造データ取得手段、 溶媒接触面特定手段、 疎水面特定手段、 静電相互作 用部位特定手段、 および、 相互作用部位特定手段を実行することにより、 相手 側の一次配列の部分が候補タンパク質の相互作用部位として特定されるか否か を確認する手段である。 なお、 これら各部によって行なわれる処理の詳細につ いては、 後述する。
[システムの処理]
次に、 このように構成された本実施の形態における本システムの処理の一例 について、 以下に図 33〜図 42を参照して詳細に説明する。
[メイン処理]
まず、 メイン処理の詳細について図 33を参照して説明する。 図 33は、 本 実施形態における本システムのメイン処理の一例を示すフローチャートである。 タンパク質相互作用情報処理装置 2100は、 構造データ取得部 2102 a の処理により、 タンパク質構造データベース 2106 aまたは外部システム 2 200の外部データベース (例えば、 PDB (P r o t e i n D a t a B a nk) など) にアクセスして、 相互作用する複数のタンパク質の一次構造デ ータと単体時および/または複合体形成時の立体構造データとを含む構造デー タを取得する (ステップ SA2— 1) 。 ここで、 取得する構造データは、 相互 作用する複数のタンパク質の単独時の構造データと複合体形成時の構造データ の双方を含む場合と、 相互作用する複数のタンパク質の単独時の構造データの みの場合を含む。
ついで、 タンパク質相互作用情報処理装置 2100は、 複合体時の構造デー タがある場合には溶媒接触面特定部 2102 bの処理により、 図 34を用いて 後述するように、 相互作用する複数のタンパク質の単独時の構造データと複合 体形成時の構造データの双方に従って、 一次構造データを構成するアミノ酸残 基毎に溶媒接触面を特定する (ステップ SA2— 2) 。 ここで、 溶媒接触面特 定処理の詳細について図 34を参照して説明する。 図 34は、 本実施形態にお ける本システムの溶媒接触面特定処理の一例を示すフローチャートである。 まず、 溶媒接触面特定部 2102 bは、 各残基について、 単体時の溶媒接触 面積 Sislatedを計算する (ステップ S B 2- 1) 。 ここで、 本発明において溶 媒接触面積を求める手法については既知のいずれの手法を用いてもよく、 例え は、 文献 1 ( Nume r i c a l C a l c u l a t i o n o f M o 1 e c u l a r su r f a c e Ar e a. I . A s s e s sme n t o f E r r o t s " A. A. B 1 i z n y u k a n d J . E. G r e a d y, J. C omp u t . C h e m. , 17, 962— 969 ( 1 996 ) . ) や、 文献 2 ( "Nume r i c a l C a l c u l a t i o n o f Mo l e c u l a r Su r f a c e Ar e a. I I . As s e s s m e n t o f E r r o t s,, A. A. B l i z ny u k a n d J . E. Gr e a d y, J. C o m p u t . Ch e m. , 1 7, 970— 975 (1 996) . ) に開示された手法を用いてもよい。
ついで、 溶媒接触面特定部 2102 bは、 各残基について、 複合体形成時の 溶媒接触面積 Scmplexを計算する (ステップ SB 2— 2) 。
ついで、 溶媒接触面特定部 2102 bは、 各残基について、 単体時の溶媒接 触面積 S isolatedと、複合体形成時の溶媒接触面積 S oomplexの差分を計算する (ス テツプ SB 2— 3) 。 これにて、 溶媒接触面特定処理が終了する。
再び図 33に戻り、 タンパク質相互作用情報処理装置 2100は、 疎水面特 定部 2102 cの処理により、 図 35を用いて後述するように、 相互作用する 複数のタンパク質の単独時の構造データと複合体形成時の構造デ"タの双方に 従って、 タンパク質の一次構造を構成する各アミノ酸残基および原子毎の疎水 性パラメータなどに基づいて、 各残基おょぴ原子毎に疎水性相互作用エネルギ 一を計算し疎水面を特定する (ステップ S A 2— 3) 。 例えば、 アミノ酸残基 が Ly sの場合は、 ε位の窒素 Nとそれに結合している水素 Hは親水的とし、 0、 γヽ δ位の炭素 Cとそれに結合している水素 Ηは疎水的とする。
ここで、 疎水面特定処理の詳細について図 35を参照して説明する。 図 35 は、 本実施形態における本システムの疎水面特定処理の一例を示すフローチヤ ートである。 本例では、 タンパク質 Αとタンパク質 Βとが相互作用する場合を 一例に説明する。
まず、 疎水面特定部 2102 cは、 数式 1により疎水面の減少量を計算する (ステップ S C 2— 1) 。
^ ° hydrophobic― ° hydrophobicA + ° hydrophobicB 一 ° hydrophobicAB · · ·数式 1 ここで、 Δ Shydl.。phbicは疎水面の減少量であり、 Shydr一。 bicAはタンパク質 A 単体時の疎水面の面積であり、 S hydrophobicBはタンパク質 B単体時の疎水面の面 積であり、 S hydrophobicABはタンパク質 Aとタンパク質 Bが複合体を形成した時 の疎水面の面積である。
そして、 疎水面特定部 2102 cは、 数式 2により疎水性相互作用エネルギ 一 Ehphbicを計算する (SC 2— 2) 。
hydrophobic一 k /く Δ hydrophobic · · ·数
で、 k = 24 c a 1 /mo 1 · A2である
Qu a n t i f i c a t i o n o f t h e hy d r o p h o o i c i n t e r a c t i o b y s i mu l a t i o n s o f t h e a g g r e g a t i o n o f sma l l hy d r o p h o b i c s o l u t i o n s i n w a t a r ", T. M. R a s c h k e , J T s a i a n d M. L e v i t t, PNAS, 98, 5965— 5 9 6 9 ( 2 0 0 1 ) ) 。
そして、 疎水面特定部 2 1 0 2 cは、 予め定めた閾値を超える疎水性相互作 用エネルギーであるアミノ酸残基部位を疎水面として特定する (ステップ S C
2— 3 ) 。 これにて、 疎水面特定処理が終了する。
再び図 3 3に戻り、 タンパク質相互作用情報処理装置 2 1 0 0は、 静電相互 作用部位特定部 2 1 0 2 dの処理により、 図 3 6を用いて後述するように、 相 互作用する複数のタンパク質の単独時の構造データと複合体形成時の構造デー タの双方に従って、 上記一次構造データを構成するアミノ酸残基毎に静電相互 作用エネルギーを特定する (ステップ S A 2— 4 ) 。 ここで、 静電相互作用部 位特定処理の詳細について図 3 6を参照して説明する。 図 3 6は、 本実施形態 における本システムの静電相互作用部位特定処理の一例を示すフローチャート である。
まず、 静電相互作用部位特定部 2 1 0 2 dは、 数式 3により各残基について 静電相互作用エネルギー Enを計算する (ステップ S D 2— 1 ) 。
· · · 数式3
Figure imgf000083_0001
ここで、 εは分子内部における誘電率であり、 qは部分電荷であり、 iと j は原子を示す添え字であり、 Rは原子 iと原子 jの間の距離である。 Enは静 電相互作用であり、 分子内部の極性部位およびイオン化して荷電している部位 間の相互作用を原子核上に部分電荷を置くことで近似している。 これにて、 静 電相互作用部位特定処理が終了する。
再び図 3 3に戻り、 タンパク質相互作用情報処理装置 2 1 0 0は、 相互作用 部位特定部 2 1 0 2 eの処理により、 図 3 7を用いて後述するように、 溶媒接 触面、 疎水性相互作用エネルギー、 および、 静電相互作用エネルギーに基づい て不安定性の高い上記ァミノ酸残基の部位を特定することにより相互作用部位 を特定する (ステップ S A 2— 5 ) 。 ここで、 相互作用部位特定処理の詳細に ついて図 3 7を参照して説明する。 図 3 7は、 本実施形態における本システム の相互作用部位特定処理の一例を示すフローチャートである。
まず、 相互作用部位特定部 2 1 0 2 eは、 溶媒接触面積の差 Δ Sが予め定め た閾値を超える部位を特定する (ステップ S E 2— 1 ) 。
次に、 相互作用部位特定部 2 1 0 2 eは、 疎水性相互作用エネルギー E hydrPh。^が予め定めた閾値を超える部位を特定する (ステップ S E 2— 2 ) 。 次に、 相互作用部位特定部 2 1 0 2 eは、 静電相互作用エネルギー Enが予 め定めた閾値を超える部位を特定する (ステップ S E 2— 3 ) 。 これにて、 相 互作用部位特定処理が終了する。 これにて、 メイン処理が終了する。
[相互作用部位予測処理]
次に、 相互作用部位予測処理の詳細について図 3 8を参照して説明する。 図 3 8は、 本実施形態における本システムの相互作用部位予測処理の一例を示す フローチヤ一トである。
まず、 タンパク質相互作用情報処理装置 2 1 0 0は、 上述したメイン処理に より相互作用部位を特定する (ステップ S F 2— 1 ) 。
ついで、 相互作用予測部 2 1 0 2 f は、 候ネ タンパク質検索部 2 1 0 2 gの 処理により、 ステップ S F 2— 1で特定した相互作用部位と相互作用する相手 側の一次配列 (同一タンパク質内の配列を含む) を特定し (ステップ S F 2— 2 ) 、 当該一次配列を含む一次構造を持つ候補タンパク質を検索する (ステツ プ S F 2— 3 ) 。
ついで、 相互作用予測部 2 1 0 2 ίは、 候補タンパク質について、 上述した 構造データ取得処理、 溶媒接触面特定処理 (複合体時の構造データがある場 合) 、 疎水面特定処理、 静電相互作用部位特定処理、 および、 相互作用部位特 定処理を実行することにより、 相手側の一次配列の部分が候補タンパク質の相 互作用部位として特定されるか否かを確認する (ステップ S F 2— 4 ) 。 これ にて、 相互作用部位予測処理が終了する。
[実施例 1 ] 次に、 実施例 1の詳細について図 3 9〜図 44を参照して説明する。 実施例 1は、 タンパク質として 「b a r n a s e」 と 「b a r s t a r」 とを用いて 相互作用部位を特定する場合を一例に説明する。
図 3 9は、 タンパク質相互作用情報処理装置 1 00が、 溶媒接触面特定部 1 0 2 bの処理により、 b a r n a s e— b a r s t a r複合体の結晶構造に基 づき、 b a r n a s eについて各ァミノ酸残基毎に溶媒接触面積の差 Δ Sを計 算した処理図である。 本図に示すように、 b a r n a s eの一次構造のうち、 3 8番目、 5 9番目、 8 3番目、 および、 1 02番目のアミノ酸残基の差 A S が大きく、 b a r n a s eはこの部位で b a r s t a rと相互作用しているこ とが特定できる。
また、 図 4 0は、 タンパク質相互作用情報処理装置 1 00が、 疎水面特定部 1 02 cの処理により、 b a r n a s e単体の結晶構造に基づき、 b a r n a s eについて各ァミノ酸残基毎に疎水性相互作用エネルギーを計算した処理図 である。 本図に示すように、 8 2番目のアミノ酸残基の疎水相互作用エネルギ 一が高く、 この付近で相互作用の可能性があることを示している。
また、 図 4 1は、 タンパク質相互作用情報処理装置 1 00が、 静電相互作用 特定部 1 02 dの処理により、 b a r n a s e単体の結晶構造に基づき、 b a r n a s eについて各アミノ酸残基毎に静電相互作用エネルギーを計算した処 理図である。 本図に示すように、 5 9番目、 6 6番目、 8 3番目、 および、 1 0 2番目のァミノ酸残基の静電相互作用エネルギーが高く、 この付近で相互作 用の可能性があることを示している。
また、 図 4 2は、 タンパク質相互作用情報処理装置 1 00が、 溶媒接触面特 定部 1 02 bの処理により、 b a r n a s e— b a r s t a r複合体の結晶構 造に基づき、 b a r s t a rについて各アミノ酸残基毎に溶媒接触面積の差 Δ Sを計算した処理図である。 本図に示すように、 b a r s t a rの一次構造の うち、 30番目、 3 6番目、 40番目、 4 5番目、 47番目、 および、 77番 目のアミノ酸残基の差 Δ Sが大きく、 b a r s t a rはこの部位で b a r n a s eと相互作用していることが特定できる。
また、 図 4 3は、 タンパク質相互作用情報処理装置 1 0 0が、 疎水面特定部 1 0 2 cの処理により、 b a r s t a r単体の結晶構造に基づき、 b a r s t a rについて各ァミノ酸残基毎に疎水性相互作用エネルギーを計算した処理図 である。 本図に示すように、 3 0番目のアミノ酸残基の疎水相互作用エネルギ 一が高く、 この付近で相互作用の可能性があることを示している。
また、 図 4 4は、 タンパク質相互作用情報処理装置 1 0 0が、 静電相互作用 特定部 1 0 2 dの処理により、 b a r s t a r単体の結晶構造に基づき、 b a r s t a rについて各アミノ酸残基毎に静電相互作用エネルギーを計算した処 理図である。 本図に示すように、 3 5番目、 3 9番目、 5 8番目、 6 5番目、 7 7番目、 および、 8 0番目のアミノ酸残基の静電相互作用エネルギーが高く、 この付近で相互作用の可能性があることを示している。
タンパク質相互作用情報処理装置 1 0 0は、 相互作用作用部位特定部 1 0 2 eの処理により、 図 4 0、 図 4 1に示す結果に基づいて、 b a r n a s eにつ いては 5 9番目、 6 6番目、 8 2番目、 8 3番目、 および、 1 0 2番目アミノ 酸残基残基が相互作用候補部位であると特定する。 このことは、 図 3 9に示す 相互作用部位の複合体における既知情報の結果と良く一致しており、 タンパク 質単体構造から複合体形成時における結合部位を予測できることを示している。 また、 タンパク質相互作用情報処理装置 1 0 0は、 相互作用作用部位特定部 1 0 2 eの処理により、 図 4 3、 図 4 4に示す結果に基づいて、 b a r s t a r については 3 0番目、 3 5番目、 3 9番目、 5 8番目、 6 5番目、 7 7番目、 および、 8 0番目のァミノ酸残基残基が相互作用候補部位であると特定する。 このことは、 図 4 2に示す相互作用部位の複合体における既知情報の結果と良 く一致しており、 同様に、 タンパク質単体構造から複合体形成時における結合 部位を予測できることを示している。 これにて、 実施例 1が終了する。
[実施例 2 ] 次に、 実施例 2の詳細について図 45〜図 50を参照して説明する。 実施例 2は、 タンパク質として R i b o nu c l e a s eとその I nh i b i t o r とを用いて相互作用部位を特定する場合を一例に説明する。
図 45は、 タンパク質相互作用情報処理装置 100力 溶媒接触面特定部 1 02 bの処理により、 R i b o nu c l e a s e— i nh i b i t o r複合体 の結晶構造に基づき、 R i b o nu c l e a s eについて各アミノ酸残基毎に 溶媒接触面積の差 Δ Sを計算した処理図である。 本図に示すように、 R i b o nu c l e a s eの一次構造のうち、 39番目のアミノ酸残基の差 Δ Sが大き く、 R i b o nu c l e a s eはこの部位で i n h i b i t o rと相互作用し ていることが特定できる。
また、 図 46は、 タンパク質相互作用情報処理装置 100が、 疎水面特定部 102 cの処理により、 R i b o nu c l e a s e単体の結晶構造に基づき、 R i b o nu c l e a s eについて各アミノ酸残基毎に疎水性相互作用ェネル ギーを計算した処理図である。 本図に示すように、 疎水性相互作用エネルギー に関しては際立ったピークは判別できなレ、。
また、 図 47は、 タンパク質相互作用情報処理装置 100が、 静電相互作用 特定部 102 dの処理により、 R i b o nu c l e a s e単体の結晶構造に基 づき、 R i b o n u c 1 e a s eについて各アミノ酸残基毎に静電相互作用ェ ネルギーを計算した処理図である。 本図に示すように、 1番目、 7番目、 およ ぴ、 39番目のァミノ酸残基の静電相互作用エネルギーが高く、 この付近で相 互作用の可能性があることを示している。
また、 図 48は、 タンパク質相互作用情報処理装置 100が、 溶媒接触面特 定部 102 bの処理により、 R i b o nu c l e a s e— i nh i b i t o r 複合体の結晶構造に基づき、 i nh i b i t o rについて各アミノ酸残基毎に 溶媒接触面積の差 Δ Sを計算した処理図である。 本図に示すように、 i n h i b i t o rの一次構造のうち、 433番目のアミノ酸残基の差 ASが大きく、 i nh i b i t o rはこの部位で R i b o n u c l e a s eと相互作用してい ることが特定できる。
また、 図 49は、 タンパク質相互作用情報処理装置 100が、 疎水面特定部 1 02 cの処理により、 i n h i b i t o r単体の結晶構造に基づき、 i n h i b i t o rについて各アミノ酸残基毎に疎水性相互作用エネルギーを計算し た処理図である。 本図に示すように、 433番目のアミノ酸残基の疎水相互作 用エネルギーが高く、 この付近で相互作用の可能性があることを示している。 また、 図 50は、 タンパク質相互作用情報処理装置 100が、 静電相互作用 特定部 102 dの処理により、 i nh i b i t o r単体の結晶構造に基づき、 i nh i b i t o rについて各アミノ酸残基毎に静電相互作用エネルギーを計 算した処理図である。 本図に示すように、 433番目付近のアミノ酸残基の静 電相互作用エネルギーが高く、 この付近で相互作用の可能性があることを示し ている。
タンパク質相互作用情報処理装置 100は、 相互作用作用部位特定部 1 02 eの処理により、 図 46、 図 47に示す結果に基づいて、 R i b o n u c 1 e a s eについては 1番目、 7番目、 および、 39番目アミノ酸残基残基が相互 作用候補部位であると特定する。 このことは、 図 45に示す相互作用部位の複 合体における既知情報の結果と良く一致しており、 タンパク質単体構造から複 合体形成時における結合部位を予測できることを示している。 また、 タンパク 質相互作用情報処理装置 100は、 相互作用作用部位特定部 102 eの処理に より、 図 49、 図 50に示す結果に基づいて、 i nh i b i t o rについては 433番目のアミノ酸残基残基が相互作用候補部位であると特定する。 このこ とは、 図 48に示す相互作用部位の複合体における既知情報の結果と良く一致 しており、 同様に、 タンパク質単体構造から複合体形成時における結合部位を 予測できることを示している。 これにて、 実施例 2が終了する。
[他の実施の形態] さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述し た実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内に おいて種々の異なる実施の形態にて実施されてよいものである。
本実施例においては、 相互作用するタンパク質の単体時および複合体時の構 造データを用いて溶媒接触面を特定した結果と、 単体時の構造データを用いて 疎水性相互作用およぴ静電相互作用を求めた結果との間に相関があることを示 している。 しかしながら、 単体時の構造データのみを用いて疎水性相互作用お よぴ静電相互作用を求めた場合であっても本発明の効果を得ることができるこ とは自明である。
また、 例えば、 タンパク質相互作用情報処理装置 2 1 0 0がスタンドアロー ンの形態で処理を行う場合を一例に説明したが、 タンパク質相互作用情報処理 装置 2 1 0 0とは別筐体で構成されるクライアント端末からの要求に応じて処 理を行い、 その処理結果を当該クライアント端末に返却するように構成しても よい。
また、 実施形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手 動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自 動的に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各 種の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 タンパク質相互作用情報処理装置 2 1 0 0に関して、 図示の各構成要 素は機能概念的なものであり、 必ずしも物理的に図示の如く構成されているこ とを要しない。
例えば、 タンパク質相互作用情報処理装置 2 1 0 0の各部または各装置が備 える処理機能、 特に制御部 2 1 0 2にて行なわれる各処理機能については、 そ の全部または任意のー咅を、 C P U ( C e n t r a l P r o c e s s i n g Un i t) および当該 CPUにて解釈実行されるプログラムにて実現すること ができ、 あるいは、 ワイヤードロジックによるハードウェアとして実現するこ とも可能である。 なお、 プログラムは、 後述する記録媒体に記録されており、 必要に応じてタンパク質相互作用情報処理装置 2100に機械的に読み取られ る。
すなわち、 ROMまたは HDなどの記憶部 2106などには、 〇S (O e r a t i n g S y s t em) と協働して C P Uに命令を与え、 各種処理を行 うためのコンピュータプログラムが記録されている。 このコンピュータプログ ラムは、 RAM等にロードされることによって実行され、 CPUと協働して制 御部 2102を構成する。 また、 このコンピュータプログラムは、 タンパク質 相互作用情報処理装置 2100に対して任意のネットワーク 2300を介して 接続されたアプリケーションプログラムサーバに記録されてもよく、 必要に応 じてその全部または一部をダウンロードすることも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体 に格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディ スク、 光磁気ディスク、 ROM、 E PROM, EE PROM, CD-ROM, MO、 DVD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステム に内蔵される ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるい は、 LAN, WAN, インターネットに代表されるネットワークを介してプロ グラムを送信する場合の通信回線や搬送波のように、 短期にプログラムを保持 する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処 理方法であり、 ソースコードやバイナリコード等の形式を問わない。 なお、 「プログラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュ ールゃライブラリとして分散構成されるものや、 OS (Op e r a t i n g
S y s t em) に代表される別個のプログラムと協働してその機能を達成する ものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取る ための具体的な構成、 読み取り手順、 あるいは、 読み取り後のインストール手 順等については、 周知の構成や手順を用いることができる。
記憶部 2106に格納される各種のデータベース等 (タンパク質構造データ ベース 2106 aおよび処理結果データ 2106 b) は、 RAM、 ROM等の メモリ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光ディスク等のストレージ手段であり、 各種処理やウェブサイト提供に用いる 各種のプログラムゃテーブルやフアイルゃデ一タベースゃゥェブベージ用ファ ィル等を格納する。
また、 タンパク質相互作用情報処理装置 2 100は、 既知のパーソナルコン ピュータ、 ワークステーション等の情報処理端末等の情報処理装置にプリンタ やモニタやイメージスキャナ等の周辺装置を接続し、 該情報処理装置に本発明 の方法を実現させるソフトウェア (プログラム、 データ等を含む) を実装する ことにより実現してもよい。
さらに、 タンパク質相互作用情報処理装置 2100の分散 ·統合の具体的形 態は図示のものに限られず、 その全部または一部を、 各種の負荷等に応じた任 意の単位で、 機能的または物理的に分散 ·統合して構成することができる。 例 えば、 各データベースを独立したデータベース装置として独立に構成してもよ く、 また、 処理のー咅 [5を CG I (C ommo n Ga t ewa y I n t e r f a c e) を用いて実現してもよい。
また、 ネットワーク 2300は、 タンパク質相互作用情報処理装置 2100 と外部システム 2200とを相互に接続する機能を有し、 例えば、 インターネ ットや、 イントラネットや、 LAN (有線/無線の双方を含む) や、 VANや、 パソコン通信網や、 公衆電話網 (アナログ/デジタルの双方を含む) や、 専用 回線網 (アナログ/デジタルの双方を含む) や、 CATV網や、 IMT200 0方式、 G S M方式または PDC/PDC— P方式等の携帯回線交換網/携帯 パケット交換網や、 無線呼出網や、 B 1 u e t o o t h等の局所無,線網や、 P HS網や、 C S、 B Sまたは I SDB等の衛星通信網等のうちいずれかを含ん でもよい。 すなわち、 本システムは、 有線'無線を問わず任意のネットワーク を介して、 各種データを送受信することができる。
以上詳細に説明したように、 本発明によれば、 相互作用する複数のタンパク 質の一次構造データと単体時および Zまたは複合体形成時の立体構造データと を含む構造データを取得し、 取得した構造データに従って、 一次構造データを 構成するアミノ酸残基毎に疎水性相互作用エネルギーを特定し、 取得した構造 データに従って、 一次構造データを構成するアミノ酸残基毎に静電相互作用ェ ネルギーを特定し、 特定された疎水性相互作用エネルギー、 および、 静電相互 作用エネルギーに基づいて不安定性の高いァミノ酸残基の部位を特定すること により相互作用部位を特定するので、 構造データによりタンパク質の相互作用 部位を容易に特定することができるタンパク質相互作用情報処理装置、 タンパ ク質相互作用情報処理方法、 プログラム、 および、 記録媒体を提供することが できる。
また、 本発明によれば、 取得した構造データに従って、 一次構造データを構 成するアミノ酸残基毎に溶媒接触面を特定し、 特定された溶媒接触面、 疎水性 相互作用エネルギー、 および、 静電相互作用エネルギーに基づいて不安定性の 高いアミノ酸残基の部位を特定することにより相互作用部位を特定するので、 複合体時の構造データがある場合に、 タンパク質の相互作用部位をさらに正確 かつ容易に特定することができるタンパク質相互作用情報処理装置、 タンパク 質相互作用情報処理方法、 プログラム、 および、 記録媒体を提供することがで さる。
さらに、 本発明によれば、 相互作用部位特定手段にて特定された相互作用部 位について、 相互作用する相手側の一次配列を特定し、 当該一次配列を含む一 次構造を持つ候補タンパク質を検索し、 検索された候補タンパク質について、 上述した構造データ取得手段、 溶媒接触面特定手段 (複合体時の構造データが ある場合) 、 疎水面特定手段、 静電相互作用部位特定手段、 および、 相互作用 部位特定手段を実行することにより、 相手側の一次配列の部分が候補: 質の相互作用部位として特定されるか否かを確認するので、 未知の相互作用を 予測することが容易にできるタンパク質相互作用情報処理装置、 タンパク質相 互作用情報処理方法、 プログラム、 および、 記録媒体を提供することができる。
(IV) また、 以下に、 本発明にかかる結合部位予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施の形態によりこの発明が限定されるものではない。
特に、 以下の実施の形態においては、 本発明を、 蛋白質のアミノ酸配列等に 適用した例について説明するが、 この場合に限られず、 生理活性ポリペプチド のアミノ酸配列を用いた場合においても同様に適用することができる。
[本発明の概要]
以下、 本発明の概要について説明し、 その後、 本発明の構成および処理等に ついて詳細に説明する。 図 5 1およぴ図 5 2は本発明の基本原理を示す原理構 成図である。 本発明は、 概略的に、 以下の基本的特徴を有する。
図 5 1は、 本発明により 1つの蛋白質のアミノ酸配列情報からその蛋白質の 結合部位を予測する場合の概念を説明する図である。
図 5 1に示すように、 まず、 本発明では、 蛋白質または生理活性ポリぺプチ ドのアミノ酸配列データから蛋白質の立体構造における各アミノ酸残基間の空 間上の距離データを求める (ステップ S A 3— 1 ) 。
ここで、 空間上の距離データを求める手法には、 例えば、 以下の 3通りの手 法がある。
1 ) 高速計算手法
この手法は、 アミノ酸間の配列上の距離から空間的な距離に変換する方法で ある。 図 5 6は、 本発明の高速計算手法の概念を示す図である。 蛋白質の立体 構造がガウス鎖をとると仮定すると、 蛋白質のアミノ酸配列上の距離と、 蛋白 質の立体構造における空間上の距離は以下の式で関係づけることができる。 r = k d n ( 0 < n < 1 ) ここで rは空間上の距離、 dは配列上の距離、 kは比例定数である。 つまり、 配列上の距離 dが分かれば、 空間上の距離 rを計算することができる。 kおよ び nの値は、 例えば、 PDB (P r o t e i n D a t a B a n k) などの 蛋白質構造データベースに収集された立体構造情報データからアミノ酸間の配 列上の距離と空間上の距離との関係を統計学的に処理し適切な値を設定しても よい。 ここで、 ηは、 0〜1であるが、 好ましくは、 0. 5〜0. 6である。 また、 kは 2. 8A〜4. 8 Aであるが、 好ましくは、 3. 3A〜4. 3 Aで ある。 本手法はアルゴリズムが非常にシンプルであり計算負荷も非常に少ない ため、 例えば数万以上の蛋白質を扱う時などの大量の蛋白質について処理する 場合には非常に強力な方法となる。
2) 構造データ利用計算手法
この手法は、 蛋白質構造データベースに登録された立体構造情報データを用 いることにより、 正確に実際のアミノ酸残基間の空間上の距離を求める手法で ある。 例えば PDBなどの蛋白質構造データペースに目的の蛋白質の立体構造 情報データが格納されている場合には、 データベースに登録された立体構造情 報データを取得することにより、 空間上の距離を以下のように正確に計算する ことができる。
例えばァミノ酸残基番号 Iとァミノ酸残基番号 Jとの空間上の距離 R„は、 アミノ酸残基番号 Iの重心や特定の主鎖の原子などの座標を (Xl, yI;
Z l) とし、 アミノ酸残基番号 Jの重心や特定の主鎖の原子などの座標を (Xj, yj, Zj) とすると、 以下のように計算することができる。
Figure imgf000094_0001
+ ( zT - z j ) 2
(ここで、 R„ > 0) 3 ) シミュレーションデータ利用計算手法
この手法は、 構造未知の蛋白質について、 既知の構造シミュレーション手法 により蛋白質の構造シミュレーションを行い、 そのシミュレーションデータ (予想される立体構造情報データ) を用いて空間上の距離を求める手法である c 立体構造予測シミュレーション手法に関してはホモロジ一 ·モデリングなど 様々な方法がある。 例えば、 『実践バイオインフォマティクス』 (C . G i b a s , P . J a m b e c k著 オライリー 'ジャパン 2 0 0 2年) など に詳しく紹介されている。
本手法は、 手法 1や手法 2と比較して計算負荷が大きいという欠点があるが、 構造未知の蛋白質についてほぼ正確な空間上の距離を求めることができるとい う利点がある。
本発明の特徴は、 このように各ステップで複数の計算方法を可能にしたこと である。 特に既存のシミュレーション手法による立体構造予測方法は時間がか かるという欠点を補うために、 手法 1のようにアミノ酸配列データから簡易的 に各ァミノ酸残基間の空間上の距離データを決定する方法を組み合わせること で、 高速な計算を可能にして結合相手予測など大量のデータを処理する予測法 を可能にしている。
次に、 本発明は、 当該距離データと各アミノ酸の電荷に従って蛋白質の全ェ ネルギーを計算する (ステップ S A 3— 2 ) 。
ここで、 アミノ酸の電荷の決定方法も様々考えられる。 例えば、 正に帯電し ている荷電性アミノ酸 (リジン、 アルギニン) の電荷を 1、 負に帯電している 荷電性アミノ酸 (グルタミン酸、 ァスパラギン酸) の電荷を一 1、 それ以外の アミノ酸の電荷は 0とするような方法がある。 また、 蛋白質構造データベース に登録された蛋白質の立体構造情報や、 シミュレーション手法により得られた 立体構造情報を基にして既存の量子化学計算手法により各アミノ酸残基の電荷 を決定することもできる。 また、 蛋白質の全エネルギーの計算も様々な方法が考えられるが、 例えば、 「 I n t r o d u c t i on t o C omp u t a t i o n a l C h e m i s t r y」 (F r a n k J e n s e n著 J o n Wi l e y & S o n s 社 1999年) などで説明されている、 分子力学、 分子動力学、 分 子軌道法、 密度汎関数法などのエネルギー計算法などの手法を用いても実施で き、 レ、ずれかの手法から要求される予測精度と実施者の計算環境によって最適 なものを選べば良い。 他にも F r a gme n t MO法 (Ch em i c a l Phy s i c s L e t t e r s, Vo l ume 336, I s s u e s 1 一 2, 9 Ma r c h 2001, P a g e s 163— 170) を用いるこ とにより各アミノ酸残基のエネルギーを求めることができる。 この方法は計算 時間がかかるが、 予測精度が高いことが期待される。
他に計算時間がかからない方法としては、 以下のように静電エネルギーを計 算する方法がある。 E tolal = 1/2 ∑∑ q;qノ r "
( i、 jは全ァミノ酸残基の任意のァミノ酸残基番号、 i n o t j ) 本式において、 Ettalは蛋白質の全エネルギーであり、 はアミノ酸残基 iの部分電荷であり、 ijはアミノ酸残基〗の部分電荷であり、 r ijはァミノ 酸残基 iとアミノ酸残基 j との空間上の距離である。
本式による方法は他の手法と比較レて計算負荷が極めて少ないため、 特に網 羅的な計算の時に有効である。
次に、 本発明は、 特定のアミノ酸と蛋白質内のそれ以外のアミノ酸残基との 相互作用エネルギーを以下の式により計算することにより、 各ァミノ酸残基が 蛋白質の全エネルギーをどれくらい安定化しているかを求める (ステップ SA 3-3) 。 E interaction (N) ~ 0. ∑ Q. j/ r
■E total 1 / 2∑ E interaction (N) ここで、 Nは任意のアミノ酸残基番号、 E inleraotion (N)はアミノ酸残基 Nと それ以外のアミノ酸残基との相互作用エネルギー、 jは N以外のアミノ酸残基 番号、 q Nはアミノ酸残基 Nの部分電荷、 q jはアミノ酸残基 jの部分電荷、 r はアミノ酸残基 Nとアミノ酸残基 j との空間上の距離を示す。 ここで全てのァ ミノ酸残基に対する相互作用エネルギーの総和の半分が蛋白質全体のエネルギ 一 Ettalに相当する。 .
次に、 本発明は、 ステップ S A 3— 3で求めた相互作用エネルギーが相対的 に高いアミノ酸残基や、 予め定めた閾値を超える相互作用エネルギーをもつァ ミノ酸残基を、 エネルギー的に不安定なアミノ酸残基として特定することによ り結合部位を予測する (ステップ S A 3— 4 ) 。
また、 図 5 2は、 本発明により複数の蛋白質のアミノ酸配列情報からそれら の蛋白質で複合体を形成するときの結合部位を予測する場合の概念を説明する 図である。
まず、 本発明は、 複数のアミノ酸配列上で結合部位となるアミノ酸残基 (結 合残基) を仮定する (ステップ S B 3— 1 ) 。 ここで、 図 5 7は、 複数のアミ ノ酸配列上で結合残基を仮定する場合の概念を示す図である。 図 5 7に示す例 においては、 アミノ酸配列 Aの 5 0番目のアミノ酸残基と、 アミノ酸配列 Bの 1 0 0番目のアミノ酸残基とを結合残基と仮定している。 ここで、 結合残基は、 図 5 1を用いて上述した本発明の手法により各ァミノ酸配列において結合部位 であると予測されたアミノ酸残基を用いてもよい。
次に、 本発明は、 異なるアミノ酸配列上に存在する 2つのアミノ酸残基間の 空間上の距離を決定する (ステップ S B 3— 2 ) 。 ここで、 空間上の距離の決 定手法には、 上述した 3つの手法を用いることができるが、 以下に、 最も計算 負荷が少なく効率的に計算を行うことができる 1 ) 高速計算手法を用いた場合 について説明する。
まず、 異なるアミノ酸配列上に存在する 2つのアミノ酸残基間の配列上の距 離を以下のように定義する。
(着目残基間の配列上の距離 d ) - .
( I配列 A上の着目残基と結合残基の配列上の距離 I + I配列 B上の着目残基と結合残基の配列上の距離 I ) ここで、 図 5 8は、 着目残基の概念を説明する図である。 図 5 8に示すよう に、 2つのアミノ酸配列 (Aおよび B ) の結合残基と、 結合残基以外の任意の 着目残基を定義している。
ついで、 本発明は、 異なるアミノ酸配列上に存在する 2つのアミノ酸残基間 の配列上の距離 dから複合体の立体構造の空間上の距離 rを推定する (ステツ プ S B 3— 3 ) 。 r = k d n ( 0 < n < 1 ) ここで rは空間上の距離、 dは配列上の距離、 kは比例定数である。 ここで、 nは 0〜1であるが、 好ましくは、 0 . 5〜0 . 6である。 また、 kは 2 . 8 A〜4 . 8 Aであるが、 好ましくは、 3 . 3 A〜4 . 3 Aである。 つまり、 配 列上の距離 dが分かれば、 空間上の距離 rを計算することができる。
この他に、 複合体の立体構造が既知である場合には、 上述した 2 ) 構造デー タ利用計算手法を用いて、 アミノ酸残基間の空間上の距離を正確に求めること ができる。
また、 上述した 3 ) シミュレーションデータ利用計算手法を用いることによ り、 複合体の立体構造を予測して、 そのシミュレーションデータを利用するこ とにより、 ァミノ酸残基間の空間上の距離をある程度正確に求めることができ る。 ここで、 図 62は、 ドッキングシミュレーションを用いて複合体構造を生 成する場合の概念を示す図である。 図 62に示すように、 複数の立体構造情報 を使って、 複合体の構造を生成させるためにドッキングシミュレーションを行 う。 ドッキングシミュレーションは既知の様々なシミュレーション手法を用い ることができる。 例えば、 図 62で示すように、 2つの蛋白質の距離と配向を 変化させるものが一般的である。 さらに具体的な例を挙げるとすると、 一方の 構造を固定し、 もう一方の構造に回転で 2つ、 並進で 2つの自由度を与えて、 様々な構造を発生させる。 2つの構造が重ならないが接触するという条件の構 造を抽出すると、 とりうる複合体の構造が得られる。
次に、 本発明は、 空間上の距離データと各アミノ酸の電荷に従って蛋白質の 全エネルギーを計算する (ステップ SB 3— 4) 。
ここで、 アミノ酸の電荷の決定方法も様々考えられる。 例えば、 上述したよ うに、 正に帯電している荷電性アミノ酸 (リジン、 アルギニン) の電荷を 1、 負に帯電している荷電性アミノ酸 (グルタミン酸、 ァスパラギン酸) の電荷を 1、 それ以外のアミノ酸の電荷は 0とするような方法がある。 また、 上述し たように、 蛋白質構造データベースに登録された複合体の立体構造情報や、 シ ミュレーション手法により得られた複合体の立体構造情報を基にして既存の量 子化学計算手法により各ァミノ酸残基の電荷を決定することもできる。
また、 蛋白質の全エネルギーの計算も様々な方法が考えられるが、 上述した よフ ίこ、 ィ列 、 ' I n t r o du c t i o n t o C omp u t a t ί ο η a 1 Ch em i s t r y」 (F r a nk J e n s e n奢 j o n W i 1 e y & S o n s 社 1999年) などで説明されている、 分子力学、 分子動力学、 分子軌道法、 密度汎関数法などのエネルギー計算法などの手法を 用いても実施でき、 いずれかの手法から要求される予測精度と実施者の計算環 境によって最適なものを選べば良い。 他にも上述したように、 F r a gme n t MO法 Ch em i c a l Phy s i c s L e t t e r s, V o 1 u me 336, I s s u e s 1— 2, 9 Ma r c h 2001, P a g e s 163- 1 70) を用いることにより各アミノ酸残基のエネルギーを求め ることができる。 この方法は計算時間がかかるが、 予測精度が高いことが期待 さ; る。
他に計算時間がかからない方法としては、 上述したように、 以下のように静 電エネルギーを計算する方法がある。
Etotal = 1/2 ∑∑ (1 』/ r ij
( i、 jは全ァミノ酸残基の任意のァミノ酸残基番号、 i n o t j ) 本式において、 E ttalは蛋白質の全エネルギーであり、 qiはアミノ酸残基 iの部分電荷であり、 q」はァミノ酸残基 jの部分電荷であり、 r uはァミノ 酸残基 iとアミノ酸残基 j との空間上の距離である。 このように本手法は基本 的には二重線で示した処理フローと同様の手順で進み、 候補蛋白質のアミノ酸 配列を変えては繰り返す。 その中で最も安定な複合体を形成できるものが相互 作用相手の確率が高いと予測する。
次に、 本発明は、 ステップ SB 3— 1に戻り、 相互作用するアミノ酸残基 (結合残基) を変えて、 全ての組合せについて Ettalを計算して、 最も Ettal が低いときの結合残基を結合部位として予測する (ステップ SB 3— 5) 。
[システム構成]
まず、 本システムの構成について説明する。 図 53は、 本発明が適用される 本システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係 する部分のみを概念的に示している。 本システムは、 概略的に、 結合部位予測 装置 3100と、 配列情報等に関する外部データベースゃホモロジ一検索等の 外部プログラム等を提供する外部システム 3200とを、 ネットワーク 330 0を介して通信可能に接続して構成されている。 図 5 3においてネットワーク 3 3 0 0は、 結合部位予測装置 3 1 0 0と外部 システム 3 2 0 0とを相互に接続する機能を有し、 例えば、 インターネット等 である。
図 5 3において外部システム 3 2 0 0は、 ネットワーク 3 3 0 0を介して、 結合部位予測装置 3 1 0 0と相互に接続され、 利用者に対してアミノ酸配列情 報ゃ蛋白質立体構造情報等に関する外部データベースやホモ口ジー検索ゃモチ ーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。 ここで、 外部システム 3 2 0 0は、 WE Bサーバや A S Pサーバ等として構 成してもよく、 そのハードウェア構成は、 一般に市販されるワークステーショ ン、 パーソナルコンピュータ等の情報処理装置およびその付属装置により構成 してもよレ、。 また、 外部システム 3 2 0 0の各機能は、 外部システム 3 2 0 0 のハードウェア構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力 装置、 通信制御装置等およびそれらを制御するプログラム等により実現される。 図 5 3において結合部位予測装置 3 1 0 0は、 概略的に、 結合部位予測装置 3 1 0 0の全体を統括的に制御する C P U等の制御部 3 1 0 2、 通信回線等に 接続されるルータ等の通信装置 (図示せず) に接続される通信制御インターフ エース部 3 1 0 4、 入力装置 3 1 1 2や出力装置 3 1 1 4に接続される入出力 制御インターフェース部 3 1 0 8、 および、 各種のデータベースやテープノレな どを格納する記憶部 3 1 0 6を備えて構成されており、 これら各部は任意の通 信路を介して通信可能に接続されている。 さらに、 この結合部位予測装置 3 1 0 0は、 ルータ等の通信装置および専用線等の有線または無線の通信回線を介 して、 ネットワーク 3 3 0 0に通信可能に接続されている。
記憶部 3 1 0 6に格納される各種のデータベースやテーブル (アミノ酸配列 データベース 3 1 0 6 a〜処理結果ファイル 3 1 0 6 g ) は、 固定ディスク装 置等のストレージ手段であり、 各種処理に用いる各種のプログラムやテーブル ゃフアイルゃデ一タベースゃゥヱブベージ用フアイル等を格納する。 これら記憶部 3 1 0 6の各構成要素のうち、 アミノ酸配列データベース 3 1 0 6 aは、 アミノ酸配列を格納したデータベースである。 ァミノ酸配列データ ベース 3 1 0 6 aは、 インターネットを経由してアクセスする外部のアミノ酸 配列データベースであってもよく、 また、 これらのデータベースをコピーした り、 オリジナルの配列情報を格納したり、 さらに独自のァノテーシヨン情報等 を付加したりして作成したィンハウスデータベースであつてもよい。
また、 蛋白質構造データベース 3 1 0 6 bは、 蛋白質の立体構造情報を格納 したデータベースである。 蛋白質構造データベース 3 1 0 6 bは、 インターネ ットを経由してアクセスする外部の立体構造情報データベースであってもよく、 また、 これらのデータベースをコピーしたり、 オリジナルの立体構造情報を格 納したり、 さらに独自のァノテーション情報等を付加したりして作成したィン ハウスデータベースであってもよい。
また、 距離データファイル 3 1 0 6 cは、 アミノ酸配列に含まれる各ァミノ 酸残基間の距離- (配列上の距離、 空間上の距離) に関する情報等を格納する距 離情報格納手段である。
また、 全エネルギーデータファイル 3 1 0 6 dは、 蛋白質の全エネルギーに 関する情報等を格納する全エネルギーデータ格納手段である。
また、 相互作用エネルギーデータファイル 3 1 0 6 eは、 各アミノ酸残基の 相互作用エネルギーに関する情報等を格納する相互作用エネルギーデータ格納 手段である。
また、 複合体構造データファイル 3 1 0 6 f は、 複数の蛋白質の複合体構造 に関する情報等を格納する複合体構造データ格納手段である。
また、 処理結果ファイル 3 1 0 6 gは、 結合部位予測装置 3 1 0 0による各 種の処理結果に関する情報等を格納する処理結果格納手段である。
また、 図 5 3において、 通信制御インターフェース部 3 1 0 4は、 結合部位 予測装置 3 1 0 0とネットワーク 3 3 0 0 (またはルータ等の通信装置) との 間における通信制御を行う。 すなわち、 通信制御インターフェース部 3 1 0 4 は、 他の端末と通信回線を介してデータを通信する機能を有する。
また、 図 5 3において、 入出力制御インターフェース部 3 1 0 8は、 入力装 置 3 1 1 2や出力装置 3 1 1 4の制御を行う。 ここで、 出力装置 3 1 1 4とし ては、 モニタ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下においては出力装置 3 1 1 4をモニタとして記載する場合があ る) 。 また、 入力装置 3 1 1 2としては、 キーボード、 マウス、 および、 マイ ク等を用いることができる。 また、 モニタも、 マウスと協働してポインティン グデパイス機能を実現する。
また、 図 5 3において、 制御部 3 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 およぴ所要データを格納するための内部メモリを有し、 これらのプログラム等 により、 種々の処理を実行するための情報処理を行う。 制御部 3 1 0 2は、 機 能概念的に、 アミノ酸配列データ取得部 3 1 0 2 a , 空間距離決定部 3 1 0 2 b、 電荷決定部 3 1 0 2 c、 エネルギー計算部 3 1 0 2 d、 候補ァミノ酸残基 決定部 3 1 0 2 e、 複合体構造生成部 3 1 0 2 f 、 エネルギー最小化部 3 1 0 2 g、 結合候補データ取得部 3 1 0 2 h、 結合部位予測部 3 1 0 2 i、 および、 結合相手候補決定部 3 1 0 2 jを備えて構成されている。
このうち、 ァミノ酸配列データ取得部 3 1 0 2 aは、 目的の蛋白質または生 理活性ポリペプチドのァミノ酸配列データを取得するァミノ酸配列データ取得 手段、 目的の複数の蛋白質または生理活性ポリぺプチドのァミノ酸配列データ を取得するァミノ酸配列データ取得手段、 おょぴ、 目的の蛋白質または生理活 性ポリぺプチドのァミノ酸配列データと、 結合候捕となる複数の蛋白質または 生理活性ポリぺプチドのァミノ酸配列データとを取得するァミノ酸配列データ 取得手段である。
また、 空間距離決定部 3 1 0 2 bは、 アミノ酸配列データ取得手段により取 得されたアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を 決定する空間距離決定手段、 アミノ酸配列データ取得手段により取得された複 数のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、 複 合体構造生成手段により生成した複合体の立体構造情報に従って決定する空間 距離決定手段、 および、 ァミノ酸配列データ取得手段により取得された目的の ァミノ酸配列データと結合候補のァミノ酸配列データに含まれる各ァミノ酸残 基の間の空間上の距離を、 複合体構造生成—手段により生成した複合体の立体構 造情報に従って決定する空間距離決定手段である。 ここで、 空間距離決定部 3 1 0 2 bは、 図 5 4に示すように、 高速計算部 3 1 0 2 k、 構造データ利用計 算部 3 1 0 2 m, および、 シミュレーションデータ利用計算部 3 1 0 2 nを備 えて構成されている。 ここで、 高速計算部 3 1 0 2 kは、 高速計算手法により 空間距離を決定する高速計算手段である。 また、 構造データ利用計算部 3 1 0 2 mは、 構造データ利用計算手法により空間距離を決定する構造データ利用計 算手段である。 また、 シミュレーションデータ利用計算部 3 1 0 2 nは、 シミ ュレーシヨンデータ利用計算手法により空間距離を決定するシミュレーシヨン データ利用計算手段である。
また、 電荷決定部 3 1 0 2 cは、 アミノ酸配列データに含まれる各アミノ酸 残基が持つ電荷を決定する電荷決定手段、 複数のアミノ酸配列データに含まれ る各アミノ酸残基が持つ電荷を決定する電荷決定手段、 および、 目的のァミノ 酸配列データと結合候捕のァミノ酸配列データに含まれる各ァミノ酸残基が持 つ電荷を決定する電荷決定手段である。
また、 エネルギー計算部 3 1 0 2 dは、 空間距離決定手段により決定された 各ァミノ酸残基間の空間上の距離と、 電荷決定手段により決定された各ァミノ 酸残基が持つ電荷とに従って、 各アミノ酸残基のエネルギーを計算するェネル ギー計算手段である。 エネルギー計算部 3 1 0 2 dは、 図 5 5に示すように、 全エネルギー計算部 3 1 0 2 p、 および、 相互作用エネルギー計算部 3 1 0 2 qを備えて構成される。 ここで、 全エネルギー計算部 3 1 0 2 pは、 蛋白質の 全エネルギーを計算する全エネルギー計算手段である。 また、 相互作用ェネル ギー計算部 3 1 0 2 qは、 アミノ酸残基の相互作用エネルギーを計算する相互 作用エネルギー計算手段である。
また、 候捕アミノ酸残基決定部 3 1 0 2 eは、 エネルギー計算手段により計 算されたエネルギーに従って、 結合部位となる候捕アミノ酸残基を決定する候 補アミノ酸残基決定手段、 および、 エネルギー最小化手段によりエネルギーの 総和が最小となる結合部位を、 結合部位の候補アミノ酸残基として決定する候 補アミノ酸残基決定手段である。
また、 複合体構造生成部 3 1 0 2 ίは、 目的の複数の蛋白質または生理活性 ポリぺプチドの結合した複合体の立体構造情報を生成する複合体構造生成手段、 および、 目的の蛋白質または生理活性ポリペプチドと、 結合候補となる蛋白質 または生理活性ポリぺプチドの結合した複合体の立体構造情報を生成する複合 体構造生成手段である。
また、 エネルギー最小化部 3 1 0 2 gは、 複合体構造生成手段により複合体 について結合部位を変えて複合体の立体構造情報を生成し、 エネルギー計算手 段により各ァミノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小 となる結合部位を求めるエネルギー最小化手段である。
また、 結合候捕データ取得部 3 1 0 2 hは、 結合候補となる蛋白質のァミノ 酸配列データ等を取得する結合候補データ取得手段である。
また、 結合部位予測部 3 1 0 2 iは、 結合部位の候補アミノ酸残基から結合 部位のァミノ酸残基を予測する結合部位予測手段である。
また、 結合相手候補決定部 3 1 0 2 jは、 全ての結合候捕についてエネルギ 一最小化手段を実行した結果、 エネルギーの総和が最小となる結合部位をもつ 結合候補を決定する結合候補決定手段である。
これら各部によって行なわれる処理の詳細については、 後述する。
[システムの処理]
次に、 このように構成された本実施の形態における本システムの処理の一例 について、 以下に図 5 3〜図 7 1を参照して詳細に説明する。 図 5 9は、 本実施形態における本システムの処理の一例を示すフローチヤ一 トである。 図 5 9において、 点線で示す処理フローは本システムにより一つの 蛋白質の配列中における結合部位を予測する場合の処理フローを示し、 また、 二重線で示す処理フ口一は本システムにより相互作用することが既知である複 数の蛋白質のアミノ酸配列を用いて結合部位を予測する場合の処理フローを示 し、 さらに、 実線で示す処理フローは本システムにより目的蛋白質に対して最 も良く結合する相手側の候補蛋白質を予測する場合の処理フローを示す。 これ らの 3つの処理フローの基本的な考え方、 計算の処理のほとんどが共通である。 さらには、 相互作用情報を解析するという大目的については共通である。
[一つの蛋白質の配列中における結合部位を予測する場合の処理]
次に、 本システムにより一つの蛋白質の配列中における結合部位を予測する 場合の処理の詳細について図 5 9等を参照して説明する。 図 5 9の点線で示す 処理フローは、 本実施形態における本システムにより一つの蛋白質の配列中に おける結合部位を予測する場合の処理の一例を示すフローチャートである。 まず、 結合部位予測装置 3 1 0 0は、 ァミノ酸配列データ取得部 3 1 0 2 a の処理により、 G e n b a n kなどの外部システム 3 2 0 0の外部データべ一 スゃアミノ酸配列データベース 3 1 0 6 aなどにアクセスして、 目的の蛋白質 または生理活性ポリべプチドのアミノ酸配列データを取得する(ステップ S C 3 - 1 ) 。
そして、 結合部位予測装置 3 1 0 0は、 空間距離決定部 3 1 0 2 bの処理に より、 ステップ S C 3— 1により取得されたァミノ酸配列データに含まれる各 アミノ酸残基の間の空間上の距離を決定する (ステップ S C 3— 2 ) 。
ここで、 空間距離決定部 3 1 0 2 bは、 高速計算部 3 1 0 2 kの処理により 上述した高速計算手法により各アミノ酸残基の間の配列上の距離から空間上の 距離を決定してもよく、 また、 構造データ利用計算部 3 1 0 2 mの処理により 上述した構造データ利用計算手法により既知の構造データを用いて各アミノ酸 残基の間の空間上の距離を決定してもよく、 さらに、 シミュレーションデータ 利用計算部 3 1 0 2 ηの処理により上述したシミュレーシヨンデータ利用計算 手法により既存の構造シミュレーションプログラムの処理結果による予測構造 を用いて各アミノ酸残基の間の空間上の距離を決定してもよい。
ついで、 結合部位予測装置 3 1 00は、 電荷決定部 3 1 02 cの処理により、 ァミノ酸配列データに含まれる各ァミノ酸残基が持つ電荷を決定する (ステツ プ SC 3— 3)。 アミノ酸の電荷の決定方法も様々考えられる。 一般的には、 正に帯電している荷電性アミノ酸 (リジン、 アルギニン) を 1、 負に帯電して いる荷電性アミノ酸 (グルタミン酸、 ァスパラギン酸) を一 1、 それ以外は 0 とするような方法がある。 また、 得られた立体構造情報を基にして、 量子化学 計算で電荷を決定することもできる。 さらに、 実験的に各アミノ酸残基の電荷 に関する実験データが分かっている場合は、 それを反映することが好ましい。 ついで、 結合部位予測装置 3 1 00は、 エネルギー計算部 3 1 0 2 dの処理 により、 決定された各アミノ酸残基間の空間上の距離と、 各アミノ酸残基が持 つ電荷とに従って、 各アミノ酸残基のェネル'ギーを計算する (ステップ S C 3 -4) 。
ここで、 エネルギー計算には様々な手法があるが、 最も計算時間がかからな い方法である静電エネルギーを計算する方法について以下に説明する。
まず、 全エネルギー計算部 3 1 0 2 pの処理により、 以下の式により蛋白質 の全エネルギーを計算する。
E ttal = 1/2 Σ Σ ο^^Ζ r
( i、 jは全ァミノ酸残基の任意のァミノ酸残基番号、 i n o t j ) 本式において、 Ettalは蛋白質の全エネルギーであり、 はアミノ酸残基 iの部分電荷であり、 q」はアミノ酸残基 jの部分電荷であり、 r uはァミノ 酸残基 iとアミノ酸残基 j との空間上の距離である。 次に、 相互作用エネルギー計算部 3 1 0 2 qは、 特定のアミノ酸と蛋白質内 のそれ以外のアミノ酸残基との相互作用エネルギーを以下の式により計算する ことにより、 各アミノ酸残基が蛋白質の全エネルギーをどれくらい安定化して いるかを求める。
'
E interaction ( ) = Q N∑ Q j/ ^
L total 一 丄/ 2 1ι L interaction (Nノ ここで、 Nは任意のアミノ酸残基番号、 E interaction (N)はアミノ酸残基 Nと それ以外のアミノ酸残基との相互作用エネルギー、 jは N以外のアミノ酸残基 番号、 q Nはアミノ酸残基 Nの部分電荷、 d jはアミノ酸残基 jの部分電荷、 r はアミノ酸残基 Nとアミノ酸残基 j との空間上の距離を示す。 ここで全てのァ ミノ酸残基に対する相互作用エネルギーの総和の半分が蛋白質全体のエネルギ 一 E ttalに相当する。
そして、 結合部位予測装置 3 1 0 0は、 候補ァミノ酸残基決定部 3 1 0 2 e の処理により、 計算された相互作用エネルギーに従って、 結合部位となる候補 アミノ酸残基を決定する (ステップ S C 3— 5 ) 。 すなわち、 候補アミノ酸残 基決定部 3 1 0 2 eは、 相互作用エネルギーが相対的に高いアミノ酸残基や、 予め定めた閾値を超える相互作用エネルギーをもつアミノ酸残基を、 エネルギ 一的に不安定なアミノ酸残基として特定することにより、 結合部位となる候補 アミノ酸残基を決定する。
そして、 結合部位予測装置 3 1 0 0は、 結合部位予測部 3 1 0 2 iの処理に より、 候補アミノ酸残基のうち空間的、 または、 エネルギー的に結合部位とな らない候補を除去することにより、 結合部位を予測する。 例えば、 処理結果の 候補ァミノ酸残基のエネルギーなどの一例として図 6 0のような結果が得られ るとすると、 結合部位予測部 3 1 0 2 iは、 図 6 0の中で最もエネルギーの高 いグルタミン酸 (G L U) を一番の結合部位の候補として予測する。 また、 結 合部位予測部 3 1 0 2 iは、 例えば図 6 1に示すように立体構造上で不安定な 部分がクラスター化しているもの (黒で示したアミノ酸残基部分) が結合部位 である可能性が高レ、と予測する。
これにて、 本システムにより一つの蛋白質の配列中における結合部位を予測 する場合の処理が終了する。
[相互作用することが既知である複数の蛋白質のアミノ酸配列を用いて結合部 位を予測する場合の処理]
次に、 本システムにより相互作用することが既知である複数の蛋白質のアミ ノ酸配列を用いて結合部位を予測する場合の処理の詳細について図 5 9等を参 照して説明する。 図 5 9の二重線で示す処理フローは、 本実施形態における本 システムにより相互作用することが既知である複数の蛋白質のァミノ酸配列を 用いて結合部位を予測する場合の処理の一例を示すフローチャートである。 まず、 結合部位予測装置 3 1 0 0は、 アミノ酸配列データ取得部 3 1 0 2 a の処理により、 G e n b a n kなどの外部システム 3 2 0 0の外部データべ一 スゃアミノ酸配列データベース 3 1 0 6 aなどにアクセスして、 目的の蛋白質 または生理活性ポリペプチドのァミノ酸配列データを取得する(ステップ S C 3 - 1 ) 。
ついで、 結合部位予測装置 3 1 0 0は、 複合体構造生成部 3 1 0 2 f の処理 により、 目的の複数の蛋白質または生理活性ポリぺプチドの結合した複合体の 立体構造情報を生成する (ステップ S C 3— 7 ) 。 ここで、 図 6 2を用いて上 述したように、 複合体構造生成部 3 1 0 2 f は、 シミュレーションデータ利用 計算手法を用いることにより、 複合体の立体構造を予測してもよい。 また、 複 合体構造生成部 3 1 0 2 f は、 複合体の立体構造が既知である場合には、 複合 体の立体構造情報を取得してもよレ、。
また、 複合体構造生成部 3 .1 0 2 f は、 上述したように、 複数のァミノ酸配 列上で結合部位となるアミノ酸残基 (結合残基) を 定することにより、 実際 に複合体構造を生成することなく、 処理を進めることができる。 ここで、 図 5 7は、 複数のァミノ酸配列上で結合残基を仮定する場合の概念を示す図である。 図 5 7に示す例においては、 アミノ酸配列 Aの 5 0番目のアミノ酸残基と、 了 ミノ酸配列 Bの結合部位予測装置 1 0 0番目のァミノ酸残基とを結合残基と仮 定している。 ここで、 結合残基は、 上述した本発明の手法により各アミノ酸配 列にお!/、て結合部位であると予測されたァミノ酸残基を用いてもよい。
ついで、 結合部位予測装置 3 1 0 0は、 空間距離決定部 3 1 0 2 bの処理に より、 取得された複数のァミノ酸配列データに含まれる各ァミノ酸残基の間の 空間上の距離を、 複合体の立体構造情報に従って決定する (ステップ S C 3— 2 ) 。
ここで、 空間上の距離の決定手法には、 上述した 3つの手法を用いることが できるが、 複合体の立体構造が既知である場合や、 ドッキングシミュレーショ ンを行った際には、 空間距離決定部 3 1 0 2 bは、 アミノ酸残基間の空間上の 距離を正確に求めることができる。 以下に、 最も計算負荷が少なく効率的に計 算を行うことができる 1 ) 高速計算手法を用いた場合について説明する。
まず、 空間距離決定部 3 1 0 2 bは、 異なるアミノ酸配列上に存在する 2つ のァミノ酸残基間の配列上の距離を以下のように定義する。
(着目残基間の配列上の距離 d ) =
( I配列 A上の着目残基と結合残基の配列上の距離 i + I配列 B上の着目残基と結合残基の配列上の距離 i ) ここで、 図 5 8は、 着目残基の概念を説明する図である。 図 5 8に示すよう に、 2つのアミノ酸配列 (Aおよび B ) の結合残基と、 結合残基以外の任意の 着目残基を定義している。
ついで、 空間距離決定部 3 1 0 2 bは、 異なるァミノ酸配列上に存在する 2 つのアミノ酸残基間の配列上の距離 dから複合体の立体構造の空間上の距離 r を推定する。 r = k d n (0 < n< 1) ここで rは空間上の距離、 dは配列上の距離、 kは比例定数である。 ここで、 nは 0〜1である力 S、 好ましくは、 0. 5〜0. 6である。 また、 kは 2. 8 A〜4. 8 Aであるが、 好ましくは、 3. 3A〜4. 3Aである。
ついで、 結合部位予測装置 3100は、 電荷決定部 3102 cの処理により、 複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する (ステップ S C 3-3) 。
ついで、 結合部位予測装置 3100は、 エネルギー計算部 3102 dの処理 により、 ステップ SC 3— 2により決定された各ァミノ酸残基間の空間上の距 離と、 ステップ S C 3— 3により決定された各ァミノ酸残基が持つ電荷とに従 つて、 各アミノ酸残基のエネルギーを計算する (ステップ SC 3— 4) 。
そして、 結合部位予測装置 3100は、 候補ァミノ酸残基決定部 3102 e の処理により、 計算された相互作用エネルギーに従って、 結合部位となる候補 アミノ酸残基を決定する (ステップ SC 3— 5) 。
そして、 結合部位予測装置 3100は、 エネルギー最小化部 3102 gの処 理により、 ステップ SC 3— 7により複合体について結合部位を変えて複合体 の立体構造情報を生成し、 ステップ S C 3— 4により各ァミノ酸残基のェネル ギーを計算し、 当該エネルギーの総和が最小となる結合部位を求める (ステツ プ S C 3一 7からステップ S C 3— 5までの各ステップを適宜繰り返す) 。 そして、 結合部位予測装置 3100は、 候補アミノ酸残基決定部 3102 e の処理により、 最終的にエネルギーの総和が最小となる結合部位を、 結合部位 の候補アミノ酸残基として決定する (ステップ SC 3— 5) 。 ここで、 候補ァ ミノ酸残基決定部 3 102 eは、 蛋白質のエネルギーの総和をァミノ酸配列に よりプロットした図を作成して出力装置 31 14に出力してもよい。 図 63は、 蛋白質 Aと蛋白質 Bの各アミノ酸残基を結合残基とした場合のエネルギーの総 和をプロットした図の一例である。 このようにプロット図を作成することによ り、 2つのアミノ酸配列のどのアミノ酸残基を結合残基として選択するとエネ ルギ一の総和が少なくなるかを視覚的に把握することができるようになる。 これにて、 本システムにより相互作用することが既知である複数の蛋白質の アミノ酸配列を用いて結合部位を予測する場合の処理が終了する。
[目的蛋白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の 処理]
次に、 本システムにより目的蛋白質に対して最も良く結合する相手側の候補 蛋白質を予測する場合の処理の詳細について図 5 9等を参照して説明する。 図 5 9の実線で示す処理フローは、 本実施形態における本システムにより目的蛋 白質に対して最も良く結合する相手側の候補蛋白質を予測する場合の処理の一 例を示すフローチャートである。 ·
まず、 結合部位予測装置 3 1 0 0は、 アミノ酸配列データ取得部 3 1 0 2 a の処理により、 G e n b a n kなどの外部システム 3 2 0 0の外部データべ一 スゃアミノ酸配列データベース 3 1 0 6 aなどにアクセスして、 目的の蛋白質 または生理活性ポリぺプチドのァミノ酸配列データを取得する(ステップ S C 3— 1 ) 。 また、 結合部位予測装置 3 1 0 0は、 結合候補データ取得部 3 1 0 2 hの処理により、 G e n b a n kなどの外部システム 3 2 0 0の外部データ ベースやアミノ酸配列データベース 3 1 0 6 aなどにアクセスして、 目的の蛋 白質の結合候補となる 1つまたは複数の蛋白質または生理活性ポリぺプチドの アミノ酸配列データを取得する (ステップ S C 3— 6 ) 。
ついで、 結合部位予測装置 3 1 0 0は、 複合体構造生成部 3 1 0 2 f の処理 により、 目的の蛋白質または生理活性ポリペプチドと、 結合候補となる蛋白質 または生理活性ポリぺプチドとが結合した複合体の立体構造情報を生成する (ステップ S C 3— 7 ) 。
ついで、 結合部位予測装置 3 1 0 0は、 空間距離決定部 3 1 0 2 bの処理に より、 ステップ S C 3— 1より取得された目的のアミノ酸配列データと、 ステ ップ S C 3— 6により取得された結合候捕のァミノ酸配列データとに含まれる 各ァミノ酸残基の間の空間上の距離を、 ステップ SC 3— 7により生成した複 合体の立体構造情報に従って決定する (ステップ SC 3— 2) 。
ついで、 結合部位予測装置 3100は、 電荷決定部 3102 cの処理により、 目的のァミノ酸配列データと結合候補のァミノ酸配列データに含まれる各アミ ノ酸残基が持つ電荷を決定する (ステップ SC 3— 3) 。
ついで、 結合部位予測装置 3100は、 エネルギー計算部 3102 dの処理 により、 ステップ SC 3— 2により決定された各ァミノ酸残基間の空間上の距 離と、 ステップ SC 3— 3より決定された各ァミノ酸残基が持つ電荷とに従つ て、 各アミノ酸残基のエネルギーを計算する (ステップ S C 3-4) 。
ついで、 結合部位予測装置 3100は、 エネルギー最小化部 3102 gの処 理により、 ステップ SC 3— 7により複合体について結合部位を変えて複合体 の立体構造情報を生成し、 ステップ S C 3— 4により各アミノ酸残基のェネル ギーを計算し、 当該エネルギーの総和が最小となる結合部位を求める (ステツ プ S C 3— 7からステップ S C 3— 5までを適宜繰り返す) 。
ついで、 結合部位予測装置 3100は、 候補アミノ酸残基決定部 1 02 e の処理により、 全ての結合候補についてステップ SC 3— 6からステップ S C 3-5を繰り返して、 エネルギー最小化処理を実行した結果、 エネルギーの総 和が最小となる結合部位をもつ結合候補を決定する (ステップ S C 3— 8 ) 。 これにて、 本システムにより目的蛋白質に対して最も良く結合する相手側の 候補蛋白質を予測する場合の処理が終了する。
[本発明の実施例]
次に本発明の実施例の詳細を図 64〜図 71を参照して説明する。
[本発明の実施例 1 ; リボヌクレアーゼ A]
次に、 本発明の実施例 1の詳細について図 64〜図 66等を参照して説明す る。 実施例 1は単体の蛋白質の結合部位予測に関する。 加水分解酵素であるリポヌクレアーゼ Aは実験的に良く調べられている蛋白 質である。 リボヌクレアーゼ Aは、 そのインヒビターとの複合体の構造が分か つているので、 アミノ酸配列上で結合部位が特定されている。
まず、 リボヌクレアーゼ Aのアミノ酸配列データを蛋白質シークェンスデー タベース G e n b a n kから取得した。
そして、 リボヌクレアーゼ Aのァミノ酸配列データからァミノ酸の距離情報 を以下の方法により推測した。 まず、 P D B ( P r o t e i n D a t a B a n k ) に登録されている全ての蛋白質、 または、 ポリペプチドの立体構造情 報から、 アミノ酸の種類ごとに配列上の距離と空間上の距離との関連性を求め た。 例えば、 図 6 4は 2つのグルタミン酸の配列上の距離と空間上の距離との 関係を示す図である。 図 6 4に示すように、 例えば、 グルタミン酸とダルタミ ン酸が配列上 2 0残基離れていた時の空間距離の平均は 2 0 Aであるというこ とが既知の統計学的手法により分かる。 以上のようにして、 アミノ酸残基間の 配列上の距離と空間上の距離との関連を示す情報を得た。
そして、 アミノ酸の電荷を決定した。 ここではグルタミン酸、 ァスパラギン 酸を _ 1、 アルギニン、 リジン、 ヒスチジンを + 1、 その他は 0というように ァミノ酸残基ごとに電荷を割り当てた。
そして、 各ァミノ酸残基の相互作用エネルギーを以下のように計算した。 E interaction (K) = q K∑ q j/ r
(ここで、 Kはァミノ酸残基番号、 E lnteraotIon (K)はァミノ酸残基 Kとそれ以外 との相互作用エネルギー、 jは K以外の任意のアミノ酸残基、 rはアミノ酸 残基 Kとァミノ酸残基 j との空間上の距離)
そして、 上式によってリボヌクレアーゼ Aのアミノ酸残基ごとのエネルギー を計算し、 リボヌクレアーゼ Aの各アミノ酸残基のエネルギーをアミノ酸残基 番号に対してプロットした。 図 65は、 リポヌクレアーゼ Aの各アミノ酸残基 のエネルギーをアミノ酸残基番号に対してプロットした図である。
そして、 リボヌクレアーゼ Aのアミノ酸残基のエネルギーが 0以上のものを 結合部位候補として表にまとめた (図 66 ) 。 図 66に示すように結合部位候 捕 18個のうち、 実際の結合部位 (実験的に求められた結合部位) は 1 2個だ つた。 このように、 本発明により、 リポヌクレアーゼ Aのアミノ酸配列情報だ けを用いて、 非常に高精度で、 かつ、 高速に結合部位を予測することができた。 これにて、 本発明の実施例 1が終了する。
[本発明の実施例 2 ;ァセチルコリン ·エステラーゼ ·ィンヒビター] 次に、 本発明の実施例 2の詳細について図 67〜図 69等を参照して説明す る。 実施例 2も単体の蛋白質の結合部位予測に関する。
実施例 2では、 ァセチルコリン ·エステラーゼ ·ィンヒビターのアミノ酸配 列を基にして、 結合部位を推定した。 ここでは立体構造予測をするのではなく、 PDBに含まれる既存の立体構造情報データを利用した。
図 67は、 PDBに格納されたアセチルコリン 'エステラーゼ 'インヒビタ 一の立体構造情報データの一部を示す図である。 図 67の 2列目からそれぞれ 原子番号、 原子種、 c h a i n名、 アミノ酸残基番号、 X座標、 Y座標、 Z座 標を示している。
例えばァミノ酸残基番号 Iとァミノ酸残基番号 Jとの空間上の距離 R„は、 アミノ酸残基番号 Iの重心や特定の主鎖の原子などの座標を (χ Υΐ)
Ζ Χ) とし、 アミノ酸残基番号 Jの重心や特定の主鎖の原子などの座標を (Xj, yJ; Z j) とすると、 以下のように計算することができる。
Ri; 2 = ( Xl - Xj ) 2 + ( yx - y j ) 2
+ ( z: - z j ) 2
(ここで、 R u > 0 ) 具体的に説明すると、 図 6 7に示すァミノ酸残基番号 4のグルタミン酸と、 ァミノ酸残基番号 5のァスパラギン酸との空間上の距離を カーボンの原子間 の距離によって計算すると、 以下のようになる。
R 45 (3 2. 6 6 4 一 3 6. 2 7 9) 2
+ (8. 4 5 1 一 7. 1 9 6) 2
+ (20 5. 54 2 - 2 0 5. 8 0 8)
= 1 4. 7 1 4
■^45 — 3. 8 3 5 8 8 4 また、 図 6 8は本発明により求めたァセチルコリン ·エステラーゼ .インヒ ビターのエネルギーを示す図である。 図 6 8からァセチルコリン ·エステラー ゼ 'インヒビターのエネルギーが 0以上のもの 1 0個を結合部位候 として取 り出し、 実際に結合部位かどうかを実験的に調べると、 その内に 7個は実際に 結合部位であった (図 6 9) 。
以上のように極めて高精度に結合部位を予測することができる。 実施例 2で は既知の立体構造情報を利用した点が実施例 1とは異なる点である。 つまり、 実施例 1と実施例 2では空間距離の決定手法を変えているが、 いずれも良好な 結果を与えたことから、 どのような空間距離の決定手法を使っても、 本発明の 効果が期待できると考えられる。
これにて、 本発明の実施例 2が終了する。
[本発明の実施例 3 ; 「h u n t i n g t i n— a s s o c i t a t e d p r o t e l n i n t e r a c t i n g p r o t e i n」 と、 「n i t r i c o x i d e s y n t h a s e 2A」 との複合体]
次に、 本発明の実施例 3の詳細について図 70等を参照して説明する。 実施 例 3は 2つの蛋白質が結合する時の結合部位予測に関する。 「h u n t i n g n a s s o c i t a t e d p r o t e n n t e r a c t i n g p r o t e i n」 は、 「 n i t r i c o i d e s y n t h a s e 2 AJ と結合することが実験的に分かっている。 更に、 結合部位は 「hun t i n g t i n— a s s o c i t a t e d r o t e i n i n t e r a c t i n g p r o t e i n」 はァミノ酸残基番号 600付近であり、 「 n i t r i c o x i d e s y n t h a s e 2AJ はァミノ酸残基番号 100付近で あることが分かっている。
ここで、 本実施例においても実施例 1と同様にして配列情報の獲得、 立体構 造の予測、 電荷の決定を行った。 ただし、 アミノ酸間の配列上の距離から空間 的な距離に変換する方法は、 蛋白質がガウス鎖をとると仮定し、 配列上の距離 と空間上の距離とを以下の式で関係づけた。
3. 8 d ここで rは空間上の距離、 dは配列上の距離である。
また、 複合体構造生成は上述した高速計算手法を使った。 つまり、 次式を用 いた。
(空間上の距離) = k ( I A上の着目残基と結合残基の配列上の距離 I
+ I B上の着目残基と結合残基の配列上の距離 I ) n そして、 それぞれの結合部位を仮定した複合体のエネルギーを計算し、 図 7 0を作成することができた。 ここで、 図 70は横軸に、 h u n t i n g t i n — a s s o c i t a t e d p r o t e i n i n t e r a c t i n g p r o t e i nの結合部位のァミノ酸残基番号をとり、 縦軸に n i t r i c o x i d e s y n t h a s e 2 Aの結合部位のァミノ酸残基番号をとり、 各結 合部位で複合体を生成したときのエネルギーの総和を等高線表示したものであ る。 図 70によ ま、、 列えば、 hun t i n g t i n-a s s o c i t a t e d p r o t e i n i n t e r a c t i n g p r o t e i nのァミノ酉残 5 00番と、 n i t r i c o x i d e s yn t h a s e 2 Aのアミノ酸残 基 150番とが結合部位の場合の複合体のエネルギーは一 10といゔように、 結合部位ごとのエネルギーが求められる。
図 70に示すように、 エネルギーの極小部は 2つあり、 1つは hun t i n g t i n— a s s o c ι t a t e d p r o t e i n i n t e r a c t i n g p r o t e i nの結合部位がアミノ酸残基 600〜950付近で、 n i t r i c o x i d e s y t h a s e 2 Aの結合部位がァミノ酸残基 25 〜: L 00付近で結合した場合であり、 もう 1つは h un t i n g t i n— a s s o c i t a t e d r o t e i n i n t e r a c t i n g p r o t e i nの結合部位がアミノ酸残基 650〜900付近で、 n i t r i c o x i d e s y n t h a s e 2 Aの結合部位がアミノ酸残基 475〜 500付近 で結合した場合である。
ここで、 前者が実際の結合部位に対応している (図中の黒丸で囲んだ部分) 。 以上のように、 2つの蛋白質の結合部位を正確に予測することができた。
これにて、 本発明の実施例 3が終了する。
[本発明の実方 fri列 4 ; E 2 F t r a n s c r i p t i o n f a c t o r 1]
次に、 本発明の実施例 4の詳細について図 71等を参照して説明する。
実施例 4は結合相手予測に関する。 E2F t r a n s c r i p t i o n f a c t o r 1 (以下、 E 2 F 1) は相互作用相手に関する情報が実験的に 良く調べられている蛋白質である。
ここで、 E 2 F 1と相互作用する相手を Ho mo S a p i e n sの遺伝子 のデータベース (ここでは無作為に 6600個を抽出した) カゝら探し、 候補蛋 白質のァミノ酸配列データとした。 そして、 実施例 3で計算した手順と同様に、 相手の候補蛋白質ごとに E 2 F 1との結合部位を探す。 そして、 最もエネルギーが安定 (最小) になった時の エネルギーを相互作用エネルギーとする。 図 7 1は各候補蛋白質の相互作用ェ ネルギ一と遺伝子の数のヒストグラムである。
図 7 1に示したように、 相対的な相互作用エネルギーを計算することができ た。 例えば、 相互作用エネルギーが 9 0よりも大きい (エネルギーがー 9 0よ りも小さレ、) ものは 1 0 0個あるが、 ここにあるものが相互作用相手である可 能性が高い。 この方法は非常に高速で、 相互作用を網羅的に計算することがで さる。
これにて、 本発明の実施例 4が終了する。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述し た実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内に おいて種々の異なる実施の形態にて実施されてよいものである。
例えば、 結合部位予測装置 3 1 0 0がスタンドアローンの形態で処理を行う 場合を一例に説明したが、 結合部位予測装置 3 1 0 0とは別筐体で構成される クライアント端末からの要求に応じて処理を行い、 その処理結果を当該クライ アント端末に返却するように構成してもよい。
また、 実施形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手 動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自 動的に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各 種の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 結合部位予測装置 3 1 0 0に関して、 図示の各構成要素は機能概念的 なものであり、 必ずしも物理的に図示の如く構成されていることを要しない。 例えば、 結合部位予測装置 3100の各部または各装置が備える処理機能、 特に制御部 3 102にて行なわれる各処理機能については、 その全部または任 意の一部を、 CPU (C e n t r a l P r o c e s s i n g Un i t) お よび当該 C P uにて角爭釈実行されるプログラムにて実現することができ、 ある いは、 ワイヤードロジックによるハードウェアとして実現することも可能であ る。 なお、 プログラムは、 後述する記録媒体に記録されており、 必要に応じて 結合部位予測装置 3100に機械的に読み取られる。
すなわち、 ROMまたは HDなどの記憶部 3106などには、 〇S (O e r a t i n g S y s t em) と協働して C P Uに命令を与え、 各種処理を行 うためのコンピュータプログラムが記録されている。 このコンピュータプログ ラムは、 RAM等にロードされることによって実行され、 CPUと協働して制 御部 3102を構成する。 また、 このコンピュータプログラムは、 結合部位予 測装置 3 100に対して任意のネットワーク 3300を介して接続されたァプ リケーシヨンプログラムサーバに記録されてもよく、 必要に応じてその全部ま たは一部をダウンロードすることも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体 に格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディ スク、 光磁気ディスク、 ROM、 E PROM, EE PROM, CD-ROM, MO、 DVD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステム に内蔵される ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるい は、 LAN, WAN, インターネットに代表されるネットワークを介してプロ グラムを送信する場合の通信回線や搬送波のように、 短期にプログラムを保持 する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処 理方法であり、 ソースコードゃバイナリコード等の形式を問わない。 なお、
「プログラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュ ールゃライブラリとして分散構成されるものや、 OS (Op e r a t i n g S y s t em) に代表される別個のプログラムと協働してその機能を達成する ものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取る ための具体的な構成、 読み取り手順、 あるいは、 読み取り後のインストール手 順等については、 周知の構成や手順を用いることができる。
記憶部 3106に格納される各種のデータベース等 (アミノ酸配列データべ ース 3106 a〜処理結果ファイル 3106 g) は、 RAM、 ROM等のメモ リ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光デ イスク等のストレージ手段であり、 各種処理やウェブサイト提供に用いる各種 のプログラムゃテーブルやフアイノレゃデータベースゃゥェブベージ用ファイル 等を格納する。
また、 結合部位予測装置 3 100は、 既知のパーソナルコンピュータ、 ヮー クステーション等の情報処理端末等の情報処理装置にプリンタゃモニタゃィメ ージスキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法を実現さ せるソフトウェア (プログラム、 データ等を含む) を実装することにより実現 さらに、 結合部位予測装置 3100の分散 ·統合の具体的形態は図示のもの に限られず、 その全部または一部を、 各種の負荷等に応じた任意の単位で、 機 能的または物理的に分散,統合して構成することができる。 例えば、 各データ ベースを独立したデータベース装置として独立に構成してもよく、 また、 処理 の一咅 |5¾rC G I (C o mm o n Ga t ewa y I n t e r f a c e) を用 いて実現してもよい。
また、 ネットワーク 3300は、 結合部位予測装置 3100と外部システム 3200とを相互に接続する機能を有し、 例えば、 ィンターネットゃ、 イント ラネットや、 丄 AN (有線/無線の双方を含む) や、 VANや、 パソコン通信 網や、 公衆電話網 (アナログノデジタルの双方を含む) や、 専用回線網 (アナ ログ/デジタルの双方を含む) や、 CATV網や、 I MT 2000方式、 G S M方式または PDC/PDC— P方式等の携帯回線交換網 Z携帯パケット交換 網や、 無線呼出網や、 B 1 u e t o o t h等の局所無線網や、 P H S網や、 C S、 B Sまたは I S D B等の衛星通信網等のうちいずれかを含んでもよい。 す なわち、 本システムは、 有線 ·無線を問わず任意のネットワークを介して、 各 種データを送受信することができる。
以上詳細に説明したように、 本発明によれば、 蛋白質または生理活性ポリぺ プチドのアミノ酸配列データから当該蛋白質または生理活性ポリべプチドの立 体構造における各アミノ酸残基間の空間上の距離データを求め、 当該距離デー タと各ァミノ酸の電荷に従って静電的に不安定なァミノ酸残基を特定すること により結合部位を予測するので、 蛋白質または生理活性ポリぺプチドのァミノ 酸配列から静電的に不安定になりそうなァミノ酸残基が結合部位になりやすい ことを利用して、 高速かつ高精度に結合部位を予測することができる結合部位 予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体を提供すること ができる。
また、 本発明によれば、 目的の蛋白質または生理活性ポリペプチドのァミノ 酸配列データを取得し、 取得されたァミノ酸配列データに含まれる各アミノ酸 残基の間の空間上の距離を決定し、 アミノ酸配列データに含まれる各アミノ酸 残基が持つ電荷を決定し、 決定された各アミノ酸残基間の空間上の距離と、 決 定された各ァミノ酸残基が持つ電荷とに従って、 各ァミノ酸残基のエネルギー を計算し、 計算されたエネルギーに従って、 結合部位となる候補アミノ酸残基 を決定するので、 蛋白質または生理活性ポリべプチドのァミノ酸配列から静電 的に不安定になりそうなアミノ酸残基が結合部位になりやすいことを利用して、 高速かつ高精度に結合部位を予測することができる結合部位予測装置、 結合部 位予測方法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 目的の複数の蛋白質または生理活性ポリペプチドの ァミノ酸配列データを取得し、 目的の複数の蛋白質または生理活性ポリぺプチ ドの結合した複合体の立体構造情報を生成し、 取得された複数のアミノ酸配列 データに含まれる各アミノ酸残基の間の空間上の距離を、 生成した複合体の立 W
121 体構造情報に従って決定し、 複数のアミノ酸配列データに含まれる各アミノ酸 残基が持つ電荷を決定し、 決定された各アミノ酸残基間の空間上の距離と、 決 定された各ァミノ酸残基が持つ電荷とに従って、 各ァミノ酸残基のエネルギー を計算し、 複合体について結合部位を変えて複合体の立体構造情報を生成し、 各ァミノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結 合部位を求め、 エネルギーの総和が最小となる結合部位を、 結合部位の候補ァ ミノ酸残基として決定するので、 蛋白質または生理活性ポリぺプチドのァミノ 酸配列から静電的に不安定になりそうなァミノ酸残基が結合部位になりやすい ことを利用して、 高速かつ高精度に結合部位を予測することができる結合部位 予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体を提供すること ができる。
さらに、 本発明によれば、 目的の蛋白質または生理活性ポリペプチドのアミ ノ酸配列データと、 結合候補となる 1つまたは複数の蛋白質または生理活性ポ リぺプチドのァミノ酸配列データとを取得し、 目的の蛋白質または生理活性ポ リペプチドと、 結合候補となる蛋白質または生理活性ポリペプチドとが結合し た複合体の立体構造情報を生成し、 取得された目的のアミノ酸配列データと結 合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の距離を、 生成した複合体の立体構造情報に従って決定し、 目的のアミノ酸配列データと 結合候補のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定し、 決定された各アミノ酸残基間の空間上の距離と、 決定された各アミノ酸残基が 持つ電荷とに従って、 各アミノ酸残基のエネルギーを計算し、 複合体について 結合部位を変えて複合体の立体構造情報を生成し、 各アミノ酸残基のエネルギ 一を計算し、 当該エネルギーの総和が最小となる結合部位を求め、 全ての結合 候補についてエネルギー最小化処理を実行した結果、 エネルギーの総和が最小 となる結合部位をもつ結合候補を決定するので、 蛋白質または生理活性ポリべ プチドのァミノ酸配列から静電的に不安定になりそうなアミノ酸残基が結合部 位になりやすいことを利用して、 高速かつ高精度に最適な結合候補の蛋白質を 予測することができる結合部位予測装置、 結合部位予測方法、 プログラム、 お よび、 記録媒体を提供することができる。
(V) また、 以下に、 本発明にかかるタンパク質構造最適化装置、 タンパク質 構造最適化方法、 プログラム、 および、 記録媒体の実施の形態を図面に基づい て詳細に説明する。 なお、 この実施の形態によりこの発明が限定されるもので はない。
特に、 以下の実施の形態においては、 本発明を、 富士通 (会社名) の 「MO PAC 2000 v e r. 1. 0」 (製品名) に適用した例について説明する 、 この場合に限られず、 他のプログラムを用いても同様に適用することがで きる。
[本発明の概要]
以下、 本発明の概要について説明し、 その後、 本発明の構成おょぴ処理等に ついて詳細に説明する。 図 72は本発明の基本原理を示すフローチャートであ る。
本発明は、 概略的に、 以下の基本的特徴を有する。 まず、 本発明は、 タンパ ク質の座標データを取得する (ステップ S A 4— 1) 。 ここで、 取得するタン パク質の座標データは、 例えば、 X線結晶解析により求めた座標データに既知 のモデリングソフト (例えば、 Ac c e l r y s I n c. (会社名) の 「W e b L a b V i e e r P r o 4. 2」 (製品名) や 「 I n s i g h t I I」 (製品名) (www. a c c e l r y s. c om) N Tr i p o s, I n c . (会社名) の 「SYBYL 6. 7」 (製品名) (www. t r i p o s . c om) 、 C amb r i d g e S o i t C o r p o r a t i o n (会社 名)の 「Ch em3D 7. 0」 (製品名) (www. c am s o f t, c o m) など) を用いて水素を付加したものや、 また、 PDB (P r o t e i n D e t a B a s e) などの既知の蛋白構造データベースに登録された座標デ ータなど、 あらゆるタンパク質の座標データを用いてもよい。 そして、 本発明は、 タンパク質の座標データについて、 特定のアミノ酸残基 iから所定の距離 (例えば、 rA) 内に含まれる近傍アミノ酸残基群の座標を 抽出する (ステップ SA4— 2) 。 すなわち、 アミノ酸残基 iに含まれる全原 子から所定の距離内に存在する原子を含むアミノ酸残基の群が近傍アミノ酸残 基群であり、 この近傍アミノ酸残基群に含まれる全原子座標を抽出する。 抽出 した近傍アミノ酸残基群の中にシスティン (CYS) が含まれており、 それが 別のシスティン (CYS) とジスルフィド結合をしている場合には、 その別の C Y Sも近傍アミノ酸残基群に加えてもよい。
ステップ SA4— 2の操作で機械的に座標を切り取つた場合、 その切り口が ラジカルとなり計算に不都合が生じる。 これを解消するために、 本発明は、 近 傍アミノ酸残基群の切り口の部分にキャップ用置換基 (例えば水素原子 (H) またはメチノレ基 (CH3) を付加する (ステップ S A4— 3) 。
そして、 本発明は、 キャップ用置換基が付加された近傍アミノ酸残基群の全 体の電荷を計算する (ステップ SA4— 4) 。 電荷計算は、 既知のあらゆる電 荷計算手法を用いてもよいが、 例えば、 塩基性アミノ酸残基数から酸性アミノ 酸残基数を減算することにより高速に計算することもできる。
そして、 本発明は、 キャップ用置換基が付カ卩された近傍アミノ酸残基群につ レ、て、 電荷を用いて、 特定のアミノ酸残基 iの原子座標について既知の分子軌 道計算プログラム (例えば、 「MOPAC 2000 v e r. 1. 0」 (製品 名) などの半経験的分子軌道計算プログラム) などを用いて構造最適化を実行 する (ステップ SA4— 5) 。
そして、 本発明は、 最適化された原子座標を、 初期のタンパク質の座標デー タ上の対応する原子座標と置換する (ステップ SA4— 6) 。
そして、 本発明は、 全てのアミノ酸残基 iについてステップ SA4— 2から ステップ SA4— 6を適用し (1番目のアミノ酸残基から最後のアミノ酸残基 まで iをインクリメントしてループ処理を行う。 ) 、 全てのアミノ酸残基につ いて最適化を実行する (ステップ SA4— 7) 。 そして、 本発明は、 ステップ S A 4— 7において得られた構造データを初期 構造として、 ステップ S A 4— 1からステップ S A 4— 7を複数回 (n回) 実 行することにより、 更に構造最適化の精度を上げることができる (ステップ S A 4 - 8 ) 。
[システム構成]
まず、.本システムの構成について説明する。 図 7 3は、 本発明が適用される 本システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係 する部分のみを概念的に示している。 本システムは、 概略的に、 タンパク質構 造最適化装置 4 1 0 0と、 タンパク質構造情報等に関する外部データベースや ホモロジ一検索等の外部プログラム等を提供する外部システム 4 2 0 0とを、 ネットワーク 4 3 0 0を介して通信可能に接続して構成されている。
図 7 3においてネットワーク 4 3 0 0は、 タンパク質構造最適化装置 4 1 0 0と外部システム 4 2 0 0とを相互に接続する機能を有し、 例えば、 インター ネット等である。
図 7 3において外部システム 4 2 0 0は、 ネットワーク 4 3 0 0を介して、 タンパク質構造最適化装置 4 1 0 0と相互に接続され、 利用者に対してタンパ ク質構造情報等に関する外部データベースゃホモロジ一検索やモチーフ検索等 の外部プログラムを実行するウェブサイトを提供する機能を有する。
ここで、 外部システム 4 2 0 0は、 WE Bサーバや A S Pサーバ等として構 成してもよく、 そのハードウェア構成は、 一般に市販されるワークステーショ ン、 パーソナルコンビユータ等の情報処理装置およびその付属装置により構成 してもよレ、。 また、 外部システム 4 2 0 0の各機能は、 外部システム 4 2 0 0 'のハードウエア構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力 装置、 通信制御装置等およびそれらを制御するプログラム等により実現される。 図 7 3においてタンパク質構造最適化装置 4 1 0 0は、 概略的に、 タンパク 質構造最適化装置 4 1 0 0の全体を統括的に制御する C P U等の制御部 4 1 0 2、 通信回線等に接続されるルータ等の通信装置 (図示せず) に接続される通 信制御インターフェース部 4 1 0 4、 入力装置 4 1 1 2や出力装置 4 1 1 4に 接続される入出力制御インターフェース部 4 1 0 8、 および、 各種のデータべ ースゃテーブルなどを格納する記憶部 4 1 0 6を備えて構成されており、 これ ら各部は任意の通信路を介して通信可能に接続されている。 さらに、 このタン パク質構造最適化装置 4 1 0 0は、 ルータ等の通信装置および専用線等の有線 または無線の通信回線を介して、 ネットワーク 4 3 0 0に通信可能に接続され ている。
記憶部 4 1 0 6に格納される各種のデータベースやテーブルなど (タンパク 質構造情報データベース 4 1 0 6 aおよび処理結果ファイル 4 1 0 6 b ) は、 固定ディスク装置等のストレージ手段であり、 各種処理に用いる各種のプログ ラムゃテーブルゃファィルゃデータベースやウェブページ用フアイル等を格納 する。
これら記憶部 4 1 0 6の各構成要素のうち、 タンパク質構造情報データべ一 ス 4 1 0 6 aは、 タンパク質の立体構造の座標データ等を格納した座標データ 格納手段である。 タンパク質構造情報データベース 4 1 0 6 aは、 ィンターネ ットを経由してアクセスする P D Bなどの外部のデータベースであってもよく、 また、 これらのデータベースをコピーしたり、 オリジナルの情報を格納したり、 さらに独自のァノテーシヨン情報等を付加したりして作成したインハウスデー タベースであってもよい。
また、 処理結果ファイル 4 1 0 6 bは、 タンパク質構造最適化装置 4 1 0 0 の制御部 4 1 0 2の各処理による処理結果に関する情報等を格納する処理結果 格納手段である。
また、 図 7 3において、 通信制御インターフェース部 4 1 0 4は、 タンパク 質構造最適化装置 4 1 0 0とネットワーク 4 3 0 0 (またはルータ等の通信装 置) との間における通信制御を行う。 すなわち、 通信制御インターフェース部 4 1 0 4は、 他の端末と通信回線を介してデータを通信する機能を有する。 また、 図 7 3において、 入出力制御インターフェース部 4 1 0 8は、 入力装 置 4 1 1 2や出力装置 4 1 1 4の制御を行う。 ここで、 出力装置 4 1 1 4とし ては、 モニタ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下においては出力装置 4 1 1 4をモニタとして記載する場合があ る) 。 また、 入力装置 4 1 1 2としては、 キーボード、 マウス、 および、 マイ ク等を用いることができる。 また、 モニタも、 マウスと協働してポインティン グデバイス機能を実現する。
また、 図 7 3において、 制御部 4 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および所要データを格納するための内部メモリを有し、 これらのプログラム等 により、 種々の処理を実行するための情報処理を行う。 制御部 4 1 0 2は、 機 能概念的に、 座標データ取得部 4 1 0 2 a , 近傍アミノ酸残基群抽出部 4 1 0 2 b、 キヤップ付加部 4 1 0 2 c、 電荷計算部 4 1 0 2 d、 構造最適化部 4 1 0 2 e、 および、 原子座標置換部 4 1 0 2 f を備えて構成されている。
このうち、 座標データ取得部 4 1 0 2 aは、 タンパク質の座標データを取得 する座標データ取得手段である。 また、 近傍アミノ酸残基群抽出部 4 1 0 2 b は、 タンパク質の座標データについて、 特定のアミノ酸残基から所定の距離内 に含まれる近傍アミノ酸残基群の座標を抽出する近傍アミノ酸残基群抽出手段 である。 また、 キヤップ付加部 4 1 0 2 cは、 近傍ァミノ酸残基群の切り口の 部分にキャップ用置換基を付加するキャップ付加手段である。 また、 電荷計算 部 4 1 0 2 dは、 キヤップ付加手段により上記キヤップ用置換基が付カ卩された 上記近傍アミノ酸残基群の全体の電荷を計算する電荷計算手段である。 また、 構造最適化部 4 1 0 2 eは、 キヤップ付加手段により上記キヤップ用置換基が 付加された上記近傍ァミノ酸残基群について、 上記電荷計算手段により計算さ れた上記電荷を用いて上記特定のアミノ酸残基の原子座標について構造最適化 を実行する構造最適化手段である。 また、 原子座標置換部 4 1 0 2 f は、 構造 最適化手段にて最適化された上記原子座標を、 上記タンパク質の座標データ上 の対応する原子座標と置換する原子座標置換手段である。 なお、 これら各部に よって行なわれる処理の詳細については、 後述する。
[システムの処理]
次に、 このように構成された本実施の形態における本システムの処理の一例 について、 以下に図 74〜図 90を参照して詳細に説明する。
[メィン処理] .
まず、 メイン処理の詳細について図 74を参照して説明する。 図 74は、 本 実施形態における本システムのメイン処理の一例を示すフローチャートである。 タンパク質構造最適化装置 4100は、 座標データ取得部 4102 aの処理 により、 タンパク質構造情報データベース 4106 aや外部システム 4200 の外部データベースから所望のタンパク質の座標データを取得する (ステップ S B 4 - 1 ) 0 ここで、 取得するタンパク質の座標データは、 例えば、 X線結 晶解析により求めた座標データに既知のモデリングソフト (例えば、 A c c e 1 r y s I n c. (会社名) の 「We b L a b V i ewe r P r o 4. 2」 (製品名) や 「 I n s i g h t I I」 (製品名) (www. a c c e 1 r y s . c om) 、 T r i p o s, I n c. (会社名) の 「 S Y B Y L 6. 7 J (製品名) (www. t r i p o s . c om) 、 C amb r i d g e S o f t Co r p o r a t i o n (会社名)の 「Ch em3D 7. 0J (製品 名) (www. c am s o f t. c om) など) を用いて水素を付加したもの や、 また、 PDB (P r o t e i n D e t a B a n k) などの既知の蛋白 構造データベースに登録された座標データなど、 あらゆるタンパク質の座標デ ータを用いてもよい。
ここで、 図 75は、 タンパク質の座標データの一例を示す図である。 図 75 に示す例では、 PDB形式の座標データを用いており、 また、 X線結晶角军析で 求めた構造情報に市販のプログラムにより水素を付カ卩している。
再ぴ図 74に戻り、 タンパク質構造最適化装置 4100は、 制御部 4102 の処理により、 処理回数を表すカウンター n (初期値は 0) に 1を加算する (ステップ S B 4— 2) 。
また、 タンパク質構造最適化装置 4100は、 制御部 4102の処理により、 アミノ酸残基番号を表すカウンター i (初期値は 0) に 1を加算する (ステツ プ SB 4— 3) 。
そして、 タンパク質構造最適化装置 4100は、 近傍ァミノ酸残基群抽出部 4102 bの処理により、 処理対象のタンパク質の座標データについて、 特定 のアミノ酸残基 iから所定の距離 (例えば、 rA) 内に含まれる近傍アミノ酸 残基群の座標を抽出する (ステップ SB4— 4) 。 すなわち、 アミノ酸残基 i に含まれる全ての原子 jから所定の距離内に存在する原子 1を含むアミノ酸残 基 k (k≠ i) の群が近傍アミノ酸残基群であり、 この近傍アミノ酸残基群に 含まれる全ての原子 mの座標を抽出する。
また、 抽出した近傍アミノ酸残基群の中にシスティン (CYS) が含まれて おり、 それが別のシスティン (CYS) とジスノレフィド結合をしている場合に は、 その別のシスティン (CYS) も近傍アミノ酸残基群に加えてもよい。 す なわち、 近傍ァミノ酸残基群抽出部 4102 bは、 抽出した近傍ァミノ酸残基 群の中にシスティン (CYS) が含まれている場合には、 当該システィン (C YS) とジスルフィド結合をしている近傍アミノ酸残基群には含まれない別の システィン (CYS) が存在しているか判定し、 当該別のシスティン (CY S) が存在する場合には当該別のシスティン (CYS) も近傍アミノ酸残基群 にカ卩える。
ステップ SB4— 4の操作で機械的に座標を切り取つた場合、 その切り口が ラジカルとなり計算に不都合が生じる。 これを解消するために、 タンパク質構 造最適化装置 4100は、 キヤップ付加部 4102 cの処理により、 近傍ァミ ノ酸残基群の切り口の部分にキャップ用置換基 (例えば水素原子 (H) または メチル基 (CH3) ) を付加する (ステップ SB 4— 5) 。 キャップ用置換基 として水素、 メチル基のどちらを用いるかは、 ユーザが目的に応じて判断する。 ここで、 キヤップ付加部 4102 cのよるキヤップ付加処理の詳細について 図 76力、ら図 83を参照して説明する。
図 76は、 本実施形態における切り口に水素原子を付加する場合のキヤップ 付加処理の一例を示すフローチャートである。 また、 図 77は、 もとの座標と キヤップ置換基を付加した後の座標の概念を示す図である。 図 76は、 図 77 に示すもとの座標 (左側) に対してアミノ基側へキャップ付加 (右側) をする 際の処理の一例を示す。 近傍アミノ酸残基群の任意の残基を j とする。
キヤップ付加部 4102 cは、 アミノ酸残基 jが N端ァミノ酸である場合 (ステップ SC 4— 1) 、 アミノ酸残基 jのアミノ側は切り口になっていない ので、 キャップ付加は不要とする (ステップ SC 4— 2) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jが N端ァミノ酸でな い場合には (ステップ SC 4— 1) 、 隣のアミノ酸残基 j — 1も抽出されたァ ミノ酸残基群に含まれる場合 (ステップ SC 4— 3) 、 残基 jのアミノ側は切 り口になつていないので、 キャップ付加は不要とする (ステップ SC 4— 4) 。
一方、 キヤップ付カ卩部 4102 cは、 隣のアミノ酸残基 j― 1も抽出された アミノ酸残基群に含まれない場合には (ステップ SC 4— 3) 、 アミノ酸残基 j - 1の主鎖カルボニル炭素を とする (ステップ SC4— 5) 。
そして、 キャップ付加部 4102 cは、 アミノ酸残基 jの主鎖ァミノ基窒素 を Njとする (ステップ S C 4 - 6) 。
そして、 キャップ付加部 4102 cは、 付加するキャップ水素原子 ΗωΡΝの 位置を以下の数式 (1) に従って決める (ステップ SC4— 7) 。
N β CAPN = RNH (RNH = 1.01 A)
Figure imgf000131_0001
次に図 78は、 本実施形態における切り口に水素原子を付加する場合のキヤ ップ付加処理の一例を示すフローチャートである。 また、,図 79は、 もとの座 標とキャップ置換基を付カ卩した後の座標の概念を示す図である。 図 78は、 図 79に示すもとの座標 (左側) に対してカルボキシル基側へキャップ付加 (右 側) をする際の処理の一例を示す。 近傍アミノ酸残基群の任意の残基を j とす る。
キャップ付加部 4102 cは、 アミノ酸残基 jが C端アミノ酸である場合 (ステップ SD4— 1) 、 アミノ酸残基 jのアミノ側は切り口になっていない ので、 キャップ付加は不要とする (ステップ SD 4— 2) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jが C端ァミノ酸でな い場合には (ステップ SD4— 1) 、 隣のアミノ酸残基 j +1も抽出されたァ ミノ酸残基群に含まれる場合 (ステップ SD 4— 3) 、 残基 jのアミノ側は切 り口になつていないので、 キャップ付加は不要とする (ステップ SD4— 4) 。 一方、 キヤップ付加部 4102 cは、 隣のァミノ酸残基 j + 1も抽出された アミノ酸残基群に含まれない場合には (ステップ SD4—3) 、 アミノ酸残基 ; i + 1の主鎖ァミノ基窒素を Nj+Iとする (ステップ SD4— 5) 。
そして、 キヤップ付加部 4102 cは、 了ミノ酸残基 jの主鎖力ルポニル炭 素を Cjとする (ステップ SD4— 6) 。
そして、 キャップ付加部 4102 cは、 付加するキャップ水素原子 HCAPCの 位置を以下の数式 (2) に従って決める (ステップ SD 4— 7) 。
C:N;
C j:H" CAPC XRC (^ =1·08Α) 数式 (2)
Cレバ N ·+1
次に図 80は、 本実施形態における切り口にメチル基を付加する場合のキヤ ップ付カ卩処理の一例を示すフローチャートである。 また、 図 8 1は、 もとの座
'。置換基を付カ卩した後の座標の概念を示す図である。 図 80は、 図 81に示すもとの座標 (左側) に対してアミノ基側へキャップ付加 (右側) を する際の処理の一例を示す。 近傍アミノ酸残基群の任意の残基を j とする。 キヤップ付加部 4102 cは、 ァミノ酸残基 jが N端ァミノ酸である場合 (ステップ SE4— 1) 、 アミノ酸残基; iのアミノ側は切り口になっていない ので、 キャップ付加は不要とする (ステップ SE 4— 2) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jが N端ァミノ酸でな い場合には (ステップ SE4— 1) 、 隣のアミノ酸残基 j 一 1も抽出されたァ ミノ酸残基群に含まれる場合 (ステップ SE4— 3) 、 残基 jのアミノ側は切 り口になつていないので、 キャップ付加は不要とする (ステップ SE 4— 4) 。 —方、 キヤップ付加部 4102 cは、 隣のァミノ酸残基 j一 1も抽出された ァミノ.酸残基群に含まれない場合には (ステップ SE 4— 3) 、 アミノ酸残基 j 一 1の主鎖カルボニル炭素を とする (ステップ SE4— 5) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jの主鎖ァミノ基窒素 を Njとする (ステップ SE4— 6) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jの主鎖 α炭素を C A 」とする (ステップ SE4— 7) 。
そして、 キャップ付加部 4102 cは、 付加するキャップメチル基炭素 C c腿の位置を以下の数式 (3) に従って決める (ステップ SE 4— 8) 。
M
i j r CAPN A) 数式 (3
Figure imgf000133_0001
そして、 キヤップ付カ卩部 4102 cは、 付加する 3つのキヤップメチル基水 素 Hck (k= 1, 2, 3) の位置を以下の条件 (数式 (4) ) で決める (ス テツプ SE4— 9) 。 結合長 H CK C圆 = RCSP3H (RCSP3H = 1.09 A)
結合角 C画 Nj = ACsp3 (ACsp3 = 109.5°)
二面角 ZH C舰 C圆 NJCAJ = DK (D, = 180.0°, D2 = 60.0°, D, =—60.0。) 数式 (4 )
次に図 82は、 本実施形態における切り口にメチル基を付加する場合のキヤ ップ付加処理の一例を示すフローチャートである。 また、 図 83は、 もとの座 標とキャップ置換基を付加した後の座標の概念を示す図である。 図 82は、 図 83に示すもとの座標 (左側) に対してカルボキシル基側へキャップ付カ卩 (右 側) をする際の処理の一例を示す。 近傍アミノ酸残基群の任意の残基を j とす る。
キャップ付加部 4102 cは、 アミノ酸残基 jが C端アミノ酸である場合 (ステップ SF 4— 1) 、 アミノ酸残基 jのアミノ側は切り口になっていない ので、 キャップ付加は不要とする (ステップ SF 4— 2) 。
そして、 キヤップ付加部 4102 cは、 ァミノ酸残基 jが C端ァミノ酸でな い場合には (ステップ SF4— 1) 、 隣のアミノ酸残基 j + 1も抽出されたァ ミノ酸残基群に含まれる場合 (ステップ SF 4— 3). 、 残基 jのアミノ側は切 り口になつていないので、 キャップ付加は不要とする (ステップ SF 4— 4) 。 一方、 キャップ付加部 4102 cは、 隣のアミノ酸残基 j + 1も抽出された アミノ酸残基群に含まれない場合には (ステップ S F 4- 3) 、 アミノ酸残基 j + 1の主鎖ァミノ基窒素を Nj+1とする (ステップ SF 4— 5) 。
そして、 キヤップ付加部 4102 cは、 了ミノ酸残基 jの主鎖カルボニル炭 素を Cjとする (ステップ SF4— 6) 。
そして、 キャップ付加部 4102 cは、 アミノ酸残基 jの主鎖 α炭素を C A 』とする (ステップ SF 4— 7) 。
そして、 キャップ付加部 4102 cは、 付加するキャップメチル基炭素 C CAPCの位置を以下の数式 (5) に従って決める (ステップ SF 4— 8) 。
C..N...
ゾレ CAPC = I >| X 1 Csp ICsp 3 1 Csp2Csp3 =1-52) 数式 (
C N
そして、 キヤップ付加部 4102 cは、 付加する 3つのキヤップメチル基水 素 HCAPCk (k= l, 2, 3) の位置を以下の条件 (数式 (6) ) で決める (ス テツプ S F 4 _ 9 ) 。
結合長 h CAPCkC CAPC = RCSP3H (RCSP3H =1·09Α)
結合角 ZHcApckCcApcCj -A^ 04 3 =109.5°)
二面角 ZHcApckCcApcCjCAj = Dk (D, = 180.0°, D2 = 60.0°, D3 = -60.0°)
数式 (6) ここで、 数式 (1) 〜数式 (6) において、 R、 A、 Dは、 それぞれ、 標準 結合長、 標準結合角、 標準二面角であり、 本条件で記した数値はその一例であ る (平野恒夫 ·田辺和俊編 「分子軌道法 MOP ACガイドブック (3訂版) 」 海文堂出版, 1 999 参照。 ) 。
これにて、 キャップ付加処理が終了する。
再び図 74に戻り、 タンパク質構造最適化装置 4100は、 全ての近傍ァミ ノ酸残基群の切口にキャップを付加すると、 ステップ SB 4— 4で抽出したァ ミノ酸残基群全体の電荷計算を行う。 すなわち、 MOPAC 2000に限らず、 一般に分子軌道計算を行う際には対象となる系全体の電荷を入力データとして 与えるため、 タンパク質構造最適化装置 4100は、 電荷計算部 4102 の 処理により、 キヤップ用置換基が付加された近傍ァミノ酸残基群の全体の電荷 を計算する (ステップ SB 4— 6) 。 電荷計算は、 既知のあらゆる電荷計算手法を用いてもよいが、 例えば、 以下 の数式 (7) を用いて、 塩基性アミノ酸残基数から酸性アミノ酸残基数を減算 することにより高速に計算することもできる。 (全体電荷) = (塩基性アミノ酸残基数) 一 (酸性アミノ残基数)
…数式 (7) ここで、 塩基性ァミノ S麦残基は、 A R G、 L Y Sなどであり、 酸性ァミノ酸 残基は、 AS P、 GLUなどである。 アミノ酸種別は、 図 84に示すように、 入力データとして与える P D B形式データの三文字表記 (1 8— 20カラムの 文字) で判別する ( 「PDB F i l e F o rma t C o n t e n t s Gu i d e Ve r s i o n 2. 2」 (20 De c emb e r 1 99 6) 参照) 。 また、 中性アミノ酸残基 (例えば、 ARG、 LYS、 ASP、 G LUなど) や、 プロトン化した H I S (電荷 + 1) の表記法は、 分子動力学計 算プログラム 「Amb e r 7」 (Un i v e r s i t y o f C a l i f o r n i a, 2002. ) の様式に従い ARN, LYN, ASH, GLH, H I Pとして、 入力 PDBデータで記述し判別する。 また、 非天然のアミノ酸残 基や、 ユーザ定義のアミノ酸、 リガンド分子の電荷も個別に設定できるように しておく。 例えば、 リン酸ィ匕した THRを TP Oと定義し、 このアミノ酸に対 しては一 2の電荷を与えるようにプログラムで設定しておく。
そして、 タンパク質構造最適化装置 4100は、 構造最適化部 4102 eの 処理により、 MOPAC 2000の入力ファイルを作成するために、 アミノ酸 残基 iを構成する各原子に対して最適化処理対象の原子であることを表す 「最 適化フラグ」 を設定する (ステップ SB 4— 7) 。 なお、 MOPAC 2000 に限らず、 一般に計算化学的手法 (分子軌道法、 分子力学法など) で構造最適 化を行う際には、 最適な位置に動かす原子と、 座標を固定して位置を動かさな い原子を設定し、 部分構造最適化を行うこともできる。 ここでは、 最適な位置 に動かす原子を入力データとして判別できるように設定する事を、 MOP AC 2000の慣例に倣って、 「最適化フラグを設定する」 と呼ぶことにする ( 「MOP AC 2000 Ma nu a l」 Fu j i t u L i m i t e d, To ky o, 2000 参照) 。
具体的には、 構造最適化部 4102 eは、 水素の構造最適化を行う場合、 ァ ミノ酸残基 iの水素原子に最適化フラグを設定する。 図 85は、 アミノ酸残基 iの水素原子に最適化フラグを設定する場合の一例を示す図である。 図 85は、 PDBコードが 「1 CB I」 のタンパク質に対して水素付; !)ロを行った入力 PD Bデータに対して、 特定アミノ酸残基が 50番目のアミノ酸残基 (i =50) であり、 距離が 3. 0オングストローム (r = 3. OA) のときに抽出される 近傍アミノ酸残基群を示している。 また、 上述の方法により近傍アミノ酸残基 群の切り口にキャップ置換基 (水素原子) の付加も行っている。 また、 上述の ステップ S B 4— 6では、 ここに示した全原子を考慮して電荷計算を行ってい る。 図 85において、 太線と球で表示されている部分が計算の中心残基である PHE50 ( i = 50のアミノ酸残基であるフエ二ルァラニン) である。 この PHE 50の中で最適化フラグを設定する水素原子を球で示している。
また、 構造最適化部 4102 eは、 側鎖の構造最適化を行う場合、 アミノ酸 残基 iの水素と側鎖原子に最適化フラグを設定する。 図 86は、 アミノ酸残基 iの水素と側鎖原子に最適化フラグを設定する場合の一例を示す図である。 図 86は、 PDBコードが 「1 CB I」 のタンパク質に対して水素付加を行った 入力 PDBデータに対して、 特定アミノ酸残基が 50番目のアミノ酸残基 (i = 50) であり、 距離が 3. 0オングストローム (r = 3. OA) のときに抽 出される近傍アミノ酸残基群を示している。 また、 上述の方法により近傍アミ ノ酸残基群の切り口にキャップ置換基 (水素原子) の付カ卩も行っている。 また、 上述のステップ SB 4— 6では、 ここに示した全原子を考慮して電荷計算を行 つている。 図 86において、 太線と球で表示されている部分が計算の中心残基 である PHE 50 ( i = 50のアミノ酸残基であるフヱニノレアラニン) である。 この PHE 50の中で最適化フラグを設定する水素原子と側鎖原子を球で示し ている。
また、 構造最適化部 4102 eは、 全原子の構造最適化を行う場合、 ァミノ 酸残基 iの全原子に最適化フラグを設定する。 ただし、 MOPAC2000を 含め現状の分子軌道理論では、 主鎖構造の 2次構造を再現することが困難なた め、 主鎖原子の最適化は一般には行わないことが多いが 2次構造を再現できる 精度の高い理論が構築されれば、 全構造最適化も有効となる。
再び図 74に戻り、 タンパク質構造最適化装置 4100は、 構造最適化部 4 102 eの処理により、 M〇P AC 2000の入力ファイルを作成する (ステ ップ SB 4— 8) 。 図 87は、 MOP AC 2000の入力ファイルの一例を示 す図である。 図 87に示すように、 電荷、 近傍アミノ酸残基群の座標データ、 最適化フラグなどを含む入力フアイルを作成する。
そして、 タンパク質構造最適化装置 4100は、 構造最適化部 4102 eの 処理により、 キャップ用置換基が付カ卩された近傍アミノ酸残基群について、 電 荷を用いて、 特定のアミノ酸残基の原子座標について MOP AC 2000を用 いて構造最適化を実行する (ステップ SB 4— 9) 。 ここで、 図 88は、 MO PAC 2000による構造最適化処理の結果を示す出力ファイルの一例を示す 図である。 図 88に示すよ'うに、 構造最適化後の座標データが出力される。 な お、 図 88において、 「*」 の付いた座標が最適化された部分を示している。 そして、 タンパク質構造最適化装置 4100は、 原子座標置換部 4102 f の処理により、 最適化された原子座標を、 初期のタンパク質の座標データ上の 対応する原子座標と置換する (ステップ SB4— 10) 。 すなわち、 原子座標 置換部 4102 f は、 MOP AC 2000の処理結果 (出力ファイル) の 「*」 の付いた座標が最適化部分であるため、 この部分を抜き出しステップ S B 4— 1で用意した座標データの対応する座標部分と置き換える。
そして、 タンパク質構造最適化装置 4100は、 全てのアミノ酸残基 iにつ いてステップ S B 4— 3からステップ S B 4— 10を適用し (1番目のァミノ 酸残基から最後のアミノ酸残基まで iをインクリメントしてループ処理を行 う。 ) 、 全てのアミノ酸残基について最適化を実行する (ステップ SB 4— 1 1)
そして、 タンパク質構造最適化装置 4100は、 ステップ SB4— 10にお いて得られた構造データを初期構造として、 ステップ S B 4— 2からステップ SB 4— 7を複数回 (n回) 実行することにより、 更に構造最適化の精度を上 げることができる (ステップ SB 4— 1 2) 。 すなわち、 ステップ SB 4— 4 からステップ SB 4— 10の処理を N残基から C端残基まで行うことで、 すべ てのアミノ酸残基について部分構造が最適化された P D B形式の座標データが 得られる。 この座標データを入力として、 座標は固定して (すべての原子に対 して最適化フラグを設定せずに) MOP ACでエネルギー計算を行う。 また、 上述のステップ S B 4— 4からステップ S B 4— 10の操作を含むループ処理 は、 例えばスクリプトプログラムを用いて実行してもよい。
これにて、 メイン処理が終了する。
[本発明による計算例]
次に、 本発明による計算例の詳細について図 89および図 90などを参照し て説明する。 本計算例では、 サンプル分子として 「 J a p a n e s e P e a r S 3— R i b o nu c l e a s eJ (PDB I D : 1 I QQA) を用い て、 特定アミノ酸残基を 200番目のアミノ酸残基 (3262原子 C 104 7 H 16 19 N285 O 300 S 1 1 ) をした場合である。 また、 本計 算例で使用した計算機の機種名は、 COMPAQ (会社名) の 「A l p h a S e r v e r ES 40 (CPU A l h a 21264 833MHz) 」 (製品名) である。 図 89は、 従来の最適化手法 (MOZ YME法 +BFGS 法) と本発明の手法により水素構造を最適化した場合の計算結果を示す図であ る。 また、 図 90は、 従来の最適化手法 (MOZ YME法 +B FGS法) と本 発明の手法により側鎖構造を最適化した場合の計算結果を示す図である。 図 8 9およぴ図 90において、 縦軸は、 生成熱 He a t o f F o r m a t i o n (k c a 1 m o 1一1) であり、 横軸は CPU時間 (秒) を示している。 ま た、 初期構造の H e a t o f F o rma t i o の値は、 一 1044. 5 3571 k c a 1 - mo 1— 1である。
本計算例について計算時間とエネルギー (生成熱) の関係をみると、 本発明 の手法では、 計算時間に対してエネルギーの収束が速く、 全体のループを 3〜 5回繰り返すこと (n=3〜5) で、 エネルギーが収束することがわかる。 ま た、 計算精度よりも計算時間を優先する場合には、 rの値を小さめにとり、 そ の逆に計算精度を求める場合には、 rの値を大きめにとることもできる。
また、 本計算例について必要となる最大メモリ容量をみると、 従来の手法で は、 水素構造最適化を行う場合は、 506MB (メガバイト) であり、 側鎖構 造最適化を行う場合は、 667MBであった。 一方、 本発明の手法では、 水素 構造最適化を行う場合は、 301 MBであり、 側鎖構造最適化を行う場合は、 301MBであった。 このように、 本発明の手法ではメモリの少量化も図るこ とができた。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述し た実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内に おいて種々の異なる実施の形態にて実施されてよいものである。
例えば、 タンパク質構造最適化装置 4100がスタンドアローンの形態で処 理を行う場合を一例に説明したが、 タンパク質構造最適化装置 4100とは另【』 筐体で構成されるクライアント端末からの要求に応じて処理を行い、 その処理 結果を当該クライアント端末に返却するように構成してもよい。
また、 上述した実施の形態では、 半経験的分子軌道プログラムである M〇P AC 2000を用いる場合を一例として説明したが、 他の既知の計算手法ゃプ ログラムを用いてもよい。 例えば、 分子軌道計算プログラムである 「Ga u s s i a n 98 Re v. A. 1 1. 3」 (製品名) (G a u s s i a n, I n c. (会社名) , P i t t s b u r g PA, 2002) 、 「Game s s J un e 20 2002 R2」 (製品名) (I owa S t a t e Un i v e r s i t y, 2002) などのプログラムに置き換えれば、 アブ ィニシォ (a b i n i t i o) 分子軌道法による構造最適化が可能になる。 また、 「Amb e r 7」 (製品名) (Un i v e r s i t y o f C a 1 i f o r n i a, 2002) や 、 「T i nk e r 3. 7」 (製品名)
(W a s h i n g t o n Un i v e r s i t y S c h o o l o f Me d i c i n e, 2001) などに置き換えれば、 分子力学計算の高速化も可能 である。 これらのプログラムの入出力データは、 MO P AC 2000の入カフ アイ/レと座標パラメータの並び方などが異なるだけであるため、 「 B a b e 1 v e r s i o n 1. 6」 (製品名) (P a t Wa l t e r s a n d M a t t S t a h 1 , 1 996 ) 等のプログラムを用いて容易に MO P A C 2000の入出力データと変換することできる。 MOP AC 2000は半経験 的分子軌道プログラムと呼ばれ半定量的な結果が得られる。 一方、 Ga u s s i a nや G ame s sなどは、 a b i n i t i o分子軌道計算プログラムと 呼ばれ半経験的な方法よりも定量的な結果が得られるが、 計算時間は半経験的 な方法より格段にかかるのが一般的である。
また、 実施形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手 動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自 動的に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各 種の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 タンパク質構造最適化装置 4100に関して、 図示の各構成要素は機 能概念的なものであり、 必ずしも物理的に図示の如く構成されていることを要 しない。
例えば、 タンパク質構造最適化装置 4100の各部または各装置が備える処 理機能、 特に制御部 41 02にて行なわれる各処理機能については、 その全部 または任意の一部を、 CPU (C e n t r a l P r o c e s s i n g Un i t) および当該 CPUにて角爭釈実行されるプログラムにて実現することがで き、 あるいは、 ワイヤードロジックによるハードウェアとして実現することも 可能である。 なお、 プログラムは、 後述する記録媒体に記録されており、 必要 に応じてタンパク質構造最適化装置 4100に機械的に読み取られる。
すなわち、 ROMまたは HDなどの記憶部 4106などには、 OS (O e r a t i n g Sy s t em) と協働して C PUに命令を与え、 各種処理を行 うためのコンピュータプログラムが記録されている。 このコンピュータプログ ラムは、 RAM等にロードされることによって実行され、 CPUと協働して制 御部 4102を構成する。 また、 このコンピュータプログラムは、 タンパク質 構造最適化装置 4100に対して任意のネットワーク 4300を介して接続さ れたアプリケーションプログラムサーバに記録されてもよく、 必要に応じてそ の全部または一部をダウンロードすることも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体 に格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディ スク、 光磁気ディスク、 ROM、 EPROM、 EEPROM、 CD-ROM, M〇、 DVD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステム に内蔵される ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるい は、 LAN、 WAN, インターネットに代表されるネットワークを介してプロ グラムを送信する場合の通信回線や搬送波のように、 短期にプログラムを保持 する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処 理方法であり、 ソースコードゃバイナリコード等の形式を問わない。 なお、 「プログラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュ ールゃライブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t em) に代表される別個のプログラムと協働してその機能を達成する ものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取る ための具体的な構成、 読み取り手順、 あるいは、 読み取り後のインストール手 順等については、 周知の構成や手順を用いることができる。
また、 タンパク質構造最適化装置 4100は、 さらなる構成要素として、 マ ウス等の各種ポィンティングデバイスゃキーボードゃィメージスキャナやデジ タイザ等から成る入力装置 (図示せず) 、 入力データのモニタに用いる表示装 置 (図示せず) 、 システムクロックを発生させるクロック発生部 (図示せず) 、 および、 各種処理結果その他のデータを出力するプリンタ等の出力装置 (図示 せず) を備えてもよく、 また、 入力装置、 表示装置おょぴ出力装置は、 それぞ れ入出力インターフェースを介して制御部 4102に接続されてもよレ、。
記憶部 4106に格納される各種のデータベース等 (タンパク質構造情報デ ータベース 4106 aおよび処理結果ファイル 4106 b) は、 RAM、 RO M等のメモリ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディ スク、 光ディスク等のストレージ手段であり、 各種処理やウェブサイト提供に 用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ 用ファイル等を格納する。
また、 タンパク質構造最適化装置 4100は、 既知のパーソナルコンビユー タ、 ワークステーション等の情報処理端末等の情報処理装置にプリンタゃモニ タゃイメージスキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法 を実現させるソフトウエア (プログラム、 データ等を含む) を実装することに より実現してもよい。
さらに、 タンパク質構造最適化装置 4100の分散 ·統合の具体的形態は図 示のものに限られず、 その全部または一部を、 各種の負荷等に応じた任意の単 位で、 機能的または物理的に分散 ·統合して構成することができる。 例えば、 各データベースを独立したデータベース装置として独立に構成してもよく、 ま た、 処理の一音を CG I (C o mm o n Ga t ewa y I n t e r f a c e) を用いて実現してもよい。 また、 ネットワーク 4 3 0 0は、 タンパク質構造最適化装置 4 1 0 0と外部 システム 4 2 0 0とを相互に接続する機能を有し、 例えば、 インターネットや、 イントラネットや、 L AN (有線 Z無線の双方を含む) や、 VANや、 パソコ ン通信網や、 公衆電話網 (アナログ/デジタルの双方を含む) や、 専用回線網 (アナログ/デジタルの双方を含む) や、 C A T V網や、 I MT 2 0 0 0方式、 G S M方式または P D C / P D C— P方式等の携帯回線交換網 Z携帯パケット 交換網や、 無線呼出網や、 B 1 u e t o o 1: h等の局所無線網や、 P H S網や、 C S、 B Sまたは I S D B等の衛星通信網等のうちいずれかを含んでもよい。 すなわち、 本システムは、 有線 ·無線を問わず任意のネットワークを介して、 各種データを送受信することができる。
以上詳細に説明したように、 本発明によれば、 タンパク質の座標データを取 得し、 タンパク質の座標データについて、 特定のアミノ酸残基から所定の距離 内に含まれる近傍ァミノ酸残基群の座標を抽出し、 近傍アミノ酸残基群の切り 口の部分にキヤップ用置換基を付加し、 キヤップ用置換基が付加された近傍ァ ミノ酸残基群の全体の電荷を計算し、 キャップ用置換基が付カ卩された近傍アミ ノ酸残基群について、 計算された電荷を用いて特定のアミノ酸残基の原子座標 について構造最適化を実行し、 最適化された原子座標を、 タンパク質の座標デ 一タ上の対応する原子座標と置換するので、 水素位置の決定ゃパッキングの問 題の解消を、 実用的な計算資源を用いて行うことが可能となるタンパク質構造 最適化装置、 タンパク質構造最適化方法、 プログラム、 および、 記録媒体を提 供することができる。
また、 本発明によれば、 既存の計算プログラムには一切手を加えずに最適化 処理の高速化を図ることができるタンパク質構造最適化装置、 タンパク質構造 最適化方法、 プログラム、 および、 記録媒体を提供することができる。 すなわ ち、 既存の分子軌道計算プログラムや、 分子力学計算プログラムの入出力ファ ィルを用いて、 本装置を実行することができる。 伹し、 本装置のアルゴリズム を既存の分子軌道計算プログラムや、 分子力学計算プログラムに組み込むこと も可能である。
また、 本発明によれば、 従来の方法では不可能な溶媒効果を考慮に入れたタ ンパク質の構造最適化が可能になるタンパク質構造最適化装置、 タンパク質構 造最適化方法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 キャップ用置換基は、 水素原子 (H) またはメチル 基 (C H3) であるので、 近傍アミノ酸残基群について機械的に座標を切り取 つたときの切り口力 ラジカルとなり計算に不都合を生じることを容易に解消 することができるタンパク質構造最適化装置、 タンパク質構造最適化方法、 プ ログラム、 および、 記録媒体を提供することができる。
さらに、 本発明によれば、 抽出した近傍アミノ酸残基群の中にシスティン ( C Y S ) が含まれている場合には、 当該システィン ( C Y S ) とジスルフィ ド結合をしておりかつ近傍アミノ酸残基群には含まれない別のシスティン (C Y S ) が存在しているか判定し、 当該別のシスティン (C Y S ) が存在する場 合には当該別のシスティン (C Y S ) も近傍アミノ酸残基群に加えるので、 シ スティン間のジスルフィド結合を考慮して構造最適化を行うことができるタン パク質構造最適化装置、 タンパク質構造最適化方法、 プログラム、 および、 記 録媒体を提供することができる。 産業上の利用可能性
( I ) 以上のように、 相互作用部位予測装置、 相互作用部位予測方法、 プログ ラム、 および、 記録媒体は、 タンパク質の一次配列情報においてフラストレー ションのある局所部位を発見することにより相互作用部位を効果的に予測する ことができる。
つまり、 本発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 プ ログラム、 および、 記録媒体は、 特に、 局所部位のフラストレーションに基づ いて相互作用部位を予測することができる。
これにより、 本発明にかかる相互作用部位予測装置、 相互作用部位予測方法、 プログラム、 および、 記録媒体は、 タンパク質の配列などの解析を行うバイオ インフォマテイクス分野において極めて有用である。 また、 本発明は、 産業上 多くの分野、 特に医薬品、 食品、 化粧品、 医療、 遺伝子発現解析、 タンパク質 立体構造解析等の分野で広く実施することができ、 極めて有用である。
( Π ) また、 活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記 録媒体は、 分子軌道計算によって得られた分子軌道のエネルギーや広がりの情 報から蛋白質の活性部位を予測することができる。
つまり、 本発明にかかる活性部位予測装置、 活性部位予測方法、 プログラム、 および、 記録媒体は、 特に、 生理活性ポリペプチドもしくは蛋白質の活性部位 を高精度で推定することができる。
これにより、 本発明にかかる活性部位予測装置、 活性部位予測方法、 プログ ラム、 および、 記録媒体は、 タンパク質などの解析を行うバイオインフォマテ イクス分野において極めて有用である。 また、 本発明は、 産業上多くの分野、 特に医薬品、 食品、 化粧品、 医療、 遺伝子発現解析、 タンパク質立体構造解析 等の分野で広く実施することができ、 極めて有用である。
(m) また、 タンパク質相互作用情報処理装置、 タンパク質相互作用情報処理 方法、 プログラム、 および、 記録媒体は、 タンパク質の構造データから求めた 疎水相互作用および静電相互作用に基づいてタンパク質単体時の不安定性の高 い部位を特定し相互作用部位を特定すること等ができる。
これにより、 本発明にかかるタンパク質相互作用情報処理装置、 タンパク質 相互作用情報処理方法、 プログラム、 および、 記録媒体は、 タンパク質などの 解析を行うバイオインフォマティクス分野において極めて有用である。 また、 本発明は、 産業上多くの分野、 特に医薬品、 食品、 化粧品、 医療、 遺伝子発現 解析、 タンパク質立体構造解析等の分野で広く実施することができ、 極めて有 用である。
(IV) また、 結合部位予測装置、 結合部位予測方法、 プログラム、 および、 記 録媒体は、 特に、 アミノ酸配列データから予測された、 または、 実験的に求め られた立体構造情報 (アミノ酸残基間の空間上の距離情報) と、 電荷の情報と を用いて静電的に不安定な部分を予測することにより、 蛋白質または生理活性 ポリぺプチドの結合部位や結合相手を効率的に予測すること等ができる。
つまり、 本発明にかかる結合部位予測装置、 結合部位予測方法、 プログラム、 および、 記録媒体は、 バイオインフォマティクスによる蛋白質の相互作用の予 測を極めて短時間で計算可能にし、 網羅的な解析を可能にする。
これにより、 本発明にかかる結合部位予測装置、 結合部位予測方法、 プログ ラム、 および、 記録媒体は、 タンパク質などの解析を行うバイオインフォマテ イクス分野において極めて有用である。 また、 本発明は、 産業上多くの分野、 特に医薬品、 食品、 化粧品、 医療、 遺伝子発現解析、 タンパク質立体構造解析 等の分野で広く実施することができ、 極めて有用である。
(V) また、 タンパク質構造最適化装置、 タンパク質構造最適化方法、 プログ ラム、 および、 記録媒体は、 蛋白質の構造を分割しながら所望の原子座標の最 適化を行うことができる。
これにより、 本発明にかかるタンパク質構造最適化装置、 タンパク質構造最 適化方法、 プログラム、 および、 記録媒体は、 タンパク質などの解析を行うバ ィォインフォマテイクス分野において極めて有用である。 また、 本発明は、 産 業上多くの分野、 特に医薬品、 食品、 化粧品、 医療、 遺伝子発現解析、 タンパ ク質立体構造解析等の分野で広く実施することができ、 極めて有用である。

Claims

請 求 の 範 囲
1 . g的のタンパク質の一次配列情報を入力する入力手段と、
タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力手段により入力された上記一次配列情報の 二次構造予測シミュレーションを実行させる二次構造予測プログラム実行手段 と、
上記二次構造予測プログラム実行手段による上記二次構造予測プログラムの 二次構造予測結果を比較する予測結果比較手段と、
上記予測結果比較手段による比較結果に基づいて、 上記目的のタンパク質の 一次配列情報の局所部分のフラストレーションを計算するフラス トレーシヨン 計算手段と、
上記フラストレーション計算手段により計算された上記局所部分の上記フラ ストレーシヨンにより上記目的のタンパク質の相互作用部位を予測する相互作 用部位予測手段と、
を備えたことを特徴とする相互作用部位予測装置。
2 . 目的のタンパク質の一次配列情報を入力する入力手段と、
上記目的のタンパク質の二次構造データを取得する二次構造データ取得手段 と、
タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力手段により入力された上記一次配列情報の 二次構造予測シミュレーションを実行させる二次構造予測プログラム実行手段 と、
上記二次構造予測プログラム実行手段による上記二次構造予測プログラムの 二次構造予測結果と、 上記二次構造データ取得手段により取得した上記二次構 造データとを比較する予測結果比較手段と、 上記予測結果比較手段による比較結果に基づいて、 上記目的のタンパク質の 一次配列情報の局所部分のフラストレーションを計算するフラストレーション 計算手段と、
上記フラストレーシヨン計算手段により計算された上記局所部分の上記フラ ス トレーシヨンにより上記目的のタンパク質の相互作用部位を予測する相互作 用部位予測手段と、
を備えたことを特徴とする相互作用部位予測装置。
3 . 上記二次構造予測プログラムの上記二次構造予測結果に対する確信度を 示す確信度情報を設定する確信度情報設定手段、
をさらに備え、
上記フラストレーシヨン計算手段は、 上記確信度情報設定手段により設定さ れた上記確信度情報おょぴ上記比較結果に基づいて、 上記局所部分の上記フラ ストレーションを計算することを特徴とする請求の範囲第 1項または第 2項に 記載の相互作用部位予測装置。
4 . 目的のタンパク質の一次配列情報を入力する入カ- タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力ステップにより入力された上記一次配列情 報の二次構造予測シミュレーシヨンを実行させる二次構造予測プログラム実行 ステップと、
上記二次構造予測プログラム実行ステップによる上記二次構造予測プロダラ ムの二次構造予測結果を比較する予測結果比較ステップと、
上記予測結果比較ステップによる比較結果に基づいて、 上記目的のタンパク 質の一次配列情報の局所部分のフラストレーシヨンを計算するフラストレーシ ョン計算ステップと、
上記フラストレーシヨン計算ステップにより計算された上記局所部分の上記 フラストレーションにより上記目的のタンパク質の相互作用部位を予測する相 互作用部位予測ステップと、
を含むことを特徴とする相互作用部位予測方法。
5 . 目的のタンパク質の一次配列情報を入力する入力ステップと、
上記目的のタンパク質の二次構造データを取得する二次構造データ取得ステ ップと、
タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力ステップにより入力された上記一次配列情 報の二次構造予測シミュレーションを実行させる二次構造予測プログラム実行 ステップと、
上記二次構造予測プログラム実行ステップによる上記二次構造予測プログラ ムの二次構造予測結果と、 上記二次構造データ取得ステツプにより取得した上 記二次構造データとを比較する予測結果比較ステップと、
上記予測結果比較ステップによる比較結果に基づいて、 上記目的のタンパク 質の一次配列情報の局所部分のフラストレーションを計算するフラストレーシ ョン計算ステップと、
上記フラストレーシヨン計算ステップにより計算された上記局所部分の上記 フラストレーションにより上記目的のタンパク質の相互作用部位を予測する相 互作用部位予測ステップと、
を含むことを特徴とする相互作用部位予測方法。
6 . 上記二次構造予測プログラムの上記二次構造予測結果に対する確信度を 示す確信度情報を設定する確信度情報設定ステップ、
をさらに含み、
上記フラス トレーシヨン計算ステップは、 上記確信度情幸艮設定ステップによ り設定された上記確信度情報おょぴ上記比較結果に基づいて、 上記局所部分の 上記フラストレーションを計算することを特徴とする請求の範囲第 4項または 第 5項に記載の相互作用部位予測方法。
7 . 目的のタンパク質の一次配列情報を入力する入力ステップと、
タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力ステツプにより入力された上記一次配列情 報の二次構造予測シミュレーシヨンを実行させる二次構造予測プログラム実行 ステップと、
上記二次構造予測プログラム実行ステップによる上記二次構造予測プログラ ムの二次構造予測結果を比較する予測結果比較ステップと、
上記予測結果比較ステツプによる比較結果に基づいて、 上記目的のタンパク 質の一次配列情報の局所部分のフラストレーションを計算するフラストレーシ ョン計算ステップと、
上記フラストレーシヨン計算ステップにより計算された上記局所部分の上記 フラストレーシヨンにより上記目的のタンパク質の相互作用部位を予測する相 互作用部位予測ステップと、
を含む相互作用部位予測方法をコンピュータに実行させることを特徴とする プログラム。
8 . 目的のタンパク質の一次配列情報を入力する入力ステップと、
上記目的のタンパク質の二次構造データを取得する二次構造データ取得ステ ップと、
タンパク質の一次配列情報から当該タンパク質の二次構造を予測する二次構 造予測プログラムに対して上記入力ステップにより入力された上記一次配列情 報の二次構造予測シミュレーションを実行させる二次構造予測プログラム実行 上記二次構造予測プログラム実行ステップによる上記二次構造予測プロダラ ムの二次構造予測結果と、 上記二次構造データ取得ステップにより取得した上 記二次構造データとを比較する予測結果比較ステップと、
上記予測結果比較ステツプによる比較結果に基づいて、 上記目的のタンパク 質の一次配列情報の局所部分のフラストレーションを計算するフラストレーシ ヨン計算ステップと、
上記フラストレーション計算ステツプにより計算された上記局所部分の上記 フラストレーションにより上記目的のタンパク質の相互作用部位を予測する相 互作用部位予測ステップと、
を含む相互作用部位予測方法をコンピュータに実行させることを特徴とする プログラム。
9 . 上記二次構造予測プログラムの上記二次構造予測結果に対する確信度を 示す確信度情報を設定する確信度情報設定ステツプ、
をさらに含み、
上記フラストレーシヨン計算ステップは、 上記確信度情報設定ステップによ り設定された上記確信度情報および上記比較結果に基づいて、 上記局所部分の 上記フラストレーションを計算することを特徴とする請求の範囲第 7項または 第 8項に記載のプログラム。
1 0 . 上記請求の範囲第 7項〜第 9項のいずれか一つに記載されたプロダラ ムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
1 1 . 蛋白質または生理活性ポリべプチドの電子状態を分子軌道計算によつ て求めて、 フロンティア軌道とその周辺軌道、 および Zまたは、 主鎖の重原子 に局在する軌道エネルギーを特定し、 当該フロンティア軌道とその周辺軌道の 位置、 および/または、 当該軌道ヱネルギーに基づいて当該蛋白質または当該 生理活性ポリぺプチドの活性部位となるァミノ酸残基を予測する活性部位予測 方法。
1 2 . 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリペプチドの電子状態を分子軌道計算によって求め てフロンティァ軌道を特定するフロンティァ軌道計算ステップと、
上記フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロ ンティア軌道の周辺軌道として決定する周辺軌道決定ステップと、
上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基を活性部 位の候補のアミノ酸残基として決定する候補アミノ酸残基決定ステップと、 上記候補アミノ酸残基決定ステップにより決定された上記候補アミノ酸残基 の中から活性部位を選択して活性部位を予測する活性部位予測ステップと、 を含むことを特徴とする活性部位予測方法。
1 3 . 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリペプチドの電子状態を分子軌道計算によって求め て主鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算ステ ップと、
上記軌道エネルギー計算ステップにて特定された上記軌道エネルギーのうち 予め定めた値を超える軌道エネルギーとなる分子軌道および Zまたは相対的に 軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部位の候補 のアミノ酸残基として決定する候補アミノ酸残基決定
を含むことを特徴とする活性部位予測方法。
1 4 . 目的の蛋白質または生理活性ポリぺプチドの構造データを取得する構 造データ取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め てフロンティァ軌道を特定するフロンティァ軌道計算ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め て主鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算ステ ップと、
上記フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロ ンティァ軌道の周辺軌道として決定する周辺軌道決定ステップと、
上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基、 および /または、 上記軌道エネルギー計算ステップにて特定された上記軌道エネルギ 一のうち予め定めた値を超える軌道エネルギーとなる分子軌道および Zまたは 相対的に軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部 位の候補のアミノ酸残基として決定する候補アミノ酸残基決定ステップと、 上記候補ァミノ酸残基決定ステツプにより決定された上記候補ァミノ酸残基 の中から活性部位を選択して活性部位を予測する活性部位予測ステップと、 を含むことを特徴とする活性部位予測方法。
1 5 . 分子軌道計算において、 以下の 3つの計算条件
1 ) 蛋白質または上記生理活性ポリぺプチドのまわりに水分子を発生させる、
2 ) 蛋白質または上記生理活性ポリべプチドの周りに連続的な誘電体を置く、 3 ) 蛋白質または上記生理活性ポリぺプチド表面の解離性ァミノ酸残基を無 電荷の状態にし、 内部に埋まっている解離性アミノ酸を電荷状態にする、 のうち少なくとも一つの計算条件を設定する計算条件設定ステップ、 をさらに含むことを特徴とする請求の範囲第 1 2項から第 1 4項のいずれか 一つに記載の活性部位予測方法。
1 6 . 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得手段と、
上記構造データ取得手段にて取得した上記構造データに基づいて上記蛋白質 または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求めてフ ロンティァ軌道を特定するフロンティァ軌道計算手段と、
上記フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロ ンティア軌道の周辺軌道として決定する周辺軌道決定手段と、
上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基を活性部 位の候補のアミノ酸残基として決定する候補アミノ酸残基決定手段と、 上記候補ァミノ酸残基決定手段により決定された上記候補ァミノ酸残基の中 から活性部位を選択して活性部位を予測する活性部位予測手段と、
を備えたことを特徴とする活性部位予測装置。
1 7 . 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得手段と、
上記構造データ取得手段にて取得した上記構造データに基づいて上記蛋白質 または上記生理活性ポリぺプチドの電子状態を分子軌道計算によつて求めて主 鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算手段と、 上記軌道エネルギー計算手段にて特定された上記軌道エネルギーのうち予め 定めた値を超える軌道エネルギーとなる分子軌道および/または相対的に軌道 エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部位の候補のァ ミノ酸残基として決定する候補ァミノ酸残基決定手段と、
を備えたことを特徴とする活性部位予測装置。
1 8 . 目的の蛋白質または生理活性ポリベプチドの構造データを取得する構 造データ取得手段と、
上記構造データ取得手段にて取得した上記構造データに基づいて上記蛋白質 または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求めてフ ロンティァ軌道を特定するフロンティァ軌道計算手段と、
上記構造データ取得手段にて取得した上記構造データに基づいて上記蛋白質 または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求めて主 鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算手段と、 上記フ口ンティア軌道と予め定めたエネルギー差になる分子軌道を当該フ口 ンティア軌道の周辺軌道として決定する周辺軌道決定手段と、
上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基、 および
Zまたは、 上記軌道エネルギー計算手段にて特定された上記軌道エネルギーの うち予め定めた値を超える軌道エネルギーとなる分子軌道および/または相対 的に軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部位の 候補のァミノ酸残基として決定する候補ァミノ酸残基決定手段と、
上記候補ァミノ酸残基決定手段により決定された上記候補ァミノ酸残基の中 力 ら活性部位を選択して活性部位を予測する活性部位予測手段と、
を備えたことを特徴とする活性部位予測装置。
1 9 . 分子軌道計算において、 以下の 3つの計算条件
1 ) 蛋白質または上記生理活性ポリペプチドのまわりに水分子を発生させる、
2 ) 蛋白質または上記生理活性ポリぺプチドの周りに連続的な誘電体を置く、
3 ) 蛋白質または上記生理活性ポリべプチド表面の解離性アミノ酸残基を無 電荷の状態にし、 内部に埋まっている解離性アミノ酸を電荷状態にする、 のうち少なくとも一つの計算条件を設定する計算条件設定手段、
をさらに備えることを特徴とする請求の範囲第 1 6項から第 1 8項のいずれ か一つに記載の活性部位予測装置。
2 0 . 目的の蛋白質または生理活性ポリべプチドの構造データを取得する構 造データ取得ステツプと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め てフロンティァ軌道を特定するフロンティァ軌道計算ステツプと、
上記フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロ ンティア軌道の周辺軌道として決定する周辺軌道決定ステップと、
上記フロンティァ軌道と上記周辺軌道が分布しているァミノ酸残基を活性部 位の候補のアミノ酸残基として決定する候捕アミノ酸残基決定ステップと、 上記候補ァミノ酸残基決定ステツプにより決定された上記候補ァミノ酸残基 の中から活性部位を選択して活性部位を予測する活性部位予測ステップと、 を含む活性部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。
2 1 . 目的の蛋白質または生理活性ポリペプチドの構造データを取得する構 造データ取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め て主鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算ステ ップと、
上記 ϊ ^道エネルギー計算ステップにて特定された上記軌道エネルギーのうち 予め定めた値を超える軌道エネルギーとなる分子軌道およぴ zまたは相対的に 軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部位の候補 のアミノ酸残基として決定する候補アミノ酸残基決定ステップと、
を含む活性部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。
2 2 . 目的の蛋白質または生理活性ポリべプチドの構造データを取得する構 造データ取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め てフロンティァ軌道を特定するフロンティァ軌道計算ステツプと、
上記構造データ取得ステヅプにて取得した上記構造データに基づいて上記蛋 白質または上記生理活性ポリぺプチドの電子状態を分子軌道計算によって求め て主鎖の重原子に局在する軌道エネルギーを特定する軌道エネルギー計算ステ ップと、
上記フロンティア軌道と予め定めたエネルギー差になる分子軌道を当該フロ ンティア軌道の周辺軌道として決定する周辺軌道決定ステップと、
上記フロンティア軌道と上記周辺軌道が分布しているアミノ酸残基、 および
/または、 上記軌道エネルギー計算ステップにて特定された上記軌道エネルギ 一のうち予め定めた値を超える軌道エネルギーとなる分子軌道および/または 相対的に軌道エネルギーが高い分子軌道が分布しているアミノ酸残基を活性部 位の候補のアミノ酸残基として決定する候補アミノ酸残基決定ステップと、 上記候補ァミノ酸残基決定ステツプにより決定された上記候補ァミノ酸残基 の中から活性部位を選択して活性部位を予測する活性部位予測ステップと、 を含む活性部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。 '
2 3 . 分子軌道計算において、 以下の 3つの計算条件
1 ) 蛋白質または上記生理活性ポリべプチドのまわりに水分子を発生させる、
2 ) 蛋白質または上記生理活性ポリぺプチドの周りに連続的な誘電体を置く、 3 ) 蛋白質または上記生理活性ポリぺプチド表面の解離性ァミノ酸残基を無 電荷の状態にし、 内部に埋まっている解離性アミノ酸を電荷状態にする、 のうち少なくとも一つの計算条件を設定する計算条件設定」 をさらに含む活性部位予測方法をコンピュータに実行させることを特徴とす る請求の範囲第 2 0項から第 2 2項のいずれか一つに記載のプログラム。
2 4 . 上記請求の範囲第 2 0項から第 2 3項のいずれか一つに記載されたプ ログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
2 5 . 相互作用する複数のタンパク質の一次構造データと単体時および Zま たは複合体形成時の立体構造データとを含む構造データを取得する構造データ 取得手段と、
上記構造データ取得手段にて取得した上記構造データに従って、 上記一次構 造データを構成するァミノ酸残基毎に疎水性相互作用エネルギーを特定する疎 水面特定手段と、
上記構造データ取得手段にて取得した上記構造データに従って、 上記一次構 造データを構成するアミノ酸残基毎に静電相互作用エネルギーを特定する静電 相互作用部位特定手段と、
上記疎水面特定手段にて特定された上記疎水性相互作用エネルギー、 および、 上記静電相互作用部位特定手段にて特定された上記静電相互作用エネルギーに 基づいて不安定性の高い上記ァミノ酸残基の部位を特定することにより相互作 用部位を特定する相互作用部位特定手段と、
を備えたことを特徴とするタンパク質相互作用情報処理装置。
2 6 . 上記構造データ取得手段にて取得した上記構造データに従って、 上記 一次構造データを構成するァミノ酸残基毎に溶媒接触面を特定する溶媒接触面 特定手段、
をさらに備え、
上記相互作用部位特定手段は、 上記溶媒接触面特定手段にて特定された上記 溶媒接触面、 上記疎水面特定手段にて特定された上記疎水性相互作用エネルギ 一、 および、 上記静電相互作用部位特定手段にて特定された上記静電相互作用 エネルギーに基づいて不安定性の高い上記ァミノ酸残基の部位を特定すること により相互作用部位を特定することを特徴とする請求の範囲第 2 5項に記載の タンパク質相互作用情報処理装置。
2 7 . 上記相互作用部位特定手段にて特定された上記相互作用部位について、 相互作用する相手側の一次配列を特定し、 当該一次配列を含む一次構造を持つ 候補タンパク質を検索する候補タンパク質検索手段、
をさらに備え、
上記候捕タンパク質検索手段にて検索された上記候補タンパク質について、 上記相手側の一次配列の部分が上記候補タンパク質の相互作用部位として特定 されるか否かを確認することを特徴とする請求の範囲第 2 5項または第 2 6項 に記載のタンパク質相互作用情報処理装置。
2 8 . 相互作用する複数のタンパク質の一次構造データと単体時および Zま たは複合体形成時の立体構造データとを含む構造データを取得する構造データ 取得ステップと、
上記構造データ取得ステツプにて取得した上記構造データに従つて、 上記一 次構造データを構成するァミノ酸残基毎に疎水性相互作用エネルギーを特定す る竦水面特定ステップと、
上記構造データ取得ステップにて取得した上記構造データに従って、 上記一 次構造データを構成するアミノ酸残基毎に静電相互作用エネルギーを特定する 静電相互作用部位特定ステツプと、
上記疎水面特定ステップにて特定された上記疎水性相互作用エネルギー、 お よび、 上記静電相互作用部位特定ステップにて特定された上記静電相互作用ェ ネルギーに基づいて不安定性の高い上記ァミノ酸残基の部位を特定することに より相互作用部位を特定する相互作用部位特定ステップと、 を含むことを特徴とするタンパク質相互作用情報処理方法。
2 9 . 上記構造データ取得ステップにて取得した上記構造データに従って、 上記一次構造データを構成するァミノ酸残基毎に溶媒接触面を特定する溶媒接 触面特定ステップ、
をさらに含み、
上記相互作用部位特定ステップは、 上記溶媒接触面特定ステップにて特定き れた上記溶媒接触面、 上記疎水面特定ステップにて特定された上記疎水性相互 作用エネルギー、 および、 上記静電相互作用部位特定ステップにて特定された 上記静電相互作用エネルギーに基づいて不安定性の高い上記ァミノ酸残基の部 位を特定することにより相互作用部位を特定することを特徴とする請求の範囲 第 2 8項に記載のタンパク質相互作用情報処理方法。
3 0 . 上記相互作用部位特定ステップにて特定された上記相互作用部位につ いて、 相互作用する相手側の一次配列を特定し、 当該一次配列を含む一次構造 を持つ候補タンパク質を検索する候補タンパク質検索ステップ、
をさらに含み、
上記候補タンパク質検索ステップにて検索された上記候捕タンパク質につい て、 上記相手側の一次配列の部分が上記候補タンパク質の相互作用部位として 特定されるか否かを確認することを特徴とする請求の範囲第 2 8項または第 2 9項に記載のタンパク質相互作用情報処理方法。
3 1 . 相互作用する複数のタンパク質の一次構造データと単体時および/ま たは複合体形成時の立体構造データとを含む構造データを取得する構造データ 取得ステップと、
上記構造データ取得ステップにて取得した上記構造データに従って、 上記一 次構造データを構成するアミノ酸残基毎に疎水性相互作用エネルギーを特定す る疎水面特定ステップと、
上記構造データ取得ステップにて取得した上記構造データに従って、 上記一 次構造データを構成するアミノ酸残基毎に静電相互作用エネルギーを特定する 静電相互作用部位特定ステツプと、
上記疎水面特定ステップにて特定された上記疎水性相互作用エネルギー、 お よび、 上記静電相互作用部位特定ステップにて特定された上記静電相互作用ェ ネルギーに基づいて不安定性の高い上記ァミノ酸残基の部位を特定することに より相互作用部位を特定する相互作用部位特定ステップと、
を含むタンパク質相互作用情報処理方法をコンピュータに実行させることを 特徴とするプログラム。
3 2 . 上記構造データ取得ステップにて取得した上記構造データに従って、 上記一次構造データを構成するアミノ酸残基毎に溶媒接触面を特定する溶媒接 触面特定ステップ、
をさらに含み、
上記相互作用部位特定ステップは、 上記溶媒接触面特定ステップにて特定さ れた上記溶媒接触面、 上記疎水面特定ステツプにて特定された上記疎水性相互 作用エネルギー、 および、 上記静電相互作用部位特定ステップにて特定された 上記静電相互作用エネルギーに基づいて不安定性の高い上記アミノ酸残基の部 位を特定することにより相互作用部位を特定することを特徴とする請求の範囲 第 3 1項に記載のプログラム。
3 3 . 上記相互作用部位特定ステップにて特定された上記相互作用部位につ いて、 相互作用する相手側の一次配列を特定し、 当該一次配列を含む一次構造 を持つ候補タンパク質を検索する候補タンパク質検索ステップ、
をさらに含み、
上記候補タンパク質検索ステップにて検索された上記候補タンパク質につい て、 上記相手側の一次配列の部分が上記候補タンパク質の相互作用部位として 特定されるか否かを確認することを特徴とする請求の範囲第 3 1項または第 3 2項に記載のプログラム。
3 4 . 上記請求の範囲第 3 1項から第 3 3項のいずれか一つに記載されたプ ログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
3 5 . 蛋白質または生理活性ポリペプチドのアミノ酸配列データから当該蛋 白質または生理活性ポリべプチドの立体構造における各アミノ酸残基間の空間 上の距離データを求め、 当該距離データと各アミノ酸の電荷に従って静電的に 不安定なァミノ酸残基を特定することにより結合部位を予測することを特徴と する結合部位予測方法。
3 6 . 目的の蛋白質または生理活性ポリぺプチドのァミノ酸配列データを取 得するァミノ酸配列データ取得ステツプと、
上記ァミノ酸配列データ取得ステツプにより取得されたァミノ酸配列データ に含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステツ プと、
上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電 荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距 離と、 上記電荷決定ステップにより決定された各ァミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記エネルギー計算ステップにより計算された上記エネルギーに従って、 結 合部位となる候補アミノ酸残基を決定する候補アミノ酸残基決定ステップと、 を含むことを特徴とする結合部位予測方法。
3 7 . 目的の複数の蛋白質または生理活性ポリぺプチドのァミノ酸配列デー タを取得するァミノ酸配列データ取得ステツプと、
上記目的の複数の蛋白質または生理活性ポリぺプチドの結合した複合体の立 体構造情報を生成する複合体構造生成ステップと、
上記ァミノ酸配列データ取得ステツプにより取得された複数のァミノ酸配列 データに含まれる各ァミノ酸残基の間の空間上の距離を、 上記複合体構造生成 ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離 決定ステップと、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定 する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距 離と、 上記電荷決定ステップにより決定された各アミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記複合体構造生成ステップにより上記複合体について結合部位を変えて上 記複合体の立体構造情報を生成し、 上記エネルギー計算ステップにより各アミ ノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位 を求めるエネルギー最小化ステップと、
上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部 位を、 結合部位の候補ァミノ酸残基として決定する候補ァミノ酸残基決定ステ ップと、
を含むことを特徴とする結合部位予測方法。
3 8 . 目的の蛋白質または生理活性ポリぺプチドのァミノ酸配列データと、 結合候補となる 1つまたは複数の蛋白質または生理活性ポリぺプチドのァミノ 酸配列データとを取得するァミノ酸配列データ取得ステツプと、
上記目的の蛋白質または生理活性ポリぺプチドと、 上記結合候補となる蛋白 質または生理活性ポリべプチドとが結合した複合体の立体構造情報を生成する 複合体構造生成ステツプと、
上記ァミノ酸配列データ取得ステツプにより取得された目的のァミノ酸配列 データと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間 上の距離を、 上記複合体構造生成ステップにより生成した上記複合体の立体構 造情報に従って決定する空間距離決定ステップと、
上記目的のァミノ酸配列データと上記結合候補のァミノ酸配列データに含ま れる各ァミノ酸残基が持つ電荷を決定する電荷決定ステツプと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距 離と、 上記電荷決定ステツプにより決定された各ァミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記複合体構造生成ステップにより上記複合体について結合部位を変えて上 記複合体の立体構造情報を生成し、 上記エネルギー計算ステップにより各アミ ノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位 を求めるエネノレギー最小化ステップと、
全ての結合候補について上記エネルギー最小化ステップを実行した結果、 上 記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補 決定ステップと、
を含むことを特徴とする結合部位予測方法。
3 9 . 目的の蛋白質または生理活性ポリペプチドのアミノ酸配列データを取 得するァミノ酸配列データ取得手段と、
上記アミノ酸配列データ取得手段により取得されたアミノ酸配列データに含 まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定手段と、 上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電 荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、 上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、 各 ァミノ酸残基のエネルギーを計算するエネルギー計算手段と、 上記エネルギー計算手段により計算された上記エネルギーに従つて、 結合部 位となる候補ァミノ酸残基を決定する候補ァミノ酸残基決定手段と、
を備えたことを特徴とする結合部位予測装置。
4 0 . 目的の複数の蛋白質または生理活性ポリぺプチドのァミノ 貪配列デー タを取得するァミノ酸配列データ取得手段と、
上記目的の複数の蛋白質または生理活性ポリぺプチドの結合した複合体の立 体構造情報を生成する複合体構造生成手段と、
上記ァミノ酸配列データ取得手段により取得された複数のァミノ酸配列デー タに含まれる各アミノ酸残基の間の空間上の距離を、 上記複合体構造生成手段 により生成した上記複合体の立体構造情報に従って決定する空間距離決定手段 と、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定 する電荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、 上記電荷決定手段により決定された各ァミノ酸残基が持つ電荷とに従って、 各 アミノ酸残基のエネルギーを計算するエネルギー計算手段と、
上記複合体構造生成手段により上記複合体について結合部位を変えて上記複 合体の立体構造情報を生成し、 上記エネルギー計算手段により各ァミノ酸残基 のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位を求める エネルギー最小化手段と、
上記エネルギー最小化手段によりエネルギーの総和が最小となる結合部位を、 結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定手段と、 を備えたことを特徴とする結合部位予測装置。
4 1 . 目的の蛋白質または生理活性ポリペプチドのァミノ酸配列データと、 結合候補となる 1つまたは複数の蛋白質または生理活性ポリぺプチドのァミノ 酸配列データとを取得するァミノ酸配列データ取得手段と、
上記目的の蛋白質または生理活性ポリぺプチドと、 上記結合候補となる蛋白 質または生理活性ポリぺプチドとが結合した複合体の立体構造情報を生成する 複合体構造生成手段と、
上記アミノ酸配列データ取得手段により取得された目的のアミノ酸配列デー タと結合候補のアミノ酸配列データに含まれる各アミノ酸残基の間の空間上の 距離を、 上記複合体構造生成手段により生成した上記複合体の立体構造情報に 従つて決定する空間距離決定手段と、
上記目的のァミノ酸配列データと上記結合候補のァミノ酸配列データに含ま れる各アミノ酸残基が持つ電荷を決定する電荷決定手段と、
上記空間距離決定手段により決定された各アミノ酸残基間の空間上の距離と、 上記電荷決定手段により決定された各アミノ酸残基が持つ電荷とに従って、 各 アミノ酸残基のエネ^^ギーを計算するエネルギー計算手段と、
上記複合体構造生成手段により上記複合体について結合部位を変えて上記複 合体の立体構造情報を生成し、 上記エネルギー計算手段により各アミノ酸残基 のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位を求める エネルギー最小化手段と、
全ての結合候補について上記エネルギー最小化手段を実行した結果、 上記ェ ネルギ一の総和が最小となる結合部位をもつ結合候補を決定する結合候補決定 手段と、
を備えたことを特徴とする結合部位予測装置。
4 2 . 目的の蛋白質または生理活性ポリぺプチドのァミノ酸配列データを取 得するァミノ酸配列データ取得ステツプと、
上記ァミノ酸配列データ取得ステツプにより取得されたァミノ酸配列データ に含まれる各アミノ酸残基の間の空間上の距離を決定する空間距離決定ステツ プと、
上記アミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定する電 荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距 離と、 上記電荷決定ステツプにより決定された各ァミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記エネルギー計算ステップにより計算された上記エネルギーに従って、 結 合部位となる候補ァミノ酸残基を決定する候補ァミノ酸残基決定ステツプと、 を含む結合部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。
4 3 . 目的の複数の蛋白質または生理活性ポリぺプチドのァミノ酸配列デー タを取得するァミノ酸配列データ取得ステツプと、
上記目的の複数の蛋白質または生理活性ポリぺプチドの結合した複合体の立 体構造情報を生成する複合体構造生成ステツプと、
上記アミノ酸配列データ取得ステツプにより取得された複数のァミノ酸配列 データに含まれる各アミノ酸残基の間の空間上の距離を、 上記複合体構造生成 ステップにより生成した上記複合体の立体構造情報に従って決定する空間距離 決定ステップと、
上記複数のアミノ酸配列データに含まれる各アミノ酸残基が持つ電荷を決定 する電荷決定ステップと、
上記空間距離決定ステップにより決定された各アミノ酸残基間の空間上の距 離と、 上記電荷決定ステツプにより決定された各ァミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記複合体構造生成ステップにより上記複合体について結合部位を変えて上 記複合体の立体構造情報を生成し、 上記エネルギー計算ステップにより各アミ ノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位 を求めるエネルギー最小化ステップと、
上記エネルギー最小化ステップによりエネルギーの総和が最小となる結合部 位を、 結合部位の候補アミノ酸残基として決定する候補アミノ酸残基決定ステ ップと、
を含む結合部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。
4 4 . 目的の蛋白質または生理活性ポリぺプチドのァミノ酸配列データと、 結合候補となる 1つまたは複数の蛋白質または生理活性ポリぺプチドのァミノ 酸配列データとを取得するァミノ酸配列データ取得ステップと、
上記目的の蛋白質または生理活性ポリぺプチドと、 上記結合候補となる蛋白 質または生理活性ポリぺプチドとが結合した複合体の立体構造情報を生成する 複合体構造生成ステップと、
上記ァミノ酸配列データ取得ステツプにより取得された目的のァミノ酸配列 データと結合候補のァミノ酸配列データに含まれる各ァミノ酸残基の間の空間 上の距離を、 上記複合体構造生成ステップにより生成した上記複合体の立体構 造情報に従って決定する空間距離決定ステップと、
上記目的のァミノ酸配列データと上記結合候補のァミノ酸配列データに含ま れる各ァミノ酸残基が持つ電荷を決定する電荷決定ステップと、
上記空間距離決定ステップにより決定された各ァミノ酸残基間の空間上の距 離と、 上記電荷決定ステップにより決定された各ァミノ酸残基が持つ電荷とに 従って、 各アミノ酸残基のエネルギーを計算するエネルギー計算ステップと、 上記複合体構造生成ステップにより上記複合体について結合部位を変えて上 記複合体の立体構造情報を生成し、 上記エネルギー計算ステップにより各アミ ノ酸残基のエネルギーを計算し、 当該エネルギーの総和が最小となる結合部位 を求めるエネルギー最小化ステップと、
全ての結合候補について上記エネルギー最小化ステップを実行した結果、 上 記エネルギーの総和が最小となる結合部位をもつ結合候補を決定する結合候補 決定ステップと、
を含む結合部位予測方法をコンピュータに実行させることを特徴とするプロ グラム。
4 5 . 上記請求の範囲第 4 2項から第 4 4項のいずれか一つに記載されたプ ログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
4 6 . タンパク質の座標データを取得する座標データ取得手段と、
上記タンパク質の座標データについて、 特定のァミノ酸残基から所定の距離 内に含まれる近傍アミノ酸残基群の座標を抽出する近傍アミノ酸残基群抽出手 段と、
上記近傍ァミノ酸残基群の切り口の部分にキヤップ用置換基を付加するキヤ ップ付加手段と、
上記キヤップ付加手段により上記キヤップ用置換基が付加された上記近傍ァ ミノ酸残基群の全体の電荷を計算する電荷計算手段と、
上記キヤップ付加手段により上記キヤップ用置換基が付加された上記近傍ァ ミノ酸残基群について、 上記電荷計算手段により計算された上記電荷を用いて 上記特定のァミノ酸残基の原子座標について構造最適化を実行する構造最適化 手段と、
上記構造最適化手段にて最適化された上記原子座標を、 上記タンパク質の座 標データ上の対応する原子座標と置換する原子座標置換手段と、
を備えたことを特徴とするタンパク質構造最適化装置。
4 7 . 上記キャップ用置換基は、 水素原子 (H) またはメチル基 ( C H3) であること、 '
を特徴とする請求の範囲第 4 6項に記載のタンパク質構造最適化装置。
48 · 上記近傍ァミノ酸残基群抽出手段は、
抽出した上記近傍アミノ酸残基群の中にシスティン (CYS) が含まれてい る場合には、 当該システィン (CYS) とジスルフィ ド結合をしておりかつ上 記近傍アミノ酸残基群には含まれない別のシスティン (CYS) が存在してい るか判定し、 当該別のシスティン (CYS) が存在する場合には当該別のシス ティン (CYS) も近傍アミノ酸残基群に加えること、
を特徴とする請求の範囲第 46項または第 47項に記載のタンパク質構造最 適化装置。
49. タンパク質の座標データを取得する座標データ取得ステップと、 上記タンパク質の座標データについて、 特定のアミノ酸残基から所定の距離 内に含まれる近傍アミノ酸残基群の座標を抽出する近傍アミノ酸残基群抽出ス テツプと、
上記近傍ァミノ酸残基群の切り口の部分にキヤップ用置換基を付加するキヤ ップ付加ステップと、
上記キヤップ付加ステップにより上記キヤップ用置換基が付加された上記近 傍ァミノ酸残基群の全体の電荷を計算する電荷計算ステップと、
上記キヤップ付加ステップにより上記キヤップ用置換基が付加された上記近 傍アミノ酸残基群について、 上曾己電荷計算ステップにより計算された上記電荷 を用いて上記特定のアミノ酸残基の原子座標について構造最適化を実行する構 造最適化ステップと、
上記構造最適化ステツプにて最適化された上記原子座標を、 上記タンパク質 の座標データ上の対応する原子座標と置換する原子座標置換ステツプと、 を含むことを特徴とするタンパク質構造最適化方法。
50. 上記キャップ用置換基は、 水素原子 (H) またはメチル基 (CH3) であること、
を特徴とする請求の範囲第 49項に記載のタンパク質構造最適化方法。
5 1. 上記近傍ァミノ酸残基群抽出ステップは、
抽出した上記近傍アミノ酸残基群の中にシスティン (CYS) が含まれてい る場合には、 当該システィン (CYS) とジスルフイ ド結合をしておりかつ上 記近傍アミノ酸残基群には含まれない別のシスティン (CYS) が存在してい るか判定し、 当該別のシスティン (CYS) が存在する場合には当該別のシス ティン (CYS) も近傍アミノ酸残基群に加えること、
を特徴とする請求の範囲第 49項または第 50項に記載のタンパク質構造最 適化方法。
52. タンパク質の座標データを取得する座標データ'取得ステツプと、 上記タンパク質の座標データについて、 特定のアミノ酸残基から所定の距離 内に含まれる近傍アミノ酸残基群の座標を抽出する近傍アミノ酸残基群抽出ス 上記近傍ァミノ酸残基群の切り口の部分にキヤップ用置換基を付加するキヤ ップ付加ステップと、
上記キヤップ付加ステップにより上記キヤップ用置換基が付加された上記近 傍ァミノ酸残基群の全体の電荷を計算する電荷計算ステツプと、
上記キヤップ付加ステップにより上記キヤップ用置換基が付加された上記近 傍ァミノ酸残基群について、 上記電荷計算ステップにより計算された上記電荷 を用いて上記特定のァミノ酸残基の原子座標について構造最適化を実行する構 造最適化ステップと、
上記構造最適化ステップにて最適化された上記原子座標を、 上記タンパク質 の座標データ上の対応する原子座標と置換する原子座標置換 を含むタンパク質構造最適化方法をコンピュータに実行させることを特徴と するプログラム。
53. 上記キャップ用置換基は、 水素原子 (H) またはメチル基 (CH3) であること、
を特徴とする請求の範囲第 52項に記載のプログラム。
54. 上記近傍ァミノ酸残基群抽出ステツプは、
抽出した上記近傍アミノ酸残基群の中にシスティン (CYS) が含まれてい る場合には、 当該システィン (CYS) とジスノレフィド結合をしておりかつ上 記近傍アミノ酸残基群には含まれない別のシスティン (CYS) が存在してい るか判定し、 当該別のシスティン (CYS) が存在する場合には当該別のシス ティン (CYS) も近傍アミノ酸残基群に加えること、
を特徴とする請求の範囲第 52項または第 53項に記載のプログラム。
55. 上記請求の範囲第 52項から 54項のいずれか一つに記載されたプロ グラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2003/006952 2002-05-31 2003-06-02 相互作用予測装置 WO2003107218A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/516,133 US20050130224A1 (en) 2002-05-31 2003-06-02 Interaction predicting device
EP03733232A EP1510943A4 (en) 2002-05-31 2003-06-02 INTERACTION PREDICTION DEVICE

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2002160781A JP2004002238A (ja) 2002-05-31 2002-05-31 活性部位予測方法、活性部位予測装置、プログラム、および、記録媒体
JP2002-160781 2002-05-31
JP2002-160782 2002-05-31
JP2002160782 2002-05-31
JP2002-275300 2002-09-20
JP2002275300A JP3990963B2 (ja) 2002-09-20 2002-09-20 結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体
JP2002371038A JP2004206171A (ja) 2002-12-20 2002-12-20 タンパク質構造最適化装置、タンパク質構造最適化方法、プログラム、および、記録媒体
JP2002-371038 2002-12-20

Publications (1)

Publication Number Publication Date
WO2003107218A1 true WO2003107218A1 (ja) 2003-12-24

Family

ID=29740940

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/006952 WO2003107218A1 (ja) 2002-05-31 2003-06-02 相互作用予測装置

Country Status (3)

Country Link
US (1) US20050130224A1 (ja)
EP (1) EP1510943A4 (ja)
WO (1) WO2003107218A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8945543B2 (en) 2005-06-10 2015-02-03 Chugai Seiyaku Kabushiki Kaisha Stabilizer for protein preparation comprising meglumine and use thereof
US9241994B2 (en) 2005-06-10 2016-01-26 Chugai Seiyaku Kabushiki Kaisha Pharmaceutical compositions containing sc(Fv)2
US9493569B2 (en) 2005-03-31 2016-11-15 Chugai Seiyaku Kabushiki Kaisha Structural isomers of sc(Fv)2
US9758805B2 (en) 2012-04-20 2017-09-12 Merus N.V. Methods and means for the production of Ig-like molecules
US9914777B2 (en) 2015-07-10 2018-03-13 Merus N.V. Human CD3 binding antibody
RU2680217C1 (ru) * 2017-12-25 2019-02-18 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский государственный энергетический университет" (ФГБОУ ВО "КГЭУ") Цифровое прогнозирующее устройство
US10358492B2 (en) 2012-09-27 2019-07-23 Merus N.V. Bispecific IgG antibodies as T cell engagers
US10844127B2 (en) 2014-02-28 2020-11-24 Merus N.V. Antibodies that bind EGFR and ErbB3
US11180572B2 (en) 2012-07-06 2021-11-23 Genmab B.V. Dimeric protein with triple mutations
US11279770B2 (en) 2014-02-28 2022-03-22 Merus N.V. Antibody that binds ErbB-2 and ErbB-3
US11773170B2 (en) 2017-08-09 2023-10-03 Merus N.V. Antibodies that bind EGFR and cMET
US11780925B2 (en) 2017-03-31 2023-10-10 Merus N.V. ErbB-2 and ErbB3 binding bispecific antibodies for use in the treatment of cells that have an NRG1 fusion gene
US11939394B2 (en) 2015-10-23 2024-03-26 Merus N.V. Binding molecules that inhibit cancer growth

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7696325B2 (en) * 1999-03-10 2010-04-13 Chugai Seiyaku Kabushiki Kaisha Polypeptide inducing apoptosis
JPWO2002033072A1 (ja) 2000-10-20 2004-02-26 中外製薬株式会社 低分子化tpoアゴニスト抗体
CN1308447C (zh) * 2000-10-20 2007-04-04 中外制药株式会社 低分子化的激动剂抗体
WO2004033499A1 (ja) * 2002-10-11 2004-04-22 Chugai Seiyaku Kabushiki Kaisha 細胞死誘導剤
JP2004279086A (ja) * 2003-03-13 2004-10-07 Konica Minolta Holdings Inc 放射線画像変換パネル及び放射線画像変換パネルの製造方法
WO2004087763A1 (ja) * 2003-03-31 2004-10-14 Chugai Seiyaku Kabushiki Kaisha Cd22に対する改変抗体およびその利用
US8597911B2 (en) * 2003-06-11 2013-12-03 Chugai Seiyaku Kabushiki Kaisha Process for producing antibodies
WO2005035754A1 (ja) * 2003-10-14 2005-04-21 Chugai Seiyaku Kabushiki Kaisha 機能蛋白質を代替する二重特異性抗体
AU2003271174A1 (en) 2003-10-10 2005-04-27 Chugai Seiyaku Kabushiki Kaisha Double specific antibodies substituting for functional protein
TW200530266A (en) * 2003-12-12 2005-09-16 Chugai Pharmaceutical Co Ltd Method of reinforcing antibody activity
AU2004297109A1 (en) * 2003-12-12 2005-06-23 Chugai Seiyaku Kabushiki Kaisha Cell death inducing agent
JPWO2005056602A1 (ja) * 2003-12-12 2008-03-06 中外製薬株式会社 アゴニスト活性を有する改変抗体のスクリーニング方法
TW200530269A (en) * 2003-12-12 2005-09-16 Chugai Pharmaceutical Co Ltd Anti-Mpl antibodies
WO2006106905A1 (ja) 2005-03-31 2006-10-12 Chugai Seiyaku Kabushiki Kaisha 会合制御によるポリペプチド製造方法
PL1876236T3 (pl) * 2005-04-08 2015-01-30 Chugai Pharmaceutical Co Ltd Przeciwciała zastępujące czynność czynnika krzepnięcia VIII
EP1927367A4 (en) * 2005-05-18 2009-08-12 Univ Tokushima NOVEL PHARMACEUTICAL AGENT BASED ON AN ANTI-HLA ANTIBODY
DK2009101T3 (en) * 2006-03-31 2018-01-15 Chugai Pharmaceutical Co Ltd Antibody modification method for purification of a bispecific antibody
US11046784B2 (en) 2006-03-31 2021-06-29 Chugai Seiyaku Kabushiki Kaisha Methods for controlling blood pharmacokinetics of antibodies
PE20081004A1 (es) * 2006-07-13 2008-09-18 Chugai Pharmaceutical Co Ltd Agentes inductores de muerte celular
CL2008000719A1 (es) * 2007-03-12 2008-09-05 Univ Tokushima Chugai Seiyaku Agente terapeutico para cancer resistente a agentes quimioterapeuticos que comprende un anticuerpo que reconoce hla de clase i como ingrediente activo; composicion farmaceutica que comprende dicho anticuerpo; y metodo para tratar cancer resistente a
WO2008134261A2 (en) * 2007-04-27 2008-11-06 The Research Foundation Of State University Of New York A method for protein structure determination, gene identification, mutational analysis, and protein design
SI2202245T1 (sl) 2007-09-26 2016-10-28 Chugai Seiyaku Kabushiki Kaisha Postopek modificiranja izoelektrične točke protitelesa preko aminokislinske substitucije v CDR
MY163473A (en) * 2007-09-26 2017-09-15 Chugai Pharmaceutical Co Ltd Modified antibody constant region
DK2236604T3 (en) 2007-12-05 2016-10-03 Chugai Pharmaceutical Co Ltd The anti-NR10 antibody and use thereof
CN107488228A (zh) 2008-04-11 2017-12-19 中外制药株式会社 与多个分子的抗原反复结合的抗原结合分子
TWI440469B (zh) 2008-09-26 2014-06-11 Chugai Pharmaceutical Co Ltd Improved antibody molecules
JP5787446B2 (ja) 2009-03-19 2015-09-30 中外製薬株式会社 抗体定常領域改変体
WO2010107110A1 (ja) 2009-03-19 2010-09-23 中外製薬株式会社 抗体定常領域改変体
US10150808B2 (en) 2009-09-24 2018-12-11 Chugai Seiyaku Kabushiki Kaisha Modified antibody constant regions
WO2011100395A1 (en) * 2010-02-11 2011-08-18 The Research Foundation Of State University Of New York Computational methods for protein structure determination
EP2543730B1 (en) 2010-03-04 2018-10-31 Chugai Seiyaku Kabushiki Kaisha Antibody constant region variant
CN105859889B (zh) 2010-11-17 2020-01-07 中外制药株式会社 具有代替凝血因子viii的功能的功能的多特异性抗原结合分子
TWI638833B (zh) 2010-11-30 2018-10-21 中外製藥股份有限公司 細胞傷害誘導治療劑
RU2658504C9 (ru) 2010-11-30 2018-08-21 Чугаи Сейяку Кабусики Кайся Антигенсвязывающая молекула, способная многократно связываться с множеством антигенных молекул
RU2450343C1 (ru) * 2011-03-16 2012-05-10 Государственное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (КГЭУ) Цифровое прогнозирующее и дифференцирующее устройство
BR112014010257A2 (pt) 2011-10-31 2017-04-18 Chugai Pharmaceutical Co Ltd molécula de ligação ao antígeno tendo conjugação regulada entre cadeias pesadas e cadeias leves
RU2470359C1 (ru) * 2011-11-03 2012-12-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Цифровое прогнозирующее и дифференцирующее устройство
US10158898B2 (en) 2012-07-26 2018-12-18 Comcast Cable Communications, Llc Customized options for consumption of content
CN102930180B (zh) * 2012-10-25 2015-07-29 清华大学 确定蛋白质疏水能量的方法与装置
RU2517316C1 (ru) * 2012-11-27 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Адаптивное цифровое прогнозирующее устройство
RU2517317C1 (ru) * 2012-11-27 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Адаптивное цифровое прогнозирующее и дифференцирующее устройство
BR112016006197B1 (pt) 2013-09-27 2023-04-11 Chugai Seiyaku Kabushiki Kaisha Método para produzir um anticorpo biespecífico de polipeptídeos
MA40764A (fr) 2014-09-26 2017-08-01 Chugai Pharmaceutical Co Ltd Agent thérapeutique induisant une cytotoxicité
KR20180095740A (ko) 2015-02-27 2018-08-27 추가이 세이야쿠 가부시키가이샤 Il-6 관련 질환 치료용 조성물
WO2016159213A1 (ja) 2015-04-01 2016-10-06 中外製薬株式会社 ポリペプチド異種多量体の製造方法
EP3398965A4 (en) 2015-12-28 2019-09-18 Chugai Seiyaku Kabushiki Kaisha METHOD FOR PROMOTING THE EFFICACY OF PURIFYING A POLYPEPTIDE CONTAINING AN FC REGION
RU2643645C2 (ru) * 2016-02-09 2018-02-02 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Цифровое прогнозирующее устройство
RU2629643C2 (ru) * 2016-02-09 2017-08-30 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Адаптивное цифровое прогнозирующее устройство
RU2626338C1 (ru) * 2016-02-09 2017-07-26 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Казанский государственный энергетический университет" (ФГБОУ ВПО "КГЭУ") Адаптивное цифровое сглаживающее и прогнозирующее устройство
EP3431102A4 (en) 2016-03-14 2019-09-25 Chugai Seiyaku Kabushiki Kaisha THERAPEUTIC MEDICINE INDUCING CELLULAR INJURY FOR USE IN THE TREATMENT OF CANCER
CN106529206B (zh) * 2016-12-20 2019-02-22 大连海事大学 一种蛋白质二维结构图功能元件的自动布线方法
JP7185884B2 (ja) 2017-05-02 2022-12-08 国立研究開発法人国立精神・神経医療研究センター Il-6及び好中球の関連する疾患の治療効果の予測及び判定方法
RU2665906C1 (ru) * 2017-07-17 2018-09-04 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский государственный энергетический университет" (ФГБОУ ВО "КГЭУ") Самонастраивающееся цифровое сглаживающее устройство
CN107633159B (zh) * 2017-08-21 2020-06-02 浙江工业大学 一种基于距离相似度的蛋白质构象空间搜索方法
RU2680215C1 (ru) * 2017-12-25 2019-02-18 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский государственный энергетический университет" (ФГБОУ ВО "КГЭУ") Адаптивное цифровое прогнозирующее устройство
CN110148437B (zh) * 2019-04-16 2021-01-01 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法
RU2707417C1 (ru) * 2019-05-14 2019-11-26 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский государственный энергетический университет" (ФГБОУ ВО "КГЭУ") Адаптивное цифровое прогнозирующее устройство
CN110689918B (zh) * 2019-09-24 2022-12-09 上海宽慧智能科技有限公司 蛋白质三级结构的预测方法及***
CN110910953B (zh) * 2019-11-28 2022-09-13 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993020525A1 (en) * 1992-03-27 1993-10-14 Akiko Itai Method of searching the structure of stable biopolymer-ligand molecule composite
JPH05282381A (ja) * 1992-03-31 1993-10-29 Fujitsu Ltd 蛋白質分子立体構造解析装置
JP2000143554A (ja) * 1998-09-11 2000-05-23 Inst Of Physical & Chemical Res 分子の反応特性予測方法
JP2003196290A (ja) * 2001-12-27 2003-07-11 Celestar Lexico-Sciences Inc 相互作用部位予測装置、相互作用部位予測方法、プログラム、および、記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385546B1 (en) * 1996-11-15 2002-05-07 Rutgers, The University Of New Jersey Stabilizing and destabilizing proteins
IL141510A0 (en) * 1998-08-25 2002-03-10 Scripps Research Inst Method and systems for predicting protein function
AU2352601A (en) * 2000-01-05 2001-07-16 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993020525A1 (en) * 1992-03-27 1993-10-14 Akiko Itai Method of searching the structure of stable biopolymer-ligand molecule composite
JPH05282381A (ja) * 1992-03-31 1993-10-29 Fujitsu Ltd 蛋白質分子立体構造解析装置
JP2000143554A (ja) * 1998-09-11 2000-05-23 Inst Of Physical & Chemical Res 分子の反応特性予測方法
JP2003196290A (ja) * 2001-12-27 2003-07-11 Celestar Lexico-Sciences Inc 相互作用部位予測装置、相互作用部位予測方法、プログラム、および、記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AKABANE, UMEYAMA: "Yakubutsu-juyotai sosui sogo sayo", GENDAI KAGAKU, SPECIAL EXTRA ISSUE 13, SHIN'YAKU NO LEAD GENERATION -SAISHIN DRUG DESIGN-, 20 November 1987 (1987-11-20), pages 136 - 148, XP002974175 *
FURUTA ET AL.: "Tanpakushitsu no niji kozo yosoku shien expert-expert system", INFORMATION PROCESSING SOCIETY OF JAPAN DAI 33 KAI (SHOWA 61 NEN KOKI) ZENKOKU TAIKAI KOEN RONBUNSHU (II), 1 October 1986 (1986-10-01), pages 1197 - 1198, XP002974174 *
KOMATSU, UMEYAMA: "Yakubutsu-juyotai seiden sogo sayo", GENDAI KAGAKU, SPECIAL EXTRA ISSUE 13, SHIN'YAKU NO LEAD GENERATION -SAISHIN DRUG DESIGN-, 20 November 1987 (1987-11-20), pages 119 - 135, XP002974176 *
SATO ET AL.: "Ab initio pair kinjiho ni yoru heiretsu bunshi kido keisan program ABINIT-MP no sakusei to seino hyoka", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 41, no. SIG5(HPS1), 15 August 2000 (2000-08-15), pages 104 - 112, XP002974177 *
See also references of EP1510943A4 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9493569B2 (en) 2005-03-31 2016-11-15 Chugai Seiyaku Kabushiki Kaisha Structural isomers of sc(Fv)2
US9777066B2 (en) 2005-06-10 2017-10-03 Chugai Seiyaku Kabushiki Kaisha Pharmaceutical compositions containing sc(Fv)2
US9241994B2 (en) 2005-06-10 2016-01-26 Chugai Seiyaku Kabushiki Kaisha Pharmaceutical compositions containing sc(Fv)2
US8945543B2 (en) 2005-06-10 2015-02-03 Chugai Seiyaku Kabushiki Kaisha Stabilizer for protein preparation comprising meglumine and use thereof
US11926859B2 (en) 2012-04-20 2024-03-12 Merus N.V. Methods and means for the production of Ig-like molecules
US9758805B2 (en) 2012-04-20 2017-09-12 Merus N.V. Methods and means for the production of Ig-like molecules
US10329596B2 (en) 2012-04-20 2019-06-25 Merus N.V. Methods and means for the production of Ig-like molecules
US10337045B2 (en) 2012-04-20 2019-07-02 Merus N.V. Methods and means for the production of Ig-like molecules
US10752929B2 (en) 2012-04-20 2020-08-25 Merus N.V. Methods and means for the production of ig-like molecules
US11180572B2 (en) 2012-07-06 2021-11-23 Genmab B.V. Dimeric protein with triple mutations
US10358492B2 (en) 2012-09-27 2019-07-23 Merus N.V. Bispecific IgG antibodies as T cell engagers
US11279770B2 (en) 2014-02-28 2022-03-22 Merus N.V. Antibody that binds ErbB-2 and ErbB-3
US11820825B2 (en) 2014-02-28 2023-11-21 Merus N.V. Methods of treating a subject having an EGFR-positive and/or ErbB-3-positive tumor
US10844127B2 (en) 2014-02-28 2020-11-24 Merus N.V. Antibodies that bind EGFR and ErbB3
US9914777B2 (en) 2015-07-10 2018-03-13 Merus N.V. Human CD3 binding antibody
US11739148B2 (en) 2015-07-10 2023-08-29 Merus N.V. Human CD3 binding antibody
US10266593B2 (en) 2015-07-10 2019-04-23 Merus N.V. Human CD3 binding antibody
US11939394B2 (en) 2015-10-23 2024-03-26 Merus N.V. Binding molecules that inhibit cancer growth
US11780925B2 (en) 2017-03-31 2023-10-10 Merus N.V. ErbB-2 and ErbB3 binding bispecific antibodies for use in the treatment of cells that have an NRG1 fusion gene
US11773170B2 (en) 2017-08-09 2023-10-03 Merus N.V. Antibodies that bind EGFR and cMET
RU2680217C1 (ru) * 2017-12-25 2019-02-18 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский государственный энергетический университет" (ФГБОУ ВО "КГЭУ") Цифровое прогнозирующее устройство

Also Published As

Publication number Publication date
EP1510943A1 (en) 2005-03-02
EP1510943A4 (en) 2007-05-09
US20050130224A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
WO2003107218A1 (ja) 相互作用予測装置
Alber et al. Integrating diverse data for structure determination of macromolecular assemblies
Yang et al. AlphaFold2 and its applications in the fields of biology and medicine
Lee et al. Ab initio protein structure prediction
Jendrusch et al. AlphaDesign: A de novo protein design framework based on AlphaFold
Bonvin Flexible protein–protein docking
Zhang et al. Automated structure prediction of weakly homologous proteins on a genomic scale
Soto et al. Loop modeling: Sampling, filtering, and scoring
Ramos de Armas et al. Markovian Backbone Negentropies: Molecular descriptors for protein research. I. Predicting protein stability in Arc repressor mutants
Wei et al. ATSE: a peptide toxicity predictor by exploiting structural and evolutionary information based on graph neural network and attention mechanism
Halperin et al. SiteLight: binding‐site prediction using phage display libraries
Chen et al. M-TASSER: an algorithm for protein quaternary structure prediction
WO2000045334A1 (en) Protein modeling tools
Van Den Bedem et al. Real-space protein-model completion: an inverse-kinematics approach
Yu et al. Constructing query-driven dynamic machine learning model with application to protein-ligand binding sites prediction
Akter et al. Immunoinformatics approach to epitope-based vaccine design against the SARS-CoV-2 in Bangladeshi patients
Yeh et al. Calculation of protein heat capacity from replica-exchange molecular dynamics simulations with different implicit solvent models
Tan et al. Statistical potentials for 3D structure evaluation: from proteins to RNAs
Jarmolinska et al. Dca-mol: A pymol plugin to analyze direct evolutionary couplings
AU2016344716B2 (en) Structure based design of D-protein ligands
Simoncini et al. A structural homology approach for computational protein design with flexible backbone
Olson et al. Enhancing sampling of the conformational space near the protein native state
Meconi et al. Key aspects of the past 30 years of protein design
Cheung et al. Sibe: a computation tool to apply protein sequence statistics to predict folding and design in silico
Bravi Development and use of machine learning algorithms in vaccine target selection

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003733232

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10516133

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003733232

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2003733232

Country of ref document: EP