JP2017037377A - 情報処理装置、シミュレーション方法、およびシミュレーションプログラム - Google Patents

情報処理装置、シミュレーション方法、およびシミュレーションプログラム Download PDF

Info

Publication number
JP2017037377A
JP2017037377A JP2015156702A JP2015156702A JP2017037377A JP 2017037377 A JP2017037377 A JP 2017037377A JP 2015156702 A JP2015156702 A JP 2015156702A JP 2015156702 A JP2015156702 A JP 2015156702A JP 2017037377 A JP2017037377 A JP 2017037377A
Authority
JP
Japan
Prior art keywords
temperature
simulation
protein
oflood
structures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2015156702A
Other languages
English (en)
Inventor
朋健 中村
Tomotake Nakamura
朋健 中村
隆平 原田
Ryuhei Harada
隆平 原田
育照 重田
Yasuteru Shigeta
育照 重田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
University of Tsukuba NUC
Original Assignee
Fujitsu Ltd
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, University of Tsukuba NUC filed Critical Fujitsu Ltd
Priority to JP2015156702A priority Critical patent/JP2017037377A/ja
Priority to US15/228,540 priority patent/US20170039315A1/en
Publication of JP2017037377A publication Critical patent/JP2017037377A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】生体分子の天然構造を効率的に予測する。
【解決手段】記憶部11は、構造が変化する生体分子構造の集合を記憶する。演算部12は、生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させる。また演算部12は、温度パラメータの温度を低減させたとき、集合に低減前から含まれている構造に対するクラスタリングのはずれ値6となる構造を初期構造として、温度パラメータを用いた分子動力学シミュレーションを実行する。そして演算部12は、分子動力学シミュレーションの実行過程で生成された構造の記憶部11へ格納をする。
【選択図】図1

Description

本発明は、情報処理装置、シミュレーション方法、およびシミュレーションプログラムに関する。
タンパク質をはじめとする生体分子の天然構造を予測する手段として、コンピュータシミュレーションを用いることができる。例えば分子動力学(MD:Molecular Dynamics)シミュレーションによりタンパク質の構造探索を行うことで、天然構造を予測することができる。MDシミュレーションによるタンパク質の構造探索には、様々な方法が提案されている。例えば、OFLOODと呼ばれる、タンパク質の状態分布において出現頻度が低いはずれ値(Outlier)を検出し、それらを優先的に構造探索していくことにより、効率的に天然構造を予測する計算手法がある。
OFLOODでは、タンパク質の状態分布を調べるために、MDシミュレーションで得られた原子座標時系列データ(トラジェクトリ)の状態の分類(クラスタリング)が行われる。トラジェクトリは、時々刻々変化するタンパク質の原子座標の集合である。OFLOODでは、トラジェクトリに含まれるタンパク質構造のうち、いずれの安定構造(クラスタ)にも含まれないタンパク質構造がはずれ値として検出される。そしてOFLOODでは、はずれ値に対して、再度、短時間のMDシミュレーションが実行される。はずれ値を初期構造とする短時間MDシミュレーションにより、稀に発生するタンパク質構造を考慮に入れた、効率的なタンパク質の構造探索が可能となる。
なお、OFLOODにおけるクラスタリングでは、FlexDiceと呼ばれるクラスタリング手法が利用されている。FlexDiceは、高次元データ空間上の疎な領域によって分けられる密な領域のデータ要素をリアルタイムに集めるクラスタリング手法である。
また、タンパク質の天然構造を予測するための計算手法として、モンテカルロシミュレーションやMDシミュレーションに基づく、シミュレーテッドアニーリング(SA:Simulated Annealing)がある。SAは、金属を高温の液状にし、徐々に温度を下げることで、最小エネルギー状態を保持する秩序ある結晶構造の状態を作り出す「焼きなまし」をコンピュータ上で再現したものである。SAでは高温状態からスタートし、現在の状態近傍における解としてランダムに新しい構造を生成させ、新しく生成した構造が現在の状態と比較してエネルギー的に安定であれば無条件でその構造を解として採択する。もし新しく生成した構造が現在の状態と比較しエネルギー的に安定でなければ、確率的な判定条件に基づき、その構造を解として採択するかどうか決定する。通常最適な解を求める際には、温度を表すパラメータTが用いられ、Tの値が大きいほど広い範囲から解が探索される。Tの値は徐々に下げられ(徐冷され)、Tの値が十分に下がると、エネルギー的に安定した解(タンパク質の天然構造)が得られる。このようにSAでは局所探索法を実行する過程で確率的な振る舞いが加えられる。そのため、タンパク質の天然構造探索にSAを利用した場合、生成されるタンパク質の構造が局所最適解(準安定構造)で収束してしまうことに対する抑止効果が期待できる。
その他、計算手順が簡単であってしかも従来の方法に比較して大幅に正確な予測精度でタンパク質の天然構造を予測することができる予測演算方法が考えられている。また相互作用範囲の設定、更新を自動化したことにより、より短い時間で、プログラムの実行者の技術に依存せずに天然構造類似のタンパク質の構造予測を可能とする技術も考えられている。
特開平7−105236号公報 特開平7−152775号公報
Ryuhei Harada, Tomotake Nakamura, Yu Takano, and Yasuteru Shigeta, "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method" Journal of Computational Chemistry, January 15, 2015, Volume 36, Issue 2, pages 97-102. 中村 朋健, 上土井 陽子, 若林 真一, 吉田 典可、「FlexDice:高次元な大規模データセットに対する高速クラスタリング手法」、情報処理学会論文誌、データベース、Vol. 46、No. SIG 18、pp. 40-49、2005年12月. S. Kirkpatrick; C. D. Gelatt; M. P. Vecchi, "Optimization by Simulated Annealing", Science, May 13, 1983, Vol. 220, No. 4598. pp. 671-680.
従来、SAを用いてタンパク質の天然構造を予測する場合、1つの初期構造からスタートしたSAにより構造をトレースしていくことで、最安定構造(天然構造)を予測する。このとき、計算機の処理能力に応じ、実現可能な範囲内の速度で温度の徐冷を行うこととなる。すると、SAを用いても、実行可能な短時間のMDシミュレーションで生成されるタンパク質の構造が局所最適解(準安定状態)から抜け出せずに、最適解(天然構造)を見つけ出せない場合が発生する。なお、SAにおける温度の徐冷を極めてゆっくり行うことで、生成されるタンパク質の構造が局所最適解で収束してしまう可能性を低下させることはできるが、この場合、計算量が膨大となり、実現が困難である。
このような構造探索における計算量の問題は、タンパク質に限らず、構造が変化する物質(例えばタンパク質以外の生体分子や金属結晶)における最適解予測において、同様に存在する。
1つの側面では、本件は、生体分子の天然構造を効率的に予測することを目的とする。
1つの案では、構造が変化する生体分子の構造の集合を記憶する記憶部と、生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、温度パラメータの温度を低減させたとき、集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、温度パラメータを用いた分子動力学シミュレーションを実行し、該分子動力学シミュレーションの実行過程で生成された構造を集合に含める演算部と、を有する情報処理装置が提供される。
1態様によれば、生体分子の天然構造を効率的に予測することができる。
第1の実施の形態に係る情報処理装置の構成例を示す図である。 第2の実施の形態のコンピュータのハードウェアの一構成例を示す図である。 タンパク質天然構造予測シミュレーションの機能を示すブロック図である。 トラジェクトリの一例を示す図である。 タンパク質の構造データの一例を示す図である。 エネルギー情報の一例を示す図である。 FlexDiceによるクラスタリングの一例を示す図である。 タンパク質天然構造予測処理の手順の一例を示す図である。 タンパク質構造解析シミュレーションの手順の一例を示すフローチャートである。 OFLOODの適用の有無によるタンパク質構造の探索過程の相違を示す概念図である。 OFLOODを適用しないSAによる人工タンパク質Trp-cageのテスト計算例を示す図である。 OFLOODを適用したSAによる人工タンパク質Trp-cageのテスト計算例を示す図である。
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
まず、第1の実施の形態について説明する。第1の実施の形態は、構造が変化する生体分子の天然構造を予測する情報処理装置10である。
図1は、第1の実施の形態に係る情報処理装置の構成例を示す図である。情報処理装置10は、記憶部11と演算部12とを有する。
記憶部11は、構造が変化する生体分子構造(生体分子構造11a,11b,・・・)の集合を記憶する。例えば集合に含まれる生体分子構造11a,11b,・・・には、物質を構成する原子座標が定義されている。
演算部12は、構造が変化する生体分子の天然構造を予測する。例えば演算部12は、SAとOFLOODとを組み合わせて、天然構造の予測を行う。すなわち、SAでは、ある解が求まると、そのときの温度に応じた範囲内から近傍の解がランダムに求められるが、第1の実施の形態では、ランダムな解の探索に代えて、OFLOODが適用される。
具体的には演算部12は、SAにおける温度の徐冷を行う(ステップS1)。すなわち演算部12は、物質の温度を表す温度パラメータに設定する温度を所定の値(初期値)から段階的に低減させる。
そして演算部12は、温度パラメータに値を設定したとき、以下の処理を実行する。
まず演算部12は、記憶部11に記憶された複数の生体分子構造に対してクラスタリングを行う(ステップS2)。この際のクラスタリング技術としては、クラスタに含まれない要素の存在を許容するクラスタリング技術が用いられる。生体分子構造のクラスタリングにより、所定の判断指標に基づいて構造が近いと判断された生体分子構造の集合を含むクラスタ1,2が生成される。
次に演算部12は、クラスタリングの結果から、クラスタリングで生成されたクラスタ1,2のいずれにも含まれない生体分子構造3を、はずれ値として抽出する(ステップS3)。クラスタ1,2のいずれにも含まれない生体分子構造(はずれ値)が複数ある場合、例えば演算部12は、それらの中から所定数の生体分子構造を抽出する。
次に演算部12は、はずれ値として抽出した生体分子構造を初期構造として、温度パラメータを用いた分子動力学(MD)シミュレーションを実行する(ステップS4)。例えば演算部12は、初期構造に対して温度パラメータに応じた初期速度(運動エネルギー)を与えて、MDシミュレーションによりその後の構造変化をシミュレートする。MDシミュレーションにより、生体分子構造の変化の遷移を表すトラジェクトリが生成される。ステップS2〜S4の処理がOFLOODである。
そして演算部12は、MDシミュレーションの実行過程で生成された生体分子構造を、記憶部11に格納する(ステップS5)。例えば演算部12は、生成したトラジェクトリを構成する複数の生体分子構造を、記憶部11に格納する。これにより、新たに生成したトラジェクトリを構成する生体分子構造が、次の徐冷後のクラスタリング対象となる生体分子構造の集合に含められる。
以上のステップS2〜S5の処理が、SAにおける徐冷過程の温度パラメータの値ごとに実行される。温度パラメータの値が、所定のターゲット温度に達すると、温度の徐冷処理が停止する。その後、演算部12は、記憶部11内の複数の生体分子構造11a,11b,・・・に基づいて、生体分子の天然構造を予測する(ステップS6)。例えば演算部12は、記憶部11に格納された生体分子構造11a,11b,・・・のうちエネルギーが小さい生体分子構造を、生体分子の天然構造として予測する。
このような情報処理装置10によれば、SAにより、温度が徐冷されるごとに、徐冷前までに生成されていた生体分子構造のクラスタリングにおけるはずれ値となる生体分子構造を初期構造としたMDシミュレーションが行われる。はずれ値をMDシミュレーションの初期構造とすることで、解の探索範囲が局所最適解に留まらずに済む。その結果、生体分子の天然構造7を効率的に検出することが可能となる。
例えばスタート構造4,5となる2つの生体分子構造が予め用意される。2つのスタート構造に対してMDシミュレーションを実行することで、スタート構造から安定構造への構造変化が再現される。構造変化過程で生成される各生体分子構造が、記憶部11に格納される。そして温度が徐冷されると、それまでに生成されている生体分子構造のクラスタリングが行われ、はずれ値として生体分子構造3が検出される。クラスタリングによりはずれ値と検出された生体分子構造3は、クラスタ1,2に含まれた多くの構造と大きく異なる構造を有している。そのため、例えばエネルギーが低い生体分子構造を探索する場合において、局所最適解の構造と大きく異なる構造がはずれ値6として抽出される。このようなはずれ値6を徐冷のたびに繰り返し選択し、MDシミュレーションを行えば、探索範囲が効率的に天然構造7に到達する。
なお、演算部12は、例えば情報処理装置10が有するプロセッサにより実現することができる。また、記憶部11は、例えば情報処理装置10が有するメモリにより実現することができる。
また、図1に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、構造解析の対象をタンパク質として、第1の実施の形態に示す技術をより具体化したものである。すなわち、第2の実施の形態は、コンピュータを用いたタンパク質天然構造予測シミュレーション技術である。
図2は、第2の実施の形態のコンピュータのハードウェアの一構成例を示す図である。コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
メモリ102は、コンピュータ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置(SSD:Solid State Drive)を使用することもできる。
グラフィック処理装置104には、モニタ21が接続されている。グラフィック処理装置104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取りを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した情報処理装置10も、図2に示したコンピュータ100と同様のハードウェアにより実現することができる。
コンピュータ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。またコンピュータ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
以上のようなハードウェアのコンピュータ100により、タンパク質天然構造予測シミュレーションが行われる。タンパク質天然構造予測シミュレーションを実現するための機能は、複数の機能ブロックで表すことができる。
図3は、タンパク質天然構造予測シミュレーションの機能を示すブロック図である。コンピュータ100は、タンパク質天然構造予測シミュレーションのために、記憶部110、SA制御部120、OFLOOD部130、および天然構造予測部140を有する。
記憶部110は、タンパク質天然構造予測シミュレーションの過程で生成されたトラジェクトリ111−1,111−2,・・・、およびエネルギー情報112を記憶する。トラジェクトリ111−1,111−2,・・・は、タンパク質構造の時系列な変化を表すデータである。トラジェクトリ111−1,111−2,・・・それぞれには、時系列に対応する複数のタンパク質構造が含まれる。エネルギー情報112は、トラジェクトリ111−1,111−2,・・・に含まれる各タンパク質構造が有するエネルギーを示す情報である。
SA制御部120は、SAにおける温度の徐冷を制御する。例えばSA制御部120は、400K(絶対温度)から300Kへ10Kごとに徐冷する。
OFLOOD部130は、SAにおける各温度において、OFLOODによるシミュレーションを実行する。OFLOOD部130は、シミュレーションにより得られたトラジェクトリを、記憶部110に格納する。またOFLOOD部130は、トラジェクトリを生成するごとに、そのトラジェクトリに含まれるタンパク質構造のエネルギーを計算する。そしてOFLOOD部130は、各タンパク質構造のエネルギーの値を、エネルギー情報112に登録する。
天然構造予測部140は、トラジェクトリ111−1,111−2,・・・に含まれるタンパク質構造の中から、タンパク質天然構造に最も近いと思われるタンパク質構造を特定する。例えば天然構造予測部140は、エネルギーが最も小さいタンパク質構造を、天然構造として特定する。そして天然構造予測部140は、特定したタンパク質構造を、タンパク質天然構造として出力する。
なお、図3に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図3に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータ100に実行させることで実現することができる。
次に、記憶部110に格納される情報について詳細に説明する。
図4は、トラジェクトリの一例を示す図である。トラジェクトリ111には、例えばMDシミュレーションにより、タンパク質が初期構造から変化する様子が示されている。図4の例では、MDシミュレーション上の時間間隔Δtごとの構造が示されている。トラジェクトリ111に含まれるタンパク質構造は、例えばタンパク質を構成する原子座標を含む構造データで表される。
図5は、タンパク質の構造データの一例を示す図である。構造データ111aには、構造の識別番号が付与されている。構造データ111a内の「ATOM」で始まる各行が、タンパク質に含まれる各原子の情報である。
各行には「ATOM」から右に向かって、原子の通し番号、原子タイプの分類、残基の種類、分子鎖の名前、残基番号、原子のX座標、原子のY座標、原子のX座標、原子の占有率、温度因子、および元素名が設定されている。
また、トラジェクトリ111−1,111−2,・・・に含まれる各タンパク質構造の構造データに関連付けて、そのタンパク質構造のエネルギーが、エネルギー情報112に設定されている。
図6は、エネルギー情報の一例を示す図である。図6の例では、タンパク質構造の構造データに設定された構造番号に対応付けて、対応するタンパク質構造のエネルギーが設定されている。エネルギーの値が小さいタンパク質構造ほど、天然構造に近いと考えることができる。
図4〜図6に示した情報を用いて、タンパク質天然構造予測処理が実行される。第2の実施の形態におけるタンパク質天然構造予測処理では、SAにおける徐冷過程で、OFLOOD部130が、MDシミュレーションの対象とする初期構造をリセットすることで、最適解(タンパク質の天然構造)を効率的に探索する。
例えばOFLOOD部130は、初期構造をリセットする際に、タンパク質の状態(個々のタンパク質構造)を高次元構造空間上でFlexDiceと呼ばれるクラスタリング技術を用いて、クラスタリングを実行する。FlexDiceでは、クラスタリングによって生成されたクラスタのいずれにも属さないタンパク質構造の存在が許容されている。そこでOFLOOD部130は、FlexDiceの実行結果から、いずれのクラスタにも属さないタンパク質構造を、はずれ値として検出する。
図7は、FlexDiceによるクラスタリングの一例を示す図である。FlexDiceは、高次元かつ大規模なデータベースから規則性や特徴を見つけ出すためのクラスタリング手法の1つである。FlexDiceでは、データ要素を分類する指標を軸とする多次元空間に、データ要素が配置される。タンパク質構造をデータ要素とする場合、例えば特定の原子のある軸の座標、所定の2つの原子間距離などが、分類の指標となる。図7の例では、2つの指標で分類した場合を想定した例が示されている。
FlexDiceでは、2つの指標それぞれに対応する2つの軸を有する平面が定義される。各タンパク質構造は、指標の値に応じて、第1レイヤ(1st layer)の平面上に配置される。第1レイヤでは、すべてのタンパク質構造を包含する1つの矩形領域が、セル31として定義される。
上位のレイヤのセルを、セル内のタンパク質構造の密度に応じて分割しながら、第2レイヤ、第3レイヤ、・・・と、新たなレイヤが生成される。例えば、セル内のタンパク質構造の密度が上限値以上であれば、そのセルは、密セルと判断される。セル内のタンパク質構造の密度が上限値より小さく、下限値以上であれば、そのセルは、中セルと判断される。セル内のタンパク質構造の密度が下限値より小さければ、そのセルは、疎セルと判断される。上位レイヤの次の下位レイヤを生成するとき、上位レイヤのセルのうち、中セルのみが各軸方向に2分割(全体で4分割)される。例えば第kレイヤ(kは2以上の整数)におけるセル32は中セルと判断され、第k+1レイヤにおいて4つのセルに分割されている。一方、セル33は、密セルであるため分割されておらず、セル34は疎セルであるため分割されていない。
このようなレイヤの生成が、所定のレイヤまで繰り返し行われる。そして、最後のレイヤにおいて、隣接する密セル同士が結合される。結合されたセルに含まれるタンパク質構造の集合が、クラスタ41,42を構成する。
このようなFlexDiceによるクラスタリングでは、クラスタ41,42に含まれないタンパク質構造51が存在する。このタンパク質構造51が、はずれ値として検出される。
OFLOOD部130は、検出したはずれ値を、MDシミュレーションの初期構造として利用する。高次元構造空間におけるはずれ値は、タンパク質の遷移構造に対応している可能性が高い。そのため、アニーリング過程において追跡構造をはずれ値に随時リセットすることは、最適解にたどり着くための構造遷移を促進することが可能となり、効率的な構造探索につながるものと考えられる。
以下、第2の実施の形態におけるタンパク質天然構造予測処理について、詳細に説明する。
図8は、タンパク質天然構造予測処理の手順の一例を示す図である。
[ステップS101]SA制御部120とOFLOOD部130とが連携し、SAとOFLOODとを組み合わせたタンパク質構造解析シミュレーションを実行する。
アニーリング過程(温度徐冷過程)において、MDシミュレーションの実行温度を、例えば「Tn,Tn-1,・・・,T0」とする(nは1以上の整数)。ここでは、Tn>Tn-1>・・・>T0である。SA制御部120は、シミュレーションの温度の初期値をTnとし、以降、T0(ターゲット温度)まで順番に温度を徐冷する。
各温度において、OFLOOD部130によってタンパク質構造探索が行われる。この構造探索において、第2の実施の形態では、ランダムな近傍解の探索や単なるMDシミュレーションによる構造探索ではなく、OFLOODが行われる。OFLOODによりタンパク質構造探索が行われることにより、飛躍的に構造探索効率が向上する。
例えば、OFLOOD部130は、SAにおける温度パラメータが示す温度Tnの下で、OFLOODによる構造探索を実行する。この構造探索内では、例えばM(Mは1以上の整数)ステップの処理が実行される。次にOFLOOD部130は、温度Tn-1の下でOFLOOD(Mステップ)を実行する。その後、温度が徐冷されるごとにOFLOODが実行され、最後にOFLOOD部130は、温度T0の下でOFLOOD(Mステップ)を実行する。
このようなアニーリング過程における温度ごとのOFLOODにより、複数のトラジェクトリが生成され、記憶部110に格納される。
[ステップS102]天然構造予測部140は、タンパク質の天然構造を予測する。例えば天然構造予測部140は、最終的に温度がT0まで徐冷された段階におけるエネルギー最安定構造を天然構造に近い候補構造とする。また天然構造予測部140は、FlexDiceによりタンパク質構造をクラスタリングし、タンパク質の安定構造を解析してもよい。この場合、天然構造予測部140は、例えば出現確率の高いタンパク質構造を、天然構造の候補として提案する。また、天然構造予測部140は、FlexDiceのクラスタリング結果に加えて、MDシミュレーションで得られたタンパク質構造に対するポテンシャルエネルギーを考慮し、最終的な天然構造を同定してもよい。
次に、タンパク質構造解析シミュレーションについて、詳細に説明する。
図9は、タンパク質構造解析シミュレーションの手順の一例を示すフローチャートである。以下、ステップ番号に沿って、図9の処理を説明する。
[ステップS111]SA制御部120は、シミュレーションにおける温度Tを、初期値Tnに設定する。次に、OFLOOD部130は、適当な変性構造を初期構造としてMDシミュレーションを実行し、初期トラジェクトリを生成する。
[ステップS112]OFLOOD部130は、FlexDiceによるトラジェクトリのクラスタリングを行う。例えばOFLOOD部130は、記憶部110に格納されている全トラジェクトリ内のタンパク質構造を示す構造データを、クラスタリング対象のデータ要素として、FlexDiceによるクラスタリングを実行する。
[ステップS113]OFLOOD部130は、FlexDiceによるクラスタリング結果からはずれ値を抽出し、MDシミュレーションの初期構造として配置する。ここではずれ値を配置するとは、はずれ値に対応するタンパク質構造を表す構造データを、MDシミュレーションの初期構造としてメモリ内に設定することである。
なお、クラスタリング結果において、はずれ値が多数存在する場合がある。この場合、OFLOOD部130は、例えば予め決められた数のはずれ値を選択し、MDシミュレーションの初期構造として配置する。はずれ値は、例えばランダムに選択される。またタンパク質構造のエネルギーの小さいはずれ値から優先的に選択してもよい。図9の例では、N個(Nは1以上の整数)のはずれ値が選択され、MDシミュレーションの初期構造として配置されている。
[ステップS114]OFLOOD部130は、はずれ値を初期構造とし、温度TでMDシミュレーションを再開する。はずれ値ごとのMDシミュレーションは独立して実行可能である。そこでOFLOOD部130は、はずれ値ごとに個別のプロセッサで、MDシミュレーションを並列実行させることもできる。MDシミュレーションを並列で実行することで、処理の効率化が図れる。はずれ値ごとのMDシミュレーションにより、はずれ値ごとのトラジェクトリが生成される。
なおOFLOOD部130は、MDシミュレーションの過程で新たなタンパク質構造を生成するごとに、そのタンパク質構造のエネルギーを計算することもできる。
[ステップS115]OFLOOD部130は、生成されたトラジェクトリを回収する。例えばOFLOOD部130は、はずれ値ごとに生成されたトラジェクトリを、記憶部110に格納する。またOFLOOD部130は、トラジェクトリに含まれるタンパク質構造に対するエネルギーを計算した場合、そのエネルギーの値を、タンパク質構造に対応付けてエネルギー情報112に設定する。
以上のステップS112〜S115の処理が、OFLOODである。
[ステップS116]SA制御部120は、温度Tが、予め設定されたアニーリング終了のターゲット温度T0に達したか否かを判断する。温度Tがターゲット温度T0と等しい場合、タンパク質構造解析シミュレーションが終了する。温度Tがターゲット温度T0より高い場合、処理がステップS117に進められる。
[ステップS117]SA制御部120は、温度TをT’に徐冷する(T>T’)。すなわちSA制御部120は、温度Tを示すパラメータにT’を設定する。T’は、例えばTから所定の温度差ΔTを減算した値である。その後、処理がステップS112に進められ、徐冷した状態で、繰り返しOFLOODが実行される。
図9に示すように、OFLOODを利用してタンパク質構造解析を行うことで、SAにおける徐冷の速度を極端に遅くしなくても、局所最適解を正解構造と誤認せずに、タンパク質の正しい天然構造を検出できる。これは、徐冷過程においてOFLOODが効率的な構造探索を可能にしているためである。
図10は、OFLOODの適用の有無によるタンパク質構造の探索過程の相違を示す概念図である。図10内の左側には、OFLOODを適用しないSAによるタンパク質構造探索過程が示されている。図10内の右側には、OFLOODを適用したSAによるタンパク質構造探索過程が示されている。図10の横軸は、タンパク質の構造の変化を表している。横軸の位置が離れるほど、構造が大きく異なることを意味する。図10の縦軸は、エネルギーを示している。図10の曲線は、タンパク質構造に応じたエネルギーを表している。曲線における低い位置ほど、エネルギーが小さいタンパク質構造が存在する。エネルギーを示す曲線の上に示されている線は、SAによるタンパク質構造の探索軌跡を表している。
OFLOODを適用しないSAの場合、シミュレーション開始時のタンパク質構造(スタート構造61)から、エネルギーが小さくなる方向に構造探索が進められる。アニーリングの温度が高い間は、MDシミュレーションでのタンパク質の構造変化が大きいため、エネルギーが大きくなる方向への探索が行われる可能性もある。しかし、徐冷されるに従って、エネルギーが大きくなる方向への探索は行われづらくなり、局所最適解62の近傍から抜け出せなくなる可能性がある。その場合、エネルギーが最小となる天然構造63(最適構造)にたどり着くことができず、誤って、局所最適解62が正解構造として出力されてしまう。
図10に示すOFLOODを適用したSAでは、2つのスタート構造64,65から解析を行っている。このようにスタート構造64,65が複数あることで、天然構造への到達可能性が高くなる。そしてアニーリングの徐冷過程においてOFLOODが実行されることで、はずれ値となるタンパク質構造を初期構造としてリセットしたMDシミュレーションが行われる。はずれ値は、それまで探索していたタンパク質構造と大きく異なる構造を有する。そのため探索範囲が、局所最適解の近傍に制限されない。そのためOFLOODを適用して構造リサンプリングを繰り返すことで、局所最適解にはまらずにより大域的な構造探索が可能となるため、最適解(天然構造63)に到達することができる。
しかも、第2の実施の形態の処理では、タンパク質の天然構造に効率的に到達することができる。例えば20残基のタンパク質Trp-cage(Protein Data Bank (PDB) id:1L2Y)のテスト計算を実行し、変性構造から出発し、天然構造の情報を一切用いない"blind prediction"により、タンパク質の天然構造予測処理を実行した。すると、最安定構造からの平均自乗距離(RMSD:Root Mean Square Deviation)が1.0オングストローム以内の精度で天然構造を予測することができた。このテスト計算が示すように、第2の実施の形態に示すタンパク質天然構造予測処理は、大規模なタンパク質の天然構造の構造予測問題への適用も期待できる。
なお、Trp-cageのテスト計算では、アニーリング過程において、400Kから300Kへ10Kごとに徐冷した。またOFLOODの1サイクルにおいて、100個(100個以上のはずれ値がある場合は100個をランダムに選択)のはずれ値を検出し、これらを初期構造として100psの短時間MDシミュレーションを実行した。OFLOODの1サイクル当たりの計算コストは、100×100psで10nsとなる。ここで比較のため、OFLOODを適用しないSAによるタンパク質天然構造予測処理を、同じ計算コストで実行した。
図11は、OFLOODを適用しないSAによる人工タンパク質Trp-cageのテスト計算例を示す図である。OFLOODを適用しないSAでは徐冷過程にMDシミュレーションによりタンパク質構造が探索されるが、局所安定構造へ捕まるため最安定構造(天然構造)へたどり着くことが難しい。図11では、横軸にタンパク質構造の計算回数が示されており、縦軸に得られたタンパク質構造の天然構造からのRMSDが示されている。RMSDは2つの分子構造を重ね合わせて、対応する各原子のずれの二乗を平均したものの平方根であり、その値が小さければ小さい程2つの分子構造が類似していることを示す。
また、図11における点線は、天然構造からのRMSDが1.0オングストロームの位置を示している。一般に、天然構造に対するRMSDが1.0オングストローム以下の精度でタンパク質構造が検出できれば、正しい天然構造が検出されたと評価できる。図11の例では、RMSDが1.0オングストローム以下のタンパク質構造が存在する範囲が探索されておらず、天然構造へ収束していないことが示唆されている。
図12は、OFLOODを適用したSAによる人工タンパク質Trp-cageのテスト計算例を示す図である。徐冷過程のMDシミュレーションをOFLOODに置き換えて構造リサンプリング(はずれ値の抽出)したSAにより、効率的に天然構造に到達することが可能となる。例えば点線で示された天然構造からのRMSDが1.0オングストロームの位置より下が探索されており、天然構造を高精度で予測可能であることが分かる。しかも、図12の例では、かなり早い段階からRMSDが1.0オングストロームの位置より下となる構造が探索されており、天然構造に極めて近い構造が迅速に求まることが分かる。これは、天然構造を予測するまでの処理が少なくて済むことを意味する。
このように、第2の実施の形態を利用することにより、タンパク質の天然構造を決定しているアミノ酸の一次配列から効率的な構造探索が可能となるため、天然構造を予測することが可能となる。この技術は、多くの分野で利用可能である。具体的には、構造予測ができれば様々な種類のタンパク質を人工的に設計することが可能になる。タンパク質を設計することが可能となれば、産業や医療への貢献が期待できる。例えば、創薬開発において2つの分子(標的タンパク質とそれに結合する基質分子)が与えられた場合に、その結合過程をデザインすることができる。その結果、標的タンパク質に対する基質分子に関する情報の遮断・刺激、ないし酵素活性を制御することが可能となり、薬物設計に応用できる。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
1,2 クラスタ
3 生体分子構造
4,5 スタート構造
6 はずれ値
7 天然構造
10 情報処理装置
11 記憶部
12 演算部

Claims (5)

  1. 構造が変化する生体分子の構造の集合を記憶する記憶部と、
    前記生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、前記温度パラメータの温度を低減させたとき、前記集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める演算部と、
    を有する情報処理装置。
  2. 前記演算部は、さらに、
    前記集合に含まれる構造に基づいて、前記生体分子の天然構造を予測する、
    請求項1記載の情報処理装置。
  3. 前記演算部は、前記クラスタリングで生成されたクラスタのいずれにも含まれない構造を、はずれ値として複数抽出し、抽出された該構造それぞれを初期構造とした分子動力学シミュレーションを、複数のプロセッサで並列に実行する、
    請求項1または2記載の情報処理装置。
  4. コンピュータが、
    構造が変化する生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、
    前記温度パラメータの温度を低減させたとき、前記生体分子の構造の集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、
    該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める、
    シミュレーション方法。
  5. コンピュータに、
    構造が変化する生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、
    前記温度パラメータの温度を低減させたとき、前記生体分子の構造の集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、
    該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める、
    処理を実行させるシミュレーションプログラム。
JP2015156702A 2015-08-07 2015-08-07 情報処理装置、シミュレーション方法、およびシミュレーションプログラム Ceased JP2017037377A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015156702A JP2017037377A (ja) 2015-08-07 2015-08-07 情報処理装置、シミュレーション方法、およびシミュレーションプログラム
US15/228,540 US20170039315A1 (en) 2015-08-07 2016-08-04 Information processing apparatus and simulation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015156702A JP2017037377A (ja) 2015-08-07 2015-08-07 情報処理装置、シミュレーション方法、およびシミュレーションプログラム

Publications (1)

Publication Number Publication Date
JP2017037377A true JP2017037377A (ja) 2017-02-16

Family

ID=58048381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015156702A Ceased JP2017037377A (ja) 2015-08-07 2015-08-07 情報処理装置、シミュレーション方法、およびシミュレーションプログラム

Country Status (2)

Country Link
US (1) US20170039315A1 (ja)
JP (1) JP2017037377A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018158976A1 (ja) 2017-02-28 2018-09-07 住友電工ハードメタル株式会社 表面被覆切削工具およびその製造方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932301B (zh) * 2018-06-11 2021-04-27 天津科技大学 数据填充方法及装置
JP7268484B2 (ja) * 2019-05-30 2023-05-08 富士通株式会社 構造探索装置、構造探索方法、及び構造探索プログラム
US20220199204A1 (en) * 2020-12-18 2022-06-23 International Business Machines Corporation Iterative state detection for molecular dynamics data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152775A (ja) * 1993-11-26 1995-06-16 Tonen Corp 蛋白質の立体構造の決定方法
JP2003196575A (ja) * 2001-12-27 2003-07-11 Celestar Lexico-Sciences Inc 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体
JP2004258814A (ja) * 2003-02-24 2004-09-16 In-Silico Science Inc タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152775A (ja) * 1993-11-26 1995-06-16 Tonen Corp 蛋白質の立体構造の決定方法
JP2003196575A (ja) * 2001-12-27 2003-07-11 Celestar Lexico-Sciences Inc 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体
JP2004258814A (ja) * 2003-02-24 2004-09-16 In-Silico Science Inc タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RYUHEI HARADA, 外3名: "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method", JOURNAL OF COMPUTATIONAL CHEMISTRY, vol. 36, JPN6019026461, 3 November 2014 (2014-11-03), US, pages 97 - 102, ISSN: 0004073297 *
RYUHEI HARADA, 外3名: "Simple, yet powerful methodologies for conformational sampling of proteins", PHYSICAL CHEMISTRY CHEMICAL PHYSICS, JPN6019026463, 9 February 2015 (2015-02-09), GB, pages 6155 - 6173, ISSN: 0004073299 *
柳田敏雄, 外6名, 岩波講座 計算科学4 計算と生命, JPN6019026462, 27 September 2012 (2012-09-27), pages 89 - 92, ISSN: 0004073298 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018158976A1 (ja) 2017-02-28 2018-09-07 住友電工ハードメタル株式会社 表面被覆切削工具およびその製造方法

Also Published As

Publication number Publication date
US20170039315A1 (en) 2017-02-09

Similar Documents

Publication Publication Date Title
Aggarwal et al. DeepPocket: ligand binding site detection and segmentation using 3D convolutional neural networks
Korolev et al. Graph convolutional neural networks as “general-purpose” property predictors: the universality and limits of applicability
Zahiri et al. Computational prediction of protein–protein interaction networks: algorithms and resources
Zaki et al. Protein complex detection using interaction reliability assessment and weighted clustering coefficient
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
JP5642190B2 (ja) 多次元データのための密度ベースのクラスタ化
Ahmed et al. Efficient iterative virtual screening with Apache Spark and conformal prediction
EP3564958A1 (en) Paradigm drug response networks
JP2017037377A (ja) 情報処理装置、シミュレーション方法、およびシミュレーションプログラム
Bolón-Canedo et al. Challenges and future trends for microarray analysis
Vermaas et al. Supercomputing pipelines search for therapeutics against covid-19
Singh et al. Artificial intelligence and machine learning in pharmacological research: bridging the gap between data and drug discovery
JP2020529060A (ja) 残基固有の分子構造特徴を用いた分子変異体の分子特性の予測
Xu et al. Ontology integration to identify protein complex in protein interaction networks
Van Laarhoven et al. Robust community detection methods with resolution parameter for complex detection in protein protein interaction networks
US10275512B2 (en) Information processing apparatus and index dimension extracting method
Wang et al. Reconstruct high-resolution 3D genome structures for diverse cell-types using FLAMINGO
Dimitsaki et al. Benchmarking of Machine Learning classifiers on plasma proteomic for COVID-19 severity prediction through interpretable artificial intelligence
Sarwar et al. Database search, alignment viewer and genomics analysis tools: big data for bioinformatics
Moschopoulos et al. GIBA: a clustering tool for detecting protein complexes
Seo et al. Applications of big data and AI-driven technologies in CADD (computer-aided drug design)
Samaddar et al. A model for distributed processing and analyses of NGS data under map-reduce paradigm
Pradeep et al. A novel scoring based distributed protein docking application to improve enrichment
Vogt et al. Conditional probabilities of activity landscape features for individual compounds
Yu et al. A supervised approach to detect protein complex by combining biological and topological properties

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20150918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150918

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190906

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190926

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190926

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20200804