JP2017037377A

JP2017037377A - 情報処理装置、シミュレーション方法、およびシミュレーションプログラム

Info

Publication number: JP2017037377A
Application number: JP2015156702A
Authority: JP
Inventors: 朋健中村; Tomotake Nakamura; 隆平原田; Ryuhei Harada; 育照重田; Yasuteru Shigeta
Original assignee: Fujitsu Ltd; University of Tsukuba NUC
Current assignee: Fujitsu Ltd; University of Tsukuba NUC
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2017-02-16
Also published as: US20170039315A1

Abstract

【課題】生体分子の天然構造を効率的に予測する。
【解決手段】記憶部１１は、構造が変化する生体分子構造の集合を記憶する。演算部１２は、生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させる。また演算部１２は、温度パラメータの温度を低減させたとき、集合に低減前から含まれている構造に対するクラスタリングのはずれ値６となる構造を初期構造として、温度パラメータを用いた分子動力学シミュレーションを実行する。そして演算部１２は、分子動力学シミュレーションの実行過程で生成された構造の記憶部１１へ格納をする。
【選択図】図１

Description

本発明は、情報処理装置、シミュレーション方法、およびシミュレーションプログラムに関する。

タンパク質をはじめとする生体分子の天然構造を予測する手段として、コンピュータシミュレーションを用いることができる。例えば分子動力学（ＭＤ：Molecular Dynamics）シミュレーションによりタンパク質の構造探索を行うことで、天然構造を予測することができる。ＭＤシミュレーションによるタンパク質の構造探索には、様々な方法が提案されている。例えば、ＯＦＬＯＯＤと呼ばれる、タンパク質の状態分布において出現頻度が低いはずれ値（Outlier）を検出し、それらを優先的に構造探索していくことにより、効率的に天然構造を予測する計算手法がある。

ＯＦＬＯＯＤでは、タンパク質の状態分布を調べるために、ＭＤシミュレーションで得られた原子座標時系列データ（トラジェクトリ）の状態の分類（クラスタリング）が行われる。トラジェクトリは、時々刻々変化するタンパク質の原子座標の集合である。ＯＦＬＯＯＤでは、トラジェクトリに含まれるタンパク質構造のうち、いずれの安定構造（クラスタ）にも含まれないタンパク質構造がはずれ値として検出される。そしてＯＦＬＯＯＤでは、はずれ値に対して、再度、短時間のＭＤシミュレーションが実行される。はずれ値を初期構造とする短時間ＭＤシミュレーションにより、稀に発生するタンパク質構造を考慮に入れた、効率的なタンパク質の構造探索が可能となる。

なお、ＯＦＬＯＯＤにおけるクラスタリングでは、ＦｌｅｘＤｉｃｅと呼ばれるクラスタリング手法が利用されている。ＦｌｅｘＤｉｃｅは、高次元データ空間上の疎な領域によって分けられる密な領域のデータ要素をリアルタイムに集めるクラスタリング手法である。

また、タンパク質の天然構造を予測するための計算手法として、モンテカルロシミュレーションやＭＤシミュレーションに基づく、シミュレーテッドアニーリング（ＳＡ：Simulated Annealing）がある。ＳＡは、金属を高温の液状にし、徐々に温度を下げることで、最小エネルギー状態を保持する秩序ある結晶構造の状態を作り出す「焼きなまし」をコンピュータ上で再現したものである。ＳＡでは高温状態からスタートし、現在の状態近傍における解としてランダムに新しい構造を生成させ、新しく生成した構造が現在の状態と比較してエネルギー的に安定であれば無条件でその構造を解として採択する。もし新しく生成した構造が現在の状態と比較しエネルギー的に安定でなければ、確率的な判定条件に基づき、その構造を解として採択するかどうか決定する。通常最適な解を求める際には、温度を表すパラメータＴが用いられ、Ｔの値が大きいほど広い範囲から解が探索される。Ｔの値は徐々に下げられ（徐冷され）、Ｔの値が十分に下がると、エネルギー的に安定した解（タンパク質の天然構造）が得られる。このようにＳＡでは局所探索法を実行する過程で確率的な振る舞いが加えられる。そのため、タンパク質の天然構造探索にＳＡを利用した場合、生成されるタンパク質の構造が局所最適解（準安定構造）で収束してしまうことに対する抑止効果が期待できる。

その他、計算手順が簡単であってしかも従来の方法に比較して大幅に正確な予測精度でタンパク質の天然構造を予測することができる予測演算方法が考えられている。また相互作用範囲の設定、更新を自動化したことにより、より短い時間で、プログラムの実行者の技術に依存せずに天然構造類似のタンパク質の構造予測を可能とする技術も考えられている。

特開平７−１０５２３６号公報特開平７−１５２７７５号公報

Ryuhei Harada, Tomotake Nakamura, Yu Takano, and Yasuteru Shigeta, "Protein Folding Pathways Extracted by OFLOOD: Outlier FLOODing Method" Journal of Computational Chemistry, January 15, 2015, Volume 36, Issue 2, pages 97-102. 中村朋健, 上土井陽子, 若林真一, 吉田典可、「FlexDice：高次元な大規模データセットに対する高速クラスタリング手法」、情報処理学会論文誌、データベース、Vol. 46、No. SIG 18、pp. 40-49、2005年12月. S. Kirkpatrick; C. D. Gelatt; M. P. Vecchi, "Optimization by Simulated Annealing", Science, May 13, 1983, Vol. 220, No. 4598. pp. 671-680.

従来、ＳＡを用いてタンパク質の天然構造を予測する場合、１つの初期構造からスタートしたＳＡにより構造をトレースしていくことで、最安定構造（天然構造）を予測する。このとき、計算機の処理能力に応じ、実現可能な範囲内の速度で温度の徐冷を行うこととなる。すると、ＳＡを用いても、実行可能な短時間のＭＤシミュレーションで生成されるタンパク質の構造が局所最適解（準安定状態）から抜け出せずに、最適解（天然構造）を見つけ出せない場合が発生する。なお、ＳＡにおける温度の徐冷を極めてゆっくり行うことで、生成されるタンパク質の構造が局所最適解で収束してしまう可能性を低下させることはできるが、この場合、計算量が膨大となり、実現が困難である。

このような構造探索における計算量の問題は、タンパク質に限らず、構造が変化する物質（例えばタンパク質以外の生体分子や金属結晶）における最適解予測において、同様に存在する。

１つの側面では、本件は、生体分子の天然構造を効率的に予測することを目的とする。

１つの案では、構造が変化する生体分子の構造の集合を記憶する記憶部と、生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、温度パラメータの温度を低減させたとき、集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、温度パラメータを用いた分子動力学シミュレーションを実行し、該分子動力学シミュレーションの実行過程で生成された構造を集合に含める演算部と、を有する情報処理装置が提供される。

１態様によれば、生体分子の天然構造を効率的に予測することができる。

第１の実施の形態に係る情報処理装置の構成例を示す図である。第２の実施の形態のコンピュータのハードウェアの一構成例を示す図である。タンパク質天然構造予測シミュレーションの機能を示すブロック図である。トラジェクトリの一例を示す図である。タンパク質の構造データの一例を示す図である。エネルギー情報の一例を示す図である。ＦｌｅｘＤｉｃｅによるクラスタリングの一例を示す図である。タンパク質天然構造予測処理の手順の一例を示す図である。タンパク質構造解析シミュレーションの手順の一例を示すフローチャートである。ＯＦＬＯＯＤの適用の有無によるタンパク質構造の探索過程の相違を示す概念図である。ＯＦＬＯＯＤを適用しないＳＡによる人工タンパク質Trp-cageのテスト計算例を示す図である。ＯＦＬＯＯＤを適用したＳＡによる人工タンパク質Trp-cageのテスト計算例を示す図である。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
まず、第１の実施の形態について説明する。第１の実施の形態は、構造が変化する生体分子の天然構造を予測する情報処理装置１０である。

図１は、第１の実施の形態に係る情報処理装置の構成例を示す図である。情報処理装置１０は、記憶部１１と演算部１２とを有する。
記憶部１１は、構造が変化する生体分子構造（生体分子構造１１ａ，１１ｂ，・・・）の集合を記憶する。例えば集合に含まれる生体分子構造１１ａ，１１ｂ，・・・には、物質を構成する原子座標が定義されている。

演算部１２は、構造が変化する生体分子の天然構造を予測する。例えば演算部１２は、ＳＡとＯＦＬＯＯＤとを組み合わせて、天然構造の予測を行う。すなわち、ＳＡでは、ある解が求まると、そのときの温度に応じた範囲内から近傍の解がランダムに求められるが、第１の実施の形態では、ランダムな解の探索に代えて、ＯＦＬＯＯＤが適用される。

具体的には演算部１２は、ＳＡにおける温度の徐冷を行う（ステップＳ１）。すなわち演算部１２は、物質の温度を表す温度パラメータに設定する温度を所定の値（初期値）から段階的に低減させる。

そして演算部１２は、温度パラメータに値を設定したとき、以下の処理を実行する。
まず演算部１２は、記憶部１１に記憶された複数の生体分子構造に対してクラスタリングを行う（ステップＳ２）。この際のクラスタリング技術としては、クラスタに含まれない要素の存在を許容するクラスタリング技術が用いられる。生体分子構造のクラスタリングにより、所定の判断指標に基づいて構造が近いと判断された生体分子構造の集合を含むクラスタ１，２が生成される。

次に演算部１２は、クラスタリングの結果から、クラスタリングで生成されたクラスタ１，２のいずれにも含まれない生体分子構造３を、はずれ値として抽出する（ステップＳ３）。クラスタ１，２のいずれにも含まれない生体分子構造（はずれ値）が複数ある場合、例えば演算部１２は、それらの中から所定数の生体分子構造を抽出する。

次に演算部１２は、はずれ値として抽出した生体分子構造を初期構造として、温度パラメータを用いた分子動力学（ＭＤ）シミュレーションを実行する（ステップＳ４）。例えば演算部１２は、初期構造に対して温度パラメータに応じた初期速度（運動エネルギー）を与えて、ＭＤシミュレーションによりその後の構造変化をシミュレートする。ＭＤシミュレーションにより、生体分子構造の変化の遷移を表すトラジェクトリが生成される。ステップＳ２〜Ｓ４の処理がＯＦＬＯＯＤである。

そして演算部１２は、ＭＤシミュレーションの実行過程で生成された生体分子構造を、記憶部１１に格納する（ステップＳ５）。例えば演算部１２は、生成したトラジェクトリを構成する複数の生体分子構造を、記憶部１１に格納する。これにより、新たに生成したトラジェクトリを構成する生体分子構造が、次の徐冷後のクラスタリング対象となる生体分子構造の集合に含められる。

以上のステップＳ２〜Ｓ５の処理が、ＳＡにおける徐冷過程の温度パラメータの値ごとに実行される。温度パラメータの値が、所定のターゲット温度に達すると、温度の徐冷処理が停止する。その後、演算部１２は、記憶部１１内の複数の生体分子構造１１ａ，１１ｂ，・・・に基づいて、生体分子の天然構造を予測する（ステップＳ６）。例えば演算部１２は、記憶部１１に格納された生体分子構造１１ａ，１１ｂ，・・・のうちエネルギーが小さい生体分子構造を、生体分子の天然構造として予測する。

このような情報処理装置１０によれば、ＳＡにより、温度が徐冷されるごとに、徐冷前までに生成されていた生体分子構造のクラスタリングにおけるはずれ値となる生体分子構造を初期構造としたＭＤシミュレーションが行われる。はずれ値をＭＤシミュレーションの初期構造とすることで、解の探索範囲が局所最適解に留まらずに済む。その結果、生体分子の天然構造７を効率的に検出することが可能となる。

例えばスタート構造４，５となる２つの生体分子構造が予め用意される。２つのスタート構造に対してＭＤシミュレーションを実行することで、スタート構造から安定構造への構造変化が再現される。構造変化過程で生成される各生体分子構造が、記憶部１１に格納される。そして温度が徐冷されると、それまでに生成されている生体分子構造のクラスタリングが行われ、はずれ値として生体分子構造３が検出される。クラスタリングによりはずれ値と検出された生体分子構造３は、クラスタ１，２に含まれた多くの構造と大きく異なる構造を有している。そのため、例えばエネルギーが低い生体分子構造を探索する場合において、局所最適解の構造と大きく異なる構造がはずれ値６として抽出される。このようなはずれ値６を徐冷のたびに繰り返し選択し、ＭＤシミュレーションを行えば、探索範囲が効率的に天然構造７に到達する。

なお、演算部１２は、例えば情報処理装置１０が有するプロセッサにより実現することができる。また、記憶部１１は、例えば情報処理装置１０が有するメモリにより実現することができる。

また、図１に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。
〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、構造解析の対象をタンパク質として、第１の実施の形態に示す技術をより具体化したものである。すなわち、第２の実施の形態は、コンピュータを用いたタンパク質天然構造予測シミュレーション技術である。

図２は、第２の実施の形態のコンピュータのハードウェアの一構成例を示す図である。コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、コンピュータ１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ＨＤＤ（Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの不揮発性の半導体記憶装置（ＳＳＤ：Solid State Drive）を使用することもできる。

グラフィック処理装置１０４には、モニタ２１が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取りを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

以上のようなハードウェア構成によって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した情報処理装置１０も、図２に示したコンピュータ１００と同様のハードウェアにより実現することができる。

コンピュータ１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。またコンピュータ１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

以上のようなハードウェアのコンピュータ１００により、タンパク質天然構造予測シミュレーションが行われる。タンパク質天然構造予測シミュレーションを実現するための機能は、複数の機能ブロックで表すことができる。

図３は、タンパク質天然構造予測シミュレーションの機能を示すブロック図である。コンピュータ１００は、タンパク質天然構造予測シミュレーションのために、記憶部１１０、ＳＡ制御部１２０、ＯＦＬＯＯＤ部１３０、および天然構造予測部１４０を有する。

記憶部１１０は、タンパク質天然構造予測シミュレーションの過程で生成されたトラジェクトリ１１１−１，１１１−２，・・・、およびエネルギー情報１１２を記憶する。トラジェクトリ１１１−１，１１１−２，・・・は、タンパク質構造の時系列な変化を表すデータである。トラジェクトリ１１１−１，１１１−２，・・・それぞれには、時系列に対応する複数のタンパク質構造が含まれる。エネルギー情報１１２は、トラジェクトリ１１１−１，１１１−２，・・・に含まれる各タンパク質構造が有するエネルギーを示す情報である。

ＳＡ制御部１２０は、ＳＡにおける温度の徐冷を制御する。例えばＳＡ制御部１２０は、４００Ｋ（絶対温度）から３００Ｋへ１０Ｋごとに徐冷する。
ＯＦＬＯＯＤ部１３０は、ＳＡにおける各温度において、ＯＦＬＯＯＤによるシミュレーションを実行する。ＯＦＬＯＯＤ部１３０は、シミュレーションにより得られたトラジェクトリを、記憶部１１０に格納する。またＯＦＬＯＯＤ部１３０は、トラジェクトリを生成するごとに、そのトラジェクトリに含まれるタンパク質構造のエネルギーを計算する。そしてＯＦＬＯＯＤ部１３０は、各タンパク質構造のエネルギーの値を、エネルギー情報１１２に登録する。

天然構造予測部１４０は、トラジェクトリ１１１−１，１１１−２，・・・に含まれるタンパク質構造の中から、タンパク質天然構造に最も近いと思われるタンパク質構造を特定する。例えば天然構造予測部１４０は、エネルギーが最も小さいタンパク質構造を、天然構造として特定する。そして天然構造予測部１４０は、特定したタンパク質構造を、タンパク質天然構造として出力する。

なお、図３に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図３に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータ１００に実行させることで実現することができる。

次に、記憶部１１０に格納される情報について詳細に説明する。
図４は、トラジェクトリの一例を示す図である。トラジェクトリ１１１には、例えばＭＤシミュレーションにより、タンパク質が初期構造から変化する様子が示されている。図４の例では、ＭＤシミュレーション上の時間間隔Δｔごとの構造が示されている。トラジェクトリ１１１に含まれるタンパク質構造は、例えばタンパク質を構成する原子座標を含む構造データで表される。

図５は、タンパク質の構造データの一例を示す図である。構造データ１１１ａには、構造の識別番号が付与されている。構造データ１１１ａ内の「ＡＴＯＭ」で始まる各行が、タンパク質に含まれる各原子の情報である。

各行には「ＡＴＯＭ」から右に向かって、原子の通し番号、原子タイプの分類、残基の種類、分子鎖の名前、残基番号、原子のＸ座標、原子のＹ座標、原子のＸ座標、原子の占有率、温度因子、および元素名が設定されている。

また、トラジェクトリ１１１−１，１１１−２，・・・に含まれる各タンパク質構造の構造データに関連付けて、そのタンパク質構造のエネルギーが、エネルギー情報１１２に設定されている。

図６は、エネルギー情報の一例を示す図である。図６の例では、タンパク質構造の構造データに設定された構造番号に対応付けて、対応するタンパク質構造のエネルギーが設定されている。エネルギーの値が小さいタンパク質構造ほど、天然構造に近いと考えることができる。

図４〜図６に示した情報を用いて、タンパク質天然構造予測処理が実行される。第２の実施の形態におけるタンパク質天然構造予測処理では、ＳＡにおける徐冷過程で、ＯＦＬＯＯＤ部１３０が、ＭＤシミュレーションの対象とする初期構造をリセットすることで、最適解（タンパク質の天然構造）を効率的に探索する。

例えばＯＦＬＯＯＤ部１３０は、初期構造をリセットする際に、タンパク質の状態（個々のタンパク質構造）を高次元構造空間上でＦｌｅｘＤｉｃｅと呼ばれるクラスタリング技術を用いて、クラスタリングを実行する。ＦｌｅｘＤｉｃｅでは、クラスタリングによって生成されたクラスタのいずれにも属さないタンパク質構造の存在が許容されている。そこでＯＦＬＯＯＤ部１３０は、ＦｌｅｘＤｉｃｅの実行結果から、いずれのクラスタにも属さないタンパク質構造を、はずれ値として検出する。

図７は、ＦｌｅｘＤｉｃｅによるクラスタリングの一例を示す図である。ＦｌｅｘＤｉｃｅは、高次元かつ大規模なデータベースから規則性や特徴を見つけ出すためのクラスタリング手法の１つである。ＦｌｅｘＤｉｃｅでは、データ要素を分類する指標を軸とする多次元空間に、データ要素が配置される。タンパク質構造をデータ要素とする場合、例えば特定の原子のある軸の座標、所定の２つの原子間距離などが、分類の指標となる。図７の例では、２つの指標で分類した場合を想定した例が示されている。

ＦｌｅｘＤｉｃｅでは、２つの指標それぞれに対応する２つの軸を有する平面が定義される。各タンパク質構造は、指標の値に応じて、第１レイヤ（１ｓｔｌａｙｅｒ）の平面上に配置される。第１レイヤでは、すべてのタンパク質構造を包含する１つの矩形領域が、セル３１として定義される。

上位のレイヤのセルを、セル内のタンパク質構造の密度に応じて分割しながら、第２レイヤ、第３レイヤ、・・・と、新たなレイヤが生成される。例えば、セル内のタンパク質構造の密度が上限値以上であれば、そのセルは、密セルと判断される。セル内のタンパク質構造の密度が上限値より小さく、下限値以上であれば、そのセルは、中セルと判断される。セル内のタンパク質構造の密度が下限値より小さければ、そのセルは、疎セルと判断される。上位レイヤの次の下位レイヤを生成するとき、上位レイヤのセルのうち、中セルのみが各軸方向に２分割（全体で４分割）される。例えば第ｋレイヤ（ｋは２以上の整数）におけるセル３２は中セルと判断され、第ｋ＋１レイヤにおいて４つのセルに分割されている。一方、セル３３は、密セルであるため分割されておらず、セル３４は疎セルであるため分割されていない。

このようなレイヤの生成が、所定のレイヤまで繰り返し行われる。そして、最後のレイヤにおいて、隣接する密セル同士が結合される。結合されたセルに含まれるタンパク質構造の集合が、クラスタ４１，４２を構成する。

このようなＦｌｅｘＤｉｃｅによるクラスタリングでは、クラスタ４１，４２に含まれないタンパク質構造５１が存在する。このタンパク質構造５１が、はずれ値として検出される。

ＯＦＬＯＯＤ部１３０は、検出したはずれ値を、ＭＤシミュレーションの初期構造として利用する。高次元構造空間におけるはずれ値は、タンパク質の遷移構造に対応している可能性が高い。そのため、アニーリング過程において追跡構造をはずれ値に随時リセットすることは、最適解にたどり着くための構造遷移を促進することが可能となり、効率的な構造探索につながるものと考えられる。

以下、第２の実施の形態におけるタンパク質天然構造予測処理について、詳細に説明する。
図８は、タンパク質天然構造予測処理の手順の一例を示す図である。

［ステップＳ１０１］ＳＡ制御部１２０とＯＦＬＯＯＤ部１３０とが連携し、ＳＡとＯＦＬＯＯＤとを組み合わせたタンパク質構造解析シミュレーションを実行する。
アニーリング過程（温度徐冷過程）において、ＭＤシミュレーションの実行温度を、例えば「Ｔ_n，Ｔ_n-1，・・・，Ｔ₀」とする（ｎは１以上の整数）。ここでは、Ｔ_n＞Ｔ_n-1＞・・・＞Ｔ₀である。ＳＡ制御部１２０は、シミュレーションの温度の初期値をＴ_nとし、以降、Ｔ₀（ターゲット温度）まで順番に温度を徐冷する。

各温度において、ＯＦＬＯＯＤ部１３０によってタンパク質構造探索が行われる。この構造探索において、第２の実施の形態では、ランダムな近傍解の探索や単なるＭＤシミュレーションによる構造探索ではなく、ＯＦＬＯＯＤが行われる。ＯＦＬＯＯＤによりタンパク質構造探索が行われることにより、飛躍的に構造探索効率が向上する。

例えば、ＯＦＬＯＯＤ部１３０は、ＳＡにおける温度パラメータが示す温度Ｔ_nの下で、ＯＦＬＯＯＤによる構造探索を実行する。この構造探索内では、例えばＭ（Ｍは１以上の整数）ステップの処理が実行される。次にＯＦＬＯＯＤ部１３０は、温度Ｔ_n-1の下でＯＦＬＯＯＤ（Ｍステップ）を実行する。その後、温度が徐冷されるごとにＯＦＬＯＯＤが実行され、最後にＯＦＬＯＯＤ部１３０は、温度Ｔ₀の下でＯＦＬＯＯＤ（Ｍステップ）を実行する。

このようなアニーリング過程における温度ごとのＯＦＬＯＯＤにより、複数のトラジェクトリが生成され、記憶部１１０に格納される。
［ステップＳ１０２］天然構造予測部１４０は、タンパク質の天然構造を予測する。例えば天然構造予測部１４０は、最終的に温度がＴ₀まで徐冷された段階におけるエネルギー最安定構造を天然構造に近い候補構造とする。また天然構造予測部１４０は、ＦｌｅｘＤｉｃｅによりタンパク質構造をクラスタリングし、タンパク質の安定構造を解析してもよい。この場合、天然構造予測部１４０は、例えば出現確率の高いタンパク質構造を、天然構造の候補として提案する。また、天然構造予測部１４０は、ＦｌｅｘＤｉｃｅのクラスタリング結果に加えて、ＭＤシミュレーションで得られたタンパク質構造に対するポテンシャルエネルギーを考慮し、最終的な天然構造を同定してもよい。

次に、タンパク質構造解析シミュレーションについて、詳細に説明する。
図９は、タンパク質構造解析シミュレーションの手順の一例を示すフローチャートである。以下、ステップ番号に沿って、図９の処理を説明する。

［ステップＳ１１１］ＳＡ制御部１２０は、シミュレーションにおける温度Ｔを、初期値Ｔ_nに設定する。次に、ＯＦＬＯＯＤ部１３０は、適当な変性構造を初期構造としてＭＤシミュレーションを実行し、初期トラジェクトリを生成する。

［ステップＳ１１２］ＯＦＬＯＯＤ部１３０は、ＦｌｅｘＤｉｃｅによるトラジェクトリのクラスタリングを行う。例えばＯＦＬＯＯＤ部１３０は、記憶部１１０に格納されている全トラジェクトリ内のタンパク質構造を示す構造データを、クラスタリング対象のデータ要素として、ＦｌｅｘＤｉｃｅによるクラスタリングを実行する。

［ステップＳ１１３］ＯＦＬＯＯＤ部１３０は、ＦｌｅｘＤｉｃｅによるクラスタリング結果からはずれ値を抽出し、ＭＤシミュレーションの初期構造として配置する。ここではずれ値を配置するとは、はずれ値に対応するタンパク質構造を表す構造データを、ＭＤシミュレーションの初期構造としてメモリ内に設定することである。

なお、クラスタリング結果において、はずれ値が多数存在する場合がある。この場合、ＯＦＬＯＯＤ部１３０は、例えば予め決められた数のはずれ値を選択し、ＭＤシミュレーションの初期構造として配置する。はずれ値は、例えばランダムに選択される。またタンパク質構造のエネルギーの小さいはずれ値から優先的に選択してもよい。図９の例では、Ｎ個（Ｎは１以上の整数）のはずれ値が選択され、ＭＤシミュレーションの初期構造として配置されている。

［ステップＳ１１４］ＯＦＬＯＯＤ部１３０は、はずれ値を初期構造とし、温度ＴでＭＤシミュレーションを再開する。はずれ値ごとのＭＤシミュレーションは独立して実行可能である。そこでＯＦＬＯＯＤ部１３０は、はずれ値ごとに個別のプロセッサで、ＭＤシミュレーションを並列実行させることもできる。ＭＤシミュレーションを並列で実行することで、処理の効率化が図れる。はずれ値ごとのＭＤシミュレーションにより、はずれ値ごとのトラジェクトリが生成される。

なおＯＦＬＯＯＤ部１３０は、ＭＤシミュレーションの過程で新たなタンパク質構造を生成するごとに、そのタンパク質構造のエネルギーを計算することもできる。
［ステップＳ１１５］ＯＦＬＯＯＤ部１３０は、生成されたトラジェクトリを回収する。例えばＯＦＬＯＯＤ部１３０は、はずれ値ごとに生成されたトラジェクトリを、記憶部１１０に格納する。またＯＦＬＯＯＤ部１３０は、トラジェクトリに含まれるタンパク質構造に対するエネルギーを計算した場合、そのエネルギーの値を、タンパク質構造に対応付けてエネルギー情報１１２に設定する。

以上のステップＳ１１２〜Ｓ１１５の処理が、ＯＦＬＯＯＤである。
［ステップＳ１１６］ＳＡ制御部１２０は、温度Ｔが、予め設定されたアニーリング終了のターゲット温度Ｔ₀に達したか否かを判断する。温度Ｔがターゲット温度Ｔ₀と等しい場合、タンパク質構造解析シミュレーションが終了する。温度Ｔがターゲット温度Ｔ₀より高い場合、処理がステップＳ１１７に進められる。

［ステップＳ１１７］ＳＡ制御部１２０は、温度ＴをＴ’に徐冷する（Ｔ＞Ｔ’）。すなわちＳＡ制御部１２０は、温度Ｔを示すパラメータにＴ’を設定する。Ｔ’は、例えばＴから所定の温度差ΔＴを減算した値である。その後、処理がステップＳ１１２に進められ、徐冷した状態で、繰り返しＯＦＬＯＯＤが実行される。

図９に示すように、ＯＦＬＯＯＤを利用してタンパク質構造解析を行うことで、ＳＡにおける徐冷の速度を極端に遅くしなくても、局所最適解を正解構造と誤認せずに、タンパク質の正しい天然構造を検出できる。これは、徐冷過程においてＯＦＬＯＯＤが効率的な構造探索を可能にしているためである。

図１０は、ＯＦＬＯＯＤの適用の有無によるタンパク質構造の探索過程の相違を示す概念図である。図１０内の左側には、ＯＦＬＯＯＤを適用しないＳＡによるタンパク質構造探索過程が示されている。図１０内の右側には、ＯＦＬＯＯＤを適用したＳＡによるタンパク質構造探索過程が示されている。図１０の横軸は、タンパク質の構造の変化を表している。横軸の位置が離れるほど、構造が大きく異なることを意味する。図１０の縦軸は、エネルギーを示している。図１０の曲線は、タンパク質構造に応じたエネルギーを表している。曲線における低い位置ほど、エネルギーが小さいタンパク質構造が存在する。エネルギーを示す曲線の上に示されている線は、ＳＡによるタンパク質構造の探索軌跡を表している。

ＯＦＬＯＯＤを適用しないＳＡの場合、シミュレーション開始時のタンパク質構造（スタート構造６１）から、エネルギーが小さくなる方向に構造探索が進められる。アニーリングの温度が高い間は、ＭＤシミュレーションでのタンパク質の構造変化が大きいため、エネルギーが大きくなる方向への探索が行われる可能性もある。しかし、徐冷されるに従って、エネルギーが大きくなる方向への探索は行われづらくなり、局所最適解６２の近傍から抜け出せなくなる可能性がある。その場合、エネルギーが最小となる天然構造６３（最適構造）にたどり着くことができず、誤って、局所最適解６２が正解構造として出力されてしまう。

図１０に示すＯＦＬＯＯＤを適用したＳＡでは、２つのスタート構造６４，６５から解析を行っている。このようにスタート構造６４，６５が複数あることで、天然構造への到達可能性が高くなる。そしてアニーリングの徐冷過程においてＯＦＬＯＯＤが実行されることで、はずれ値となるタンパク質構造を初期構造としてリセットしたＭＤシミュレーションが行われる。はずれ値は、それまで探索していたタンパク質構造と大きく異なる構造を有する。そのため探索範囲が、局所最適解の近傍に制限されない。そのためＯＦＬＯＯＤを適用して構造リサンプリングを繰り返すことで、局所最適解にはまらずにより大域的な構造探索が可能となるため、最適解（天然構造６３）に到達することができる。

しかも、第２の実施の形態の処理では、タンパク質の天然構造に効率的に到達することができる。例えば２０残基のタンパク質Trp-cage（Protein Data Bank (PDB) id:1L2Y）のテスト計算を実行し、変性構造から出発し、天然構造の情報を一切用いない"blind prediction"により、タンパク質の天然構造予測処理を実行した。すると、最安定構造からの平均自乗距離（ＲＭＳＤ：Root Mean Square Deviation）が１．０オングストローム以内の精度で天然構造を予測することができた。このテスト計算が示すように、第２の実施の形態に示すタンパク質天然構造予測処理は、大規模なタンパク質の天然構造の構造予測問題への適用も期待できる。

なお、Trp-cageのテスト計算では、アニーリング過程において、４００Ｋから３００Ｋへ１０Ｋごとに徐冷した。またＯＦＬＯＯＤの１サイクルにおいて、１００個（１００個以上のはずれ値がある場合は１００個をランダムに選択）のはずれ値を検出し、これらを初期構造として１００ｐｓの短時間ＭＤシミュレーションを実行した。ＯＦＬＯＯＤの１サイクル当たりの計算コストは、１００×１００ｐｓで１０ｎｓとなる。ここで比較のため、ＯＦＬＯＯＤを適用しないＳＡによるタンパク質天然構造予測処理を、同じ計算コストで実行した。

図１１は、ＯＦＬＯＯＤを適用しないＳＡによる人工タンパク質Trp-cageのテスト計算例を示す図である。ＯＦＬＯＯＤを適用しないＳＡでは徐冷過程にＭＤシミュレーションによりタンパク質構造が探索されるが、局所安定構造へ捕まるため最安定構造（天然構造）へたどり着くことが難しい。図１１では、横軸にタンパク質構造の計算回数が示されており、縦軸に得られたタンパク質構造の天然構造からのＲＭＳＤが示されている。ＲＭＳＤは２つの分子構造を重ね合わせて、対応する各原子のずれの二乗を平均したものの平方根であり、その値が小さければ小さい程２つの分子構造が類似していることを示す。

また、図１１における点線は、天然構造からのＲＭＳＤが１．０オングストロームの位置を示している。一般に、天然構造に対するＲＭＳＤが１．０オングストローム以下の精度でタンパク質構造が検出できれば、正しい天然構造が検出されたと評価できる。図１１の例では、ＲＭＳＤが１．０オングストローム以下のタンパク質構造が存在する範囲が探索されておらず、天然構造へ収束していないことが示唆されている。

図１２は、ＯＦＬＯＯＤを適用したＳＡによる人工タンパク質Trp-cageのテスト計算例を示す図である。徐冷過程のＭＤシミュレーションをＯＦＬＯＯＤに置き換えて構造リサンプリング（はずれ値の抽出）したＳＡにより、効率的に天然構造に到達することが可能となる。例えば点線で示された天然構造からのＲＭＳＤが１．０オングストロームの位置より下が探索されており、天然構造を高精度で予測可能であることが分かる。しかも、図１２の例では、かなり早い段階からＲＭＳＤが１．０オングストロームの位置より下となる構造が探索されており、天然構造に極めて近い構造が迅速に求まることが分かる。これは、天然構造を予測するまでの処理が少なくて済むことを意味する。

このように、第２の実施の形態を利用することにより、タンパク質の天然構造を決定しているアミノ酸の一次配列から効率的な構造探索が可能となるため、天然構造を予測することが可能となる。この技術は、多くの分野で利用可能である。具体的には、構造予測ができれば様々な種類のタンパク質を人工的に設計することが可能になる。タンパク質を設計することが可能となれば、産業や医療への貢献が期待できる。例えば、創薬開発において２つの分子（標的タンパク質とそれに結合する基質分子）が与えられた場合に、その結合過程をデザインすることができる。その結果、標的タンパク質に対する基質分子に関する情報の遮断・刺激、ないし酵素活性を制御することが可能となり、薬物設計に応用できる。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１，２クラスタ
３生体分子構造
４，５スタート構造
６はずれ値
７天然構造
１０情報処理装置
１１記憶部
１２演算部

Claims

構造が変化する生体分子の構造の集合を記憶する記憶部と、
前記生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、前記温度パラメータの温度を低減させたとき、前記集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める演算部と、
を有する情報処理装置。
前記演算部は、さらに、
前記集合に含まれる構造に基づいて、前記生体分子の天然構造を予測する、
請求項１記載の情報処理装置。
前記演算部は、前記クラスタリングで生成されたクラスタのいずれにも含まれない構造を、はずれ値として複数抽出し、抽出された該構造それぞれを初期構造とした分子動力学シミュレーションを、複数のプロセッサで並列に実行する、
請求項１または２記載の情報処理装置。
コンピュータが、
構造が変化する生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、
前記温度パラメータの温度を低減させたとき、前記生体分子の構造の集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、
該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める、
シミュレーション方法。
コンピュータに、
構造が変化する生体分子の温度を表す温度パラメータに設定する温度を所定の値から段階的に低減させ、
前記温度パラメータの温度を低減させたとき、前記生体分子の構造の集合に該低減前から含まれている構造に対するクラスタリングのはずれ値となる構造を初期構造として、前記温度パラメータを用いた分子動力学シミュレーションを実行し、
該分子動力学シミュレーションの実行過程で生成された構造を前記集合に含める、
処理を実行させるシミュレーションプログラム。