JP5051764B2

JP5051764B2 - 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム

Info

Publication number: JP5051764B2
Application number: JP2007320636A
Authority: JP
Inventors: 吉史岡田; 航藤渕
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2007-12-12
Filing date: 2007-12-12
Publication date: 2012-10-17
Anticipated expiration: 2027-12-12
Also published as: JP2009146028A

Description

本発明は、多数の遺伝子発現プロファイルデータから共発現モジュールを探索する技術に関する。

マイクロアレイなどによる遺伝子発現データの測定実験が世界中で盛んに行われており、利用可能な実験データ数が急速に増大している。遺伝子発現データは、遺伝子セットの発現値のデータであり、多数の遺伝子の発現値を有している。以下、このような遺伝子発現データを、発現プロファイルという。例えば、公共データベースＧＥＯでは、発現プロファイルの登録数が１年で２倍以上に増えており、既に１７万件以上の発現プロファイルが登録されている。

このような膨大な発現データベースが用意された現在、高度なバイオインフォマティクス技術の活用によって、関連する複数の実験で協調して働く遺伝子群である共発現モジュールを同定及び検索する技術が必要とされている。共発現モジュールの探索技術は、細胞の発生解析、遺伝性疾患の原因遺伝子の発見、遺伝子間相互作用ネットワークの解明などに役立つと考えられる。

図１９は、共発現モジュールを探索原理と共に示す図である。共発現モジュールは、バイクラスタリング処理によって求めることができる。バイクラスタリングとは、行列内で共通パタンが現れる局所的部分であるバイクラスタを探索する技術である。概念的には、行の順番の変更と、列の順番の変更によって、バイクラスタが探索される。バイクラスタリングは、文書の分類や画像の領域分割などの各種の用途にて実用化されている技術である。

図１９を参照すると、発現データベースは、多数の発現プロファイルが配列された行列ということができる。この行列に対してバイクラスタリング処理が行われ、バイクラスタが探索される。探索されたバイクラスタが、共発現モジュールに相当する。図１９に示すように、共発現モジュールは、遺伝子サブセットと発現プロファイルサブセットで構成されており、モジュール内では共通する発現パタンが現れる。

従来、関連技術としては、特許文献１が遺伝子発現プロファイル検索装置を提案している。この関連技術は、クエリの発現プロファイルと類似する個々の発現プロファイルをデータベースから探索できるが、共発現モジュールを探索するものではない。

また、非特許文献１は、バイクラスタリングを使ったモジュール検索技術を開示している。この関連技術によれば、発現データベース内の各モジュールにスコアが付けられる。そして、スコアが大きい方から所定数のモジュールが求められる。

また、非特許文献２も、バイクラスタリングを利用した共発現モジュール探索技術を開示している。この関連技術は、飽和アイテム集合列挙法（Linear time Closed itemset Miner、以下、ＬＣＭ）に基づくバイクラスタリングを採用している。

飽和アイテム集合列挙法（ＬＣＭ）は、例えば、多数の消費者により購入された商品のデータベースから、飽和アイテム集合を列挙することができる技術である。この例では、飽和アイテム集合は、複数の消費者から同時に購入される商品（アイテム）の最大集合である。ＬＣＭでは、トランザクションデータベース（この例では、全消費者が購入した全アイテムのデータベース）が処理されて、飽和アイテム集合が列挙される。ＬＣＭは、どの飽和アイテム集合も別の唯一の飽和アイテム集合から生成できるという性質を利用するprefix保存飽和拡張と呼ばれる方法により、効率的な枝刈りを実現する。そして、以前に見つけた飽和アイテム集合をメモリに保存せずに、深さ優先探索が行われ、線形時間で飽和アイテム集合が列挙される。ＬＣＭは、非特許文献３、４に開示されている。

非特許文献２は、上記のＬＣＭを、遺伝子発現モジュールの探索に適用している。この場合、上記の例の消費者及び商品が、遺伝子及び発現プロファイル（実験）に置き換えられる。そして、ＬＣＭにより飽和アイテム集合が列挙され、各飽和アイテム集合からバイクラスタが求められ、このバイクラスタが共発現モジュールに相当する。

また、非特許文献２では、ＬＣＭによって多数の遺伝子発現モジュールが列挙された後に、フィルタリング操作が行われる。フィルタリングにより、小さいモジュールが除去される。
特開２００６−９２４７８号公報 A. Prelic, S. Bleuler, P. Zimmermann, A. Wille, P. Buhlman, W. Gruissem, L. Hennig, L. Thiele, and E. Zitzler, "A systematic comparison and evaluation of biclustering methods for gene expression data," Bioinformatics, vol. 22, pp.1122-1129, 2006 Y. Okada, W. Fujibuchi, P. Horton, "A Biclustering Method for Gene Expression Module Discovery Using a Closed Itemset Enumeration Algorithm", IPSJ Transactions on Bioinformatics, vol. 48, no. SIG 5(TBIO2), pp.39-48, 2007 宇野毅明、有村博紀、「飽和集合列挙アルゴリズムを用いた大規模データベースからのルール発見法、統計数理、日本、統計数理研究所、2005年、第53巻、第2号、318-329ページ Uno, T., Kiyomi, M., and Arimura, H."LCM ver.2: Efficient Mining Algorithms for Frequent/Closed/Maximal Itemsets", IEEE ICDM'04 Workshop FIMI'04, 2004.

しかしながら、上記の関連技術は、モジュール探索の効率をある程度向上しているものの、数千〜数万の実験データを含んだ大規模データベースへは適用されていない。大規模データベースにてモジュール探索を行うと、データ量が多くなり、計算負荷が過大となる。

また、上記の関連技術においては、モジュール内では発現パタンが完全に一致することが求められる。一部にノイズを含む共発現モジュールを探索することができず、これにより重要な遺伝子発現モジュールを取りこぼす可能性がある。さらに、フィルタリング操作で小さいモジュールを除去する過程でも、重要なモジュールを除去してしまう可能性がある。

本発明は上記背景の下でなされたものであり、その目的は、大規模データベースから共発現モジュールを網羅的に探索できるモジュール探索技術を提供することにある。

本発明の一の目的は、生物学的に意味のある共発現モジュールをより高い精度で探索できるモジュール探索技術を提供することにある。

本発明の一の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索装置であって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースと、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得するクエリ取得部と、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部と、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとするモジュール探索部とを備え、前記モジュール探索部は、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する離散値行列生成部と、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮する離散値行列圧縮部を有し、前記離散値行列圧縮部は、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。

上記のように、本発明は、発現プロファイルを離散化した離散発現プロファイルのデータベースを用意し、クエリ発現プロファイルを入力して、クエリ内の遺伝子サブセットで構成される共発現モジュールを探索する。共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、モジュール内で共通する離散ラベルパタンが現れる。本発明は特に、上述のようにクエリの離散発現プロファイルに基づいて離散値行列を圧縮し、圧縮された離散値行列から共発現モジュールを探索する。探索結果に影響を与えることなく、クエリに基づいて探索処理対象データを圧縮でき、探索処理対象データを大幅に削減できる。したがって、多数の発現プロファイルから共発現モジュールを網羅的に探索することが可能になる。また、本発明によれば、上記のようにクエリを使う探索機能が提供されるので、ユーザが興味を持つプロファイルデータをクエリとしたモジュール探索が可能になる。

前記離散値行列生成部は、前記離散値行列を生成する際、各離散発現プロファイルから、前記クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除してよい。

これにより、離散値行列が、クエリ発現プロファイルに存在する遺伝子のデータのみで構成される。すなわち、クエリ発現プロファイルに存在せずに他の発現プロファイルに存在する遺伝子のデータを持たないように、離散値行列が生成される。この処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外している。したがって、クエリを使った探索結果に影響を与えることなく、離散値行列を小さくでき、探索処理対象データをさらに削減できる。

前記離散値行列圧縮部は、さらに、前記モジュール探索部により探索されるべき前記共発現モジュールの最小遺伝子数に基づき、前記非モジュール離散ラベル以外の離散ラベルの数が前記最小遺伝子数未満である前記離散発現プロファイルを前記離散値行列から削除してよい。

これにより、有効な離散ラベルが少ないためにモジュール構成要素にならない離散発現プロファイルのデータを削除することができる。したがって、探索結果に影響を与えることなく、離散値行列を小さくでき、探索処理対象データをさらに削減できる。

前記モジュール探索部は、前記離散値行列内で共通パタンが現れるバイクラスタを探索するバイクラスタリング処理を行って、探索されたバイクラスタを前記共発現モジュールとしてよい。これにより、バイクラスタリング技術によって共発現モジュールを好適に探索できる。

前記モジュール探索部の前記バイクラスタリング処理は、飽和アイテム集合列挙法に基づくバイクラスタリング処理であり、前記離散値行列に含まれる遺伝子と離散ラベルの各組合せをアイテムとし、前記離散値行列から前記アイテムで構成されるトランザクションデータベースを生成し、前記トランザクションデータベースにおいて複数の離散発現プロファイルに共通に存在するアイテムの最大集合である飽和アイテム集合を列挙し、各飽和アイテム集合に対応するバイクラスタを求めてよい。これにより、飽和アイテム集合列挙法をバイクラスタリングに適用して、共発現モジュールを好適に探索できる。

前記モジュール探索部は、前記非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される前記トランザクションデータベースを生成してよい。

この構成により、トランザクションデータベースが、非モジュール離散ラベルに対応するデータ抜きで生成される。すなわち、非モジュール離散ラベルに対応するアイテムを含まないようにトランザクションデータベースが生成される。非モジュール離散ラベルは共発現モジュールを構成しない。したがって、上記の処理により、探索結果に影響を与えることなく、トランザクションデータベースを小型化でき、これにより探索処理対象データをさらに削減できる。

前記離散値行列圧縮部は、前記クエリ離散発現プロファイルの遺伝子の離散ラベルと各離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、前記離散発現プロファイルの前記遺伝子の離散ラベルを前記非モジュール離散ラベルに変換してよい。

この構成により、同一遺伝子の離散ラベルがクエリ離散発現プロファイルと離散発現プロファイルデータベースの離散発現プロファイルで異なる場合に、離散発現プロファイルの離散ラベルが非モジュール離散ラベルへ変換される。このラベル変換により、変換されたラベルからはトランザクションデータベースのアイテムが生成されない。ここで、変換されたラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルである。したがって、上記圧縮により、探索結果に影響を与えることなく、トランザクションデータベースをさらに小型化でき、これにより、探索処理対象データをさらに削減できる。

前記モジュール探索部は、探索された複数の共発現モジュールを融合して融合モジュールを生成するモジュール融合部を有し、前記モジュール融合部は、前記融合モジュール内でパタンが相違する部分であるノイズが、予め設定された許容ノイズ以下になる範囲で、融合処理を行ってよい。

この構成により、ノイズを許容した共発現モジュールを探索できる。ノイズを含むが生物学的に意味のある共発現モジュールを探索できる。したがって、生物学的に意味のある重要な共発現モジュールをより高い精度で求めることができる。

本発明は、多数の遺伝子発現プロファイルにおける遺伝子毎の多数の発現値から生成された発現順位データを記憶する発現順位データ記憶部を有してよく、前記発現順位データは、遺伝子毎に、各遺伝子の前記多数の発現値に順位を付したときの、前記離散ランクのランク境界順位を有しており、前記離散発現プロファイルデータベースの各離散発現プロファイル及び前記クエリ離散発現プロファイルは、前記発現順位データの前記ランク境界順位に基づいて判定された離散ランクの離散ラベルで構成されてよい。この構成により、発現値を適切にランク分けでき、生物学的に意味のある共発現モジュールをより高精度で探索できる。

前記発現順位データの前記ランク境界順位は、同一遺伝子の発現値データ数における比率に基づいて規定されてよく、発現値の最大値側に１以上の高発現ランクが設定されてよく、発現値の最小値側に１以上の低発現ランクが設定されてよく、前記高発現ランクと前記低発現ランクの間の領域が、共発現モジュールを構成しない前記非モジュール離散ラベルに対応するランクでよい。この構成により、発現値を適切にランク分けでき、生物学的に意味のある共発現モジュールをより高精度で探索できる。

本発明の別の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索方法であって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとし、前記探索ステップは、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。この態様によっても上述した本発明の利点が得られる。

本発明の別の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する処理をコンピュータに実行させる遺伝子発現モジュール探索プログラムであって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとする処理を前記コンピュータに実行させ、前記探索ステップは、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。この態様によっても上述した本発明の利点が得られる。

上記のように、本発明は、大規模データベースから共発現モジュールを網羅的に探索できるモジュール探索技術を提供することができる。

また、本発明は、生物学的に意味のある共発現モジュールをより高い精度で探索できるモジュール探索技術を提供することができる。

以下、本発明の好適な実施の形態について、図面を参照して説明する。

図１は、本発明の実施の形態に係る遺伝子発現モジュール探索装置を示している。遺伝子発現モジュール探索装置１は、コンピュータ装置であり、演算装置であるＣＰＵと、ＲＡＭ、ＲＯＭ等の記憶装置と、キーボード及びポインティングデバイス等の入力装置と、ディスプレイ及びプリンタ等の出力装置と、ハードディスク等の外部記憶装置を備えている。遺伝子発現モジュール探索装置１は、ネットワークとの通信機能を備え、この通信機能が情報の入出力装置として機能してよい。また、外部記録媒体に対するデータの読み書きの構成も、入出力装置として機能してよい。記憶装置には、本発明の各種処理をコンピュータに行わせるプログラムが記憶されており、このプログラムを実行することによって遺伝子発現モジュール探索装置１が実現される。遺伝子発現モジュール探索装置１は一つのコンピュータ装置で構成されてもよく、複数のコンピュータ装置で構成されてもよく、それらは分散配置されてもよい。

図１に示すように、遺伝子発現モジュール探索装置１は、概略的には、モジュール探索に用いる離散プロファイルデータベースを作成するための構成として、発現プロファイルのデータを入力するプロファイル入力部３と、プロファイル入力部３により入力された多数の発現プロファイルからなる発現プロファイルデータベースを記憶する発現プロファイルデータベース記憶部５と、発現プロファイルデータベースから離散発現プロファイルデーターベースを生成する離散発現プロファイルデータベース生成部７と、離散発現プロファイルデータベース生成部７により生成された離散発現プロファイルデータベースを記憶する離散発現プロファイルデータベース記憶部９とを有する。

さらに、遺伝子発現モジュール探索装置１は、離散発現プロファイルデータベースを用いたモジュール探索のための構成として、クエリ発現プロファイルを入力するクエリ入力部１１と、クエリ発現プロファイルからクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部１３と、離散発現プロファイルデータベースを用いてクエリ発現プロファイルを含むような共発現モジュールを探索するモジュール探索部１５と、モジュール探索部１５により探索された共発現モジュールを出力するモジュール情報出力部１７とを有する。

図２は、発現プロファイルデータベース記憶部５に記憶される発現プロファイルデータベースの例を示している。図示のように、発現プロファイルデータベースは、多数の発現プロファイルからなる。各発現プロファイルは、マイクロアレイなどを使った実験によって測定された遺伝子セットにおける各遺伝子の発現値のデータで構成される。発現プロファイルは実験データ又は実験プロファイルということもできる。発現値は絶対値でもよく、あるいは、比率等の相対値でもよい。発現プロファイルは、外部のデータベースから通信経由でプロファイル入力部３により入力されてよい。実際の発現プロファイルデータベースは、図２の例よりも大幅に大きいサイズを有しており、そして、遺伝子セットの遺伝子数も発現プロファイルの数も図２の例より大幅に多い。このような発現プロファイルデータベースが、共発現モジュールの探索源となる。

次に、離散発現プロファイルデータベース生成部７について説明する。前述のように、離散発現プロファイルデータベース生成部７は、発現プロファイルデータベースから離散発現プロファイルデータベースを生成する構成である。

まず、図３を参照し、生成されるべき離散発現プロファイルデータベースの概要を説明する。離散発現プロファイルデータベースは、多数の発現プロファイルからそれぞれ生成される多数の離散発現プロファイルによって構成される。各々の離散発現プロファイルは、発現プロファイルの発現値を離散化することにより得られるデータである。離散化のために、複数の離散ランクが設定されており、各離散ランクを表す離散ラベルが用いられる。本実施の形態の例では、３つの離散ランク「Ｈ（ｈｉｇｈ）、「Ｌ（ｌｏｗ）」、「ｏｔｈｅｒｅｘｐｒｅｓｓｉｏｎｓ（以下、ｏｔｈｅｒｓという）」が用いられる。「ｏｔｈｅｒｓ」は、「Ｈ」と「Ｌ」の中間のランクを表す。離散発現プロファイルは、図示のようにプロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである。

離散発現プロファイルデータベース生成部７は、上記の離散発現プロファイルデータベースを生成するために、発現プロファイルデータベース記憶部５の多数の発現プロファイルから発現順位データを生成する発現順位データ生成部２１と、順位データ生成部２１により生成された発現順位データを記憶する発現順位データ記憶部２３と、発現順位データを基に多数の発現プロファイルから多数の離散発現プロファイルをそれぞれ生成する離散発現プロファイル生成部２５とを有し、離散発現プロファイルデータベース記憶部９は、離散発現プロファイル生成部２５により生成された多数の離散発現プロファイルで構成される離散発現プロファイルデータベースを格納する。

図４及び図５は、発現順位データ生成部２１により生成される発現順位データを示している。発現順位データは、遺伝子毎のデータであり、発現プロファイルデータベースにおける同一遺伝子の多数の発現値から生成される。ここでは、一つの遺伝子を注目遺伝子とする。発現順位データ生成部１５は、発現プロファイルデータベースから、注目遺伝子の全部の発現値を抽出する。抽出された全部の発現値の順位が、１−１００００までの発現順位に正規化される。そして、「α％点の下限順位」と「β％点の上限順位」が求められる。「下限順位」とは、注目遺伝子を発現値で降順ソートしたときの下位α％の最高順位である。同様に、「上限順位」とは、同一遺伝子を発現値で降順ソートしたときの上位β％の最低順位である。α％及びβ％は、注目遺伝子の発現値の総数に対する比率である。図の例では、α＝β＝０．５である。

下限順位及び上限順位は、離散ランクのランク境界順位として用いられる。下限順位が「Ｌ」と「ｏｔｈｅｒｓ」の境界であり、上限順位が「Ｈ」と「ｏｔｈｅｒｓ」の境界である。

発現順位データ生成部２１は、上記のランク境界順位である下限順位及び上限順位の情報を有する順位データファイルを作成し、発現順位データ記憶部２３に格納する。図４に示すように、発現順位データファイルにおいては、「ＩＤ」、「遺伝子名」、「下限順位：上限順位」がタブ区切りで並べられる。

図６を参照し、上記のような発現順位データを用いる利点を説明する。図６において、横軸は発現値である。遺伝子Ａの発現値は全体的に低く、遺伝子Ｂの発現値は全体に中程度であり、遺伝子Ｃの発現値は全体に高い。このような場合に、図示のように２つの発現値Ｘ１、Ｘ２をランク境界に設定して、ランク境界Ｘ１、Ｘ２を使って単純に発現値を使って離散化を行ったとすると、遺伝子Ａのデータはすべて「Ｌ」にランクされ、遺伝子Ｂのデータはすべて「ｏｔｈｅｒｓ」にランクされ、遺伝子Ｃのデータはすべて「Ｈ」にランクされる。これでは、発現値の大きさを適切にランキングできず、モジュール探索の精度が低下する。これに対して、本実施の形態によれば、上述した発現順位データを用いることで、遺伝子Ａ、遺伝子Ｂ、遺伝子Ｃの各々に適切なランク境界Ｙａ１、Ｙａ２、Ｙｂ１、Ｙｂ２、Ｙｃ１、Ｙｃ２が設定され、発現値の大きさが適切にランクされ、したがって、モジュール探索の精度を向上できる。

離散発現プロファイル生成部２５は、上記の発現順位データを参照して、各々の発現プロファイルを、離散発現プロファイルに変換する。この処理では、発現プロファイルにおける各遺伝子の発現値の発現順位が求められる。この発現順位は、上述したように同一遺伝子の全発現値における順位であって、１−１００００の順位へと正規化されている。そして、発現順位が、該当遺伝子の発現順位データにおける下限順位及び上限順位と比較される。これにより、各発現値の離散ランクが判定されて、離散ラベルが付与される。

図７は、離散発現プロファイル生成部２５により生成される遺伝子−離散ラベルファイルであり、このファイルが離散発現プロファイルデータベースに相当する。図７において、「 Experiment 1」は実験名であり、離散発現プロファイルを識別する情報に相当する。その次の行から各遺伝子に関するデータが記述される。データ行では、「ＩＤ」、「遺伝子名」、「順位」、「離散ラベル」がタブ区切りで並べられる。離散ラベル「１」「−１」「０」は、図３の「Ｈ」、「Ｌ」、「ｏｔｈｅｒｓ」に相当する。

例えば、「Experiment 1」の遺伝子１００７−ｓ−ａｔに着目する。発現順位は６６６４．７である。同遺伝子の下限順位は５０８９．８である（図４）。発現順位が下限順位以下なので、離散ラベルは「−１」（Ｌ）である。

同様に、「Experiment 1」において、遺伝子１０５３−ａｔの発現順位は２６７０である。同遺伝子の下限順位：上限順位は、４３２９．３１：１５４１．９８である。発現順位が下限順位より高く、上限順位より低いので、離散ラベルは「０」（ｏｔｈｅｒｓ）である。

また、「Experiment 2」において、遺伝子１００７−ｓ−ａｔの発現順位は２０１．５０である。同遺伝子の上限順位は２０９．１２８である。発現順位が上限順位以上なので、離散ラベルは「１」（Ｈ）である。

遺伝子−離散ラベルファイルにおいては、各実験のデータが、離散ラベルのセットであり、本発明における一つの離散発現プロファイルに相当する。そして、遺伝子−離散ラベルファイルが、本発明の離散発現プロファイルデータベースとして、離散発現プロファイルデータベース記憶部９に記憶される。

以上に、離散発現プロファイルデータベースを作成する構成について説明した。次に、上記の離散発現プロファイルデータベースを探索源として共発現モジュールを探索する構成について説明する。

クエリ入力部１１は、本発明のクエリ取得部に相当する構成であり、モジュール探索のクエリとなるべき発現プロファイルであるクエリ発現プロファイルを入力する。ある実験で得られた発現プロファイルにてどのような共発現モジュールが働いているかにユーザが興味を持っているとする。このような発現プロファイルが、クエリ発現プロファイルとしてクエリ入力部１１から入力される。

図８は、クエリ発現プロファイルの例を示している。具体的には、クエリ発現プロファイルは、「遺伝子名：発現値」の組をスペース又はタブで区切ったデータである。また、図示のように、クエリ入力部１１は、クエリ発現プロファイルと共に、モジュール探索のパラメータを入力する。パラメータは、モジュール最小サイズ及び許容ノイズである。モジュール最小サイズは、探索されるべきモジュールの縦方向及び横方向の最小サイズであり、すなわち、最小遺伝子数及び最小プロファイル数（最小実験数）に相当する。許容ノイズは、ノイズの許容率で規定される。許容ノイズは、後述するようにモジュール融合処理にて使用される。

クエリ離散発現プロファイル生成部１３は、クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成する。クエリ発現プロファイルは、上述の離散発現プロファイルデータベースを作成するときと同様の処理によって、クエリ離散発現プロファイルに変換される。すなわち、クエリ発現プロファイルにおける各遺伝子の発現値の発現順位が求められる。この発現順位は、発現プロファイルデータベース中の同一遺伝子の全部の発現値における順位であり、上記のように正規化される。この発現順位が、発現順位データ記憶部２３に記憶された該当遺伝子の発現順位データと比較される。クエリ離散発現プロファイル生成部１３は、発現順位を下限順位及び上限順位と比較し、「Ｈ」、「Ｌ」、「ｏｔｈｅｒｓ」のいずれの離散ランクに属するかを判定する。そして、クエリ離散発現プロファイル生成部１３は、判定された離散ランクを表す離散ラベルを各遺伝子に付与する。

モジュール探索部１５は、離散発現プロファイルデータベースから、上述のようにして生成されたクエリ離散発現プロファイルを一部に含むような共発現モジュールを探索するように構成されている。

図９はモジュール探索の概念を示しており、図示のように、探索される共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、共通する離散ラベルパタンが現れるモジュールである。図９はモジュール探索の概念図であり、実際の処理では、モジュール探索部１５の下記構成により、離散値行列が生成され、バイクラスタリングによってモジュール探索が行われる。

図１に示すように、モジュール探索部１５は、離散値行列生成部３１、離散値行列圧縮部３３、バイクラスタリング処理部３５及びモジュール融合部３７を有している。

離散値行列生成部３１は、クエリ離散発現プロファイル及び離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する。図９のクエリ離散発現プロファイルとデータベース内の多数の離散発現プロファイルが結合され、配列され、これにより離散値行列が得られる。

クエリ離散発現プロファイルと多数の離散発現プロファイルにおいて、構成要素の遺伝子セットが同じであるとは限らない。遺伝子セットが異なる場合、離散値行列生成部３１は、各離散発現プロファイルから、クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除する。

これにより、離散値行列生成部３１は、クエリ発現プロファイルに存在する遺伝子のデータのみで構成される離散値行列を生成する。すなわち、離散値行列生成部３１は、クエリ発現プロファイルに存在せずに他の発現プロファイルに存在する遺伝子のデータを持たない行列を生成する。この処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外している。したがって、探索結果に影響を与えることなく、離散値行列を小さくできる。

次に、離散値行列圧縮部３３による圧縮処理について説明する。離散値行列圧縮部３３は、モジュール探索の前処理として、クエリ離散発現プロファイルに基づいて離散値行列を圧縮する。離散値行列圧縮部３３は、下記の３つの圧縮処理を行うように構成されている。

「圧縮１」圧縮１は、所定の非モジュール離散ラベルを用いる。非モジュール離散ラベルは、モジュールを構成しない離散ラベルとして予め定められており、記憶されている。離散値行列圧縮部３３は、クエリ離散発現プロファイル内で非モジュール離散ラベルが付された遺伝子を特定する。そして、特定された遺伝子のデータが離散値行列から削除される。

図１０は、圧縮１の処理の例を示している。この例では、「ｏｔｈｅｒｓ」が非モジュール離散ラベルである。離散値行列圧縮部３３は、クエリ離散発現プロファイルのうちで、「ｏｔｈｅｒｓ」が付された遺伝子を特定する。特定した遺伝子の全データ（行全体）が、離散値行列から削除される。

削除されたデータは、元々、共発現モジュールを構成しないデータである。したがって、上記圧縮により、クエリ発現プロファイルを使った探索結果に影響を与えずに、離散値行列を小さくして、探索処理対象データを大幅に削減できる。

「圧縮２」圧縮２は、クエリ離散発現プロファイルの遺伝子の離散ラベルと各々の離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、離散発現プロファイルの遺伝子の離散ラベルを非モジュール離散ラベルに変換する処理である。

図１１を参照すると、離散値行列圧縮部３３は、クエリ離散発現プロファイルと各々の離散発現プロファイルにおける同一遺伝子の離散ラベルを比較する。図中の例では、前者が「Ｈ」であり、後者が「Ｌ」であり、両ラベルが異なる。そこで、離散値行列圧縮部３３は、離散発現プロファイルの方の離散ラベルを「ｏｔｈｅｒｓ」に変換する。

図１１では該当個所を全て示した。しかし、圧縮１の後に圧縮２を行う場合は、遺伝子１、２等のデータは既に削除されているので、圧縮２では処理されなくてよい。

圧縮２で変換されるラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルであり、要するにモジュール探索では無用なラベルである。圧縮２の変換を行うと、後段のトランザクションデータベースを生成する処理にて、無用なラベルのアイテムの生成を回避できる。これにより、探索結果に影響を与えることなく、トランザクションデータベースを小型化できる。

「圧縮３」圧縮３は最小遺伝子数を用いる。この最小遺伝子数は、前述したように、モジュール最小サイズとしてクエリ入力部１１によりクエリ発現プロファイルなどと共に入力される。

最小遺伝子数は、探索すべき共発現モジュールの遺伝子配列方向（図９の縦方向）の最小サイズを規定する値である。離散値行列圧縮部３３は、非モジュール離散ラベル以外の離散ラベルの数が最小遺伝子数未満である離散発現プロファイルを離散値行列から削除する。

図１２の例において、最小遺伝子数が４であったとする。離散値行列圧縮部３３は、「Ｈ」又は「Ｌ」（「ｏｔｈｅｒｓ」以外）のラベルの数が４未満の離散発現プロファイルを離散値行列から削除する。

ここで、上記で削除した離散発現プロファイルは、有効なラベル数が少ないために後段の探索処理にて共発現モジュールとして探索されないプロファイルである。つまり、この圧縮処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外できる。したがって、クエリを使った探索結果に影響を与えることなく、離散値行列を小さくできる。

以上に、本実施の形態に行列圧縮処理を説明した。上記の３つの圧縮処理は、圧縮１、圧縮２、圧縮３の順に行われてよい。これら圧縮の順番は入れ替えられてよい。ただし、圧縮３は、圧縮２の後に行うことが好適である。

次に、バイクラスタリング処理部３５について説明する。バイクラスタリングは、既に説明したように、行列内で共通パタンが現れる局所的部分であるバイクラスタを探索する技術である。概念的には、行の順番の変更と、列の順番の変更によって、バイクラスタが探索される。バイクラスタリングは、文書の分類や画像の領域分割などの各種の用途にて実用化されている技術である。

本実施の形態では、バイクラタリングが共発現モジュール探索に適用される。すなわち、バイクラスタリング処理部３５は、離散値行列圧縮部３３による圧縮後の離散値行列からバイクラスタを探索する。探索されたバイクラスタが、共発現モジュールに相当する。

バイクラスタリング処理部３５は、飽和アイテム集合列挙法（Linear time Closed itemset Miner、以下、ＬＣＭ）を用いてバイクラスタリングの処理を行うように構成されている。ＬＣＭは、例えば、多数の消費者により購入された商品のデータベースから、飽和アイテム集合を列挙することができる。この例では、飽和アイテム集合は、複数の消費者から同時に購入される商品（アイテム）の最大集合である。ＬＣＭでは、トランザクションデータベース（この例では、全消費者が購入した全アイテムのデータベース）が処理されて、飽和アイテム集合が列挙される。

ＬＣＭは、どの飽和アイテム集合も別の唯一の飽和アイテム集合から生成できるという性質を利用するprefix保存飽和拡張と呼ばれる方法を用いることにより、効率的な枝刈りを実現する。図１３は、保存飽和拡張法の概念を示している。以前に見つけた飽和アイテム集合をメモリに保存せずに、深さ優先探索が行われ、線形時間で飽和アイテム集合が列挙される。図中のφは空集合を示す。ＬＣＭは、既に挙げた非特許文献３、４に開示されている。

ＬＣＭによる共発現モジュール探索は、既に挙げた非特許文献２に開示されている。ただし、非特許文献２の技術では、上述したような圧縮処理が行われていなかった。本実施の形態では、上述した圧縮処理後の離散値行列がＬＣＭに入力されるので、計算負荷が大幅に小さくなり、大規模なデータベースからの網羅的なモジュール探索が可能になる。

共発現モジュール探索へのＬＣＭの適用について、より詳細に説明する。上述の例では、飽和アイテム集合は、複数の消費者により購入される商品（アイテム）の最大集合である。本実施の形態では、商品が遺伝子に置き換えられ、消費者が離散発現プロファイルに置き換えられる。

ここで、商品を第１属性、消費者を第２属性と考える。個々の商品は第１属性の要素であり、個々の消費者は第２属性の要素である。ＬＣＭは、第１属性と第２属性の行列を処理して、第２属性の複数の要素に該当する第１属性の要素の最大集合を求める処理といえる。本実施の形態では、第１属性を遺伝子とし、第２属性を離散発現プロファイルとする。これにより、ＬＣＭのアルゴリズムによって、第１属性である遺伝子の最大集合を求めることができる。この遺伝子の最大集合が共発現モジュールの遺伝子サブセットに相当する。

バイクラスタリング処理部３５は、まず、ＬＣＭ処理に必要なトランザクションデータベースを離散値行列から生成する。離散値行列の各データがアイテムに変換されて、トランザクションデータベースが生成される。本実施の形態の場合、アイテムは、離散値行列中の遺伝子と離散ラベルの組合せである。例えば、離散値行列が、遺伝子１、遺伝子２、遺伝子３を有していたとする。また、離散ラベルは、「Ｈ」及び「Ｌ」である。この場合、下記のようにアイテムが設定される。

遺伝子１、離散ラベルＨ：アイテムＡ
遺伝子１、離散ラベルＬ：アイテムＢ
遺伝子２、離散ラベルＨ：アイテムＣ
遺伝子２、離散ラベルＬ：アイテムＤ
遺伝子３、離散ラベルＨ：アイテムＥ
遺伝子３、離散ラベルＬ：アイテムＦ

トランザクションデータベースは、最小サポート数と共にＬＣＭのアルゴリズムに入力される。最小サポート数は、最小プロファイル数（離散発現プロファイルの最小数）である。最小プロファイル数は、前述したように、クエリ入力部１１からクエリ発現プロファイルと共に入力され、バイクラスタリング処理部３５に供給される。ＬＣＭは、最小プロファイル数以上の複数の離散発現プロファイルに含まれているアイテムの最大集合を求める。この最大集合が、飽和アイテム集合である。

バイクラスタリング処理部３５は、さらに、飽和アイテム集合から共発現モジュールを求める。飽和アイテム集合は、共発現モジュールの遺伝子サブセットに相当している。遺伝子と離散ラベルの組合せに対してアイテムが設けられているので、飽和アイテム集合は、遺伝子サブセットの各遺伝子の離散ラベルも特定する。つまり、飽和アイテム集合は、共発現モジュールにおける共通発現パタンである。この共通発現パタンを持つ離散発現プロファイルのサブセットは一意に定まる。このサブセットが飽和アイテム集合から求められ、これにより、他に包含されない極大なモジュールが得られる。

具体的には、バイクラスタリング処理部３５は、飽和アイテム集合の全アイテムを併せ持つ離散発現プロファイルを抽出する。抽出された離散発現プロファイルの集合が、共発現モジュールのプロファイルサブセットである。このプロファイルサブセットと、飽和アイテム集合に示される遺伝子サブセットとにより、共発現モジュールが構成される。ただし、バイクラスタリング処理部３５は、遺伝子サブセットの遺伝子数が最小遺伝子数未満のモジュールを除外する。こうして、バイクラスタリング処理部３５は、共発現モジュールを求めることができる。

以上にバイクラスタリング処理部３５のモジュール探索処理を説明した。上述したように、本実施の形態では、トランザクションデータベースは、「Ｈ」「Ｌ」に対応するアイテムのみを用いて生成される。すなわち、「ｏｔｈｅｒｓ」に対応するアイテムは生成されない。「ｏｔｈｅｒｓ」は、非モジュール離散ラベルである。つまり、トランザクションデータベースは、非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される。

非モジュール離散ラベルは、元々、共発現モジュールの構成要素に選択されないラベルであり、すなわち、共発現モジュールの探索にとって無用なラベルである。本実施の形態では、トランザクションデータベースが、無用なラベルに対応するデータを持たなくてよいので、トランザクションデータベースを小型化できる。

また、本実施の形態では、前段の圧縮２の処理にて、クエリ離散発現プロファイルの遺伝子の離散ラベルと各々の離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、離散発現プロファイルの遺伝子の離散ラベルを非モジュール離散ラベル（ｏｔｈｅｒｓ）に変換されている。この変換されたラベルからは、上記のようにアイテムが生成されない。そして、変換されたラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルである。したがって、圧縮２により、探索結果に影響を与えることなく、トランザクションデータベースが小型化される。

上記においては、遺伝子発現モジュール探索装置１が、複数の発現プロファイルが同じ発現パタンを持つようなモジュール、すなわちプロファイルサブセット方向に発現パタンが共通するモジュールを探索している。変形例としては、遺伝子発現モジュール探索装置１は、複数の遺伝子が同じ発現パタンを持つようなモジュール、すなわち、遺伝子サブセット方向に発現パタンが共通するモジュールを探索してもよい（図１９を参照すると、前者は横縞のモジュールであり、後者は縦縞のモジュールである）。この場合、上記の実施の形態と比べると、離散値行列が転置される（遺伝子とプロファイル（実験）が入れ替えられる）。また、離散発現プロファイルと離散ラベルの各組合せにアイテムが設定される。ＬＣＭの最小サポート数としては最小遺伝子数が用いられる。これにより、上述の実施の形態と同様の処理により、遺伝子サブセット方向にパタンが共通するモジュールを探索することができる。非特許文献２は、この変形例に相当するモジュールを探索している。

なお、実際に提供されているＬＣＭアルゴリズムの例では、アイテムが、行列のうちの行方向（横方向）に並べられる。この観点では、本実施の形態では、離散値行列（図１０等）を転置することにより遺伝子が行方向に配置され、それから離散値行列がＬＣＭに適用されてよい。この離散値行列の転置は上記変形例では不要である。

以上に、バイクラスタリング処理部３５によるモジュール探索について説明した。次に、モジュール融合部３７について説明する。ここでは、バイクラスタリング処理部３５により探索された共発現モジュールを、「コアモジュール」という。

図１４は、モジュール融合部３７による融合処理を示している。モジュール融合部３７は、ノイズを許容して複数のコアモジュールを融合することにより融合モジュールを生成する構成である。融合処理は、トランザクションデータベースに変換される前の離散値行列に対して行われる。

ノイズとは、図示のように、モジュール内でパタンが相違する部分である。モジュール融合部３７は、融合モジュール内のノイズが許容ノイズ以下になる範囲で融合処理を行う。許容ノイズは、前述のように、クエリ発現プロファイルと共にクエリ入力部１１から入力されている。

本実施の形態では、許容ノイズは、ノイズ許容率で規定される。そして、ノイズ率がノイズ許容率以下になるように、融合処理が行われる。ノイズ率は、融合後に拡張されたモジュールにおける行と列のそれぞれについて計算される。図１４の例では、モジュール１、２が融合されて、融合モジュールが形成されている。融合モジュールにおいては、「遺伝子a、実験４を含む行および列」および、「遺伝子e、実験１を含む行および列」が、拡張行及び拡張列である。これらの拡張行及び拡張列のノイズ率は以下の通りである。
「遺伝子a、実験４を含む行および列」に関して、
“遺伝子aの行のノイズ率”＝１／４＝０．２５
“実験４の列のノイズ率”＝１／５＝０．２
「遺伝子e、実験１を含む行および列」に関して、
“遺伝子ｅの行のノイズ率”＝１／４＝０．２５
“実験１の列のノイズ率”＝１／５＝０．２

少なくとも一つの拡張行又は拡張列において、ノイズ率がノイズ許容率を上回れば、融合は行われない。すなわち、すべての拡張行及び拡張列のノイズ率がノイズ許容率以下であれば、２つのモジュールが融合される。図１４の例では、例えばノイズ許容率が０．３であれば、融合が行われる。

融合処理は具体的には下記の手順で行われてよい。図１５は、モジュール融合処理の例を示すフローチャートである。まず、コアモジュールが、横方向（プロファイル配列方向）のサイズが大きい順にソートされる（Ｓ１）。モジュール数はＸであったとする。パラメータｍ、ｎが、それぞれ、ｍ＝１、ｎ＝１に設定される（Ｓ３）。そして、第ｎ位のコアモジュールが、第ｍ位のコアモジュールに重ねられる（Ｓ５）。ここでは、２つのコアモジュールの共通部分が重ねられる。そして、モジュール融合部３７は、２つのコアモジュールを融合したときのノイズを求め（Ｓ７）、ノイズが許容ノイズ以下か否かを判定する（Ｓ９）。上述したノイズ率が計算されて、ノイズ許容率と比較される。

モジュール融合部３７は、ノイズが許容ノイズ以下であれば、融合を実行し（Ｓ１１）、ノイズが許容ノイズより大きければ、融合を行わない。次に、ｎ＝Ｘか否かが判定され（Ｓ１３）、ステップＳ１３がＮｏであれば、ｎに１が加算され（Ｓ１５）、ステップＳ５に戻る。ステップＳ１３がＹｅｓであれば、ｍに１が加算されて（Ｓ１７）、ｍ＝Ｘか否かが判定され（Ｓ１９）、ステップＳ１９がＮｏであれば、ステップＳ５に戻る。ステップＳ１９がＹｅｓであれば、処理を終了する。

上記の図１５の処理によれば、まず、第１位（最大）のコアモジュールと第２位のコアモジュールの融合が試みられ、ノイズが許容レベルであれば、両モジュールが融合される。続いて、同様の処理が、第１位のコアモジュールと第３位のコアモジュールに対して行われる。さらに、同様の処理が、順次、下位のコアモジュールと第１のコアモジュールとの組合わせに対して行われる。

こうして、第１位のコアモジュールと、他の全部のコアモジュールとの組み合せに対して、融合のための処理が行われる。第１位のコアモジュールの処理が完了すると、第２位のコアモジュールに関して同様の処理が行われる。このような処理が繰り返されて、全部のモジュールの組合せの融合処理（融合可否判断と融合実行）が行われる。

以上に、モジュール融合部３７によるモジュール融合について説明した。融合処理を行うことにより、モジュール探索で見落としたノイズを含む実験と遺伝子を取り込むようにモジュールを伸長して、重複度の高いモジュール同士を融合させることができる。

モジュール探索部１５は、上記のようにして融合処理を経た共発現モジュールの情報をモジュール情報出力部１７に供給する。モジュール情報出力部１７は、プリンタ、ディスプレイ等の出力装置から、探索された共発現モジュールの情報を出力する。共発現モジュールは、行列データのかたちで出力されてよい。ネットワーク通信機能が出力装置として用いられ、共発現モジュールの情報がネットワークに出力されてよい。また、外部記録媒体の書込装置が出力装置として用いられ、共発現モジュールの情報が外部記録媒体に出力されてよい。

図１６〜図１８は、上記のモジュール融合による精度向上の効果を示している。図１６は、探索された共発現モジュールとＫＥＧＧ代謝パスウェイとの関連を示している。ＫＥＧＧ代謝パスウェイのデータベースは、各遺伝子がどの代謝パスウェイに属しているかのデータを有している。

図１６において、「従来法」は、前出の非特許文献２により探索された共発現モジュールの解析結果である。従来法では、ＬＣＭにより共発現モジュールが列挙され、それから小さなモジュールがフィルタリングにより除去される。従来法ではクエリ検索は行われていない。しかし、ここでは、本発明の融合による精度向上を評価するために、従来法にクエリ検索を適用し、比較用のデータを得た。また、従来法は遺伝子サブセット方向にパタンが共通するモジュールを探索する。しかし、ここでは、比較のために、本実施の形態と同様に、プロファイルサブセット方向にパタンが共通するモジュールが探索された。

また、図１６において、「本発明」は、上述した本発明の手法によって探索された共発現モジュールの解析結果である。上述のモジュール融合によって、ある程度のノイズを許容しつつ、モジュールが拡大されている。

比較解析では、２，８９９の疾患細胞発現データベース（約２２，２８３遺伝子）に対し、ランダムに選択した１００個のクエリプロファイルが入力された。そして、それぞれのクエリで得られたモジュールのうち、特定の代謝パスウェイと統計的に有意な関連をもつモジュールをカウントした。

統計的な有意性の指標としては、超幾何分布から求まるＰ値が用いられる。このＰ値は、１つのモジュールの各遺伝子がもつ機能の一致性についての値として得られる。モジュールがしきい値（この例では０．０００１）より小さいＰ値を少なくとも一つ持っていれば、そのモジュールが有意なモジュールとしてカウントされる。

一つのクエリで探索されたモジュール数に対するカウント値の割合が、有意なモジュールの割合として求められる。すなわち、１００個のクエリの各々から、有意なモジュールの割合が得られる。

図１６は、上記のようにして得られる有意なモジュールの割合のデータを示している。横軸は有意なモジュールの割合であり、縦軸は頻度である。分布が右寄りなほど、代謝パスウェイと関連の高いモジュールが多く探索されていることを意味する。図１６に示すように、「本発明」の分布が、「従来法」の分布よりも右に寄っている。すなわち、本発明により、重要な共発現モジュールがより高い精度で探索されている。これは、モジュール融合によってノイズを含む重要な共発現モジュールを探索できたからである。

図１７は、探索された共発現モジュールとＧｅｎｅＯｎｔｏｌｏｇｙ（ＧＯ）遺伝子機能との関連を示している。ＧＯ遺伝子機能のデータベースは、機能が判明している様々な生物種の遺伝子のデータベースである。図１６と図１７の解析では、同じ発現プロファイルデータベース及びクエリが使われており、したがって、評価された共発現モジュールも同じである。

図１７においても、図１６と同様に、「本発明」の分布が、「従来法」の分布よりも右に寄っている。すなわち、本発明により、重要な共発現モジュールがより高い精度で探索されている。

図１８は、モジュールと関連のある有意な代謝パスウェイとＧＯの種類数を示している。図示のように、「本発明」で生成されたモジュールは、従来法より多数の生物学的機能と関連付けられた。これは、生物学的に意味のある遺伝子群を含んだモジュールをうまく取り出せていることを意味する。このことからも、本発明は重要な共発現モジュールをより高い精度で探索できることが分かる。

次に、本実施の形態の変形例について説明する。本実施の形態では、離散ランクが、「Ｈ」「ｏｔｈｅｒｓ」「Ｌ」の３つであった。離散ランク数（階級数）と種類はこれらに限定されない。より多くのランクが設定されてもよい。

また、遺伝子発現モジュール探索装置１が、複数の異なる離散ランク設定に対応可能に構成されてよい。例えば、離散発現プロファイルデータベース生成部７が、複数の離散ランク設定に対応する複数の離散発現プロファイルデータを予め生成する。それら複数の離散発現プロファイルデータベースが離散発現プロファイルデータベース記憶部９に格納される。また、発現順位データ生成部２１は、複数の離散ランク設定にそれぞれ対応する複数の発現順位データファイルを生成し、発現順位データ記憶部２３に格納する。クエリ入力部１１は、クエリ発現プロファイルと共にモジュール探索パラメータを入力する。この際、モジュール探索パラメータの一つとして、離散ランク設定として離散ランク数が入力される。クエリ離散発現プロファイル生成部１３は、離散ランク数に対応する発現順位データを使って、クエリ発現プロファイルを離散化する。モジュール探索部１５は、離散ランク数に対応する離散発現プロファイルデータベースを用いて探索を行う。このような構成により、離散ランク数を可変にできる。

以上に、本発明の好適な実施の形態について説明した。上記のように、本発明は、発現プロファイルを離散化した離散発現プロファイルのデータベースを用意し、クエリ発現プロファイルを入力して、クエリ内の遺伝子サブセットで構成される共発現モジュールを探索する。共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、モジュール内で共通する離散ラベルパタンが現れる。本発明は特に、上述のようにクエリの離散発現プロファイルに基づいて離散値行列を圧縮し、圧縮された離散値行列から共発現モジュールを探索する。探索結果に影響を与えることなく、クエリに基づいて探索処理対象データを圧縮でき、探索処理対象データを大幅に削減できる。したがって、多数の発現プロファイルから共発現モジュールを網羅的に探索することが可能になる。また、本発明によれば、上記のようにクエリを使う探索機能が提供されるので、ユーザが興味を持つプロファイルデータをクエリとしたモジュール探索が可能になる。

以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。

以上のように、本発明にかかる遺伝子発現モジュール探索装置は、発現データベースから生物学的に意味のある共発現モジュールを探索する技術として有用である。

本発明の実施の形態に係る遺伝子発現モジュール探索装置を示すブロック図である。発現プロファイルデータベースの例を示す図である。離散発現プロファイルデータベースの例を示す図である。発現順位データの上限、下限を示す図である。発現順位データの上限、下限を示す図である。発現順位データを用いる利点を説明する図である。離散発現プロファイル生成部により生成される遺伝子−離散ラベルファイルを示す図である。クエリ入力部から入力されるクエリ発現プロファイルの例を示す図である。モジュール探索処理を示す図である。離散値行列圧縮部による離散値行列の圧縮処理の示す第１の図である。離散値行列圧縮部による離散値行列の圧縮処理の示す第２の図である。離散値行列圧縮部による離散値行列の圧縮処理の示す第３の図である。飽和アイテム集合列挙法における保存飽和拡張法の概念を示す図である。モジュール融合処理を示す図である。モジュール融合処理を示すフローチャートである。モジュール融合による精度向上を示す図である。モジュール融合による精度向上を示す図である。モジュール融合による精度向上を示す図である。共発現モジュールの例を示す図である。

符号の説明

１遺伝子発現モジュール探索装置
３プロファイル入力部
５発現プロファイルデータベース記憶部
７離散発現プロファイルデータベース生成部
９離散発現プロファイルデータベース記憶部
１１クエリ入力部
１３クエリ離散発現プロファイル生成部
１５モジュール探索部
１７モジュール情報出力部
２１発現順位データ生成部
２３発現順位データ記憶部
２５離散発現プロファイル生成部
３１離散値行列生成部
３３離散値行列圧縮部
３５バイクラスタリング処理部
３７モジュール融合部

Claims

遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索装置であって、
モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースと、
モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得するクエリ取得部と、
前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部と、
前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとするモジュール探索部とを備え、
前記モジュール探索部は、
前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する離散値行列生成部と、
前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮する離散値行列圧縮部を有し、
前記離散値行列圧縮部は、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索装置。
前記離散値行列生成部は、前記離散値行列を生成する際、各離散発現プロファイルから、前記クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除することを特徴とする請求項１に記載の遺伝子発現モジュール探索装置。
前記離散値行列圧縮部は、さらに、前記モジュール探索部により探索されるべき前記共発現モジュールの最小遺伝子数に基づき、前記非モジュール離散ラベル以外の離散ラベルの数が前記最小遺伝子数未満である前記離散発現プロファイルを前記離散値行列から削除することを特徴とする請求項１又は２に記載の遺伝子発現モジュール探索装置。
前記モジュール探索部は、前記離散値行列内で共通パタンが現れるバイクラスタを探索するバイクラスタリング処理を行って、探索されたバイクラスタを前記共発現モジュールとすることを特徴とする請求項１〜３のいずれかに記載の遺伝子発現モジュール探索装置。
前記モジュール探索部の前記バイクラスタリング処理は、飽和アイテム集合列挙法に基づくバイクラスタリング処理であり、前記離散値行列に含まれる遺伝子と離散ラベルの各組合せをアイテムとし、前記離散値行列から前記アイテムで構成されるトランザクションデータベースを生成し、前記トランザクションデータベースにおいて複数の離散発現プロファイルに共通に存在するアイテムの最大集合である飽和アイテム集合を列挙し、各飽和アイテム集合に対応するバイクラスタを求めることを特徴とする請求項４に記載の遺伝子発現モジュール探索装置。
前記モジュール探索部は、前記非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される前記トランザクションデータベースを生成することを特徴とする請求項５に記載の遺伝子発現モジュール探索装置。
前記離散値行列圧縮部は、前記クエリ離散発現プロファイルの遺伝子の離散ラベルと各離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、前記離散発現プロファイルの前記遺伝子の離散ラベルを前記非モジュール離散ラベルに変換することを特徴とする請求項６に記載の遺伝子発現モジュール探索装置。
前記モジュール探索部は、探索された複数の共発現モジュールを融合して融合モジュールを生成するモジュール融合部を有し、前記モジュール融合部は、前記融合モジュール内でパタンが相違する部分であるノイズが、予め設定された許容ノイズ以下になる範囲で、融合処理を行うことを特徴とする請求項１〜７のいずれかに記載の遺伝子発現モジュール探索装置。
多数の遺伝子発現プロファイルにおける遺伝子毎の多数の発現値から生成された発現順位データを記憶する発現順位データ記憶部を有し、前記発現順位データは、遺伝子毎に、各遺伝子の前記多数の発現値に順位を付したときの、前記離散ランクのランク境界順位を有しており、前記離散発現プロファイルデータベースの各離散発現プロファイル及び前記クエリ離散発現プロファイルは、前記発現順位データの前記ランク境界順位に基づいて判定された離散ランクの離散ラベルで構成されていることを特徴とする請求項１〜８のいずれかに記載の遺伝子発現モジュール探索装置。
前記発現順位データの前記ランク境界順位は、同一遺伝子の発現値データ数における比率に基づいて規定されており、発現値の最大値側に１以上の高発現ランクが設定され、発現値の最小値側に１以上の低発現ランクが設定され、前記高発現ランクと前記低発現ランクの間の領域が、共発現モジュールを構成しない前記非モジュール離散ラベルに対応するランクであることを特徴とする請求項９に記載の遺伝子発現モジュール探索装置。
遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索方法であって、
モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、
モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、
前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、
前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとし、
前記探索ステップは、
前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、
前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、
前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索方法。
遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する処理をコンピュータに実行させる遺伝子発現モジュール探索プログラムであって、
モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、
モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、
前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、
前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとする処理を前記コンピュータに実行させ、
前記探索ステップは、
前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、
前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、
前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索プログラム。