JP5051764B2 - 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム - Google Patents

遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム Download PDF

Info

Publication number
JP5051764B2
JP5051764B2 JP2007320636A JP2007320636A JP5051764B2 JP 5051764 B2 JP5051764 B2 JP 5051764B2 JP 2007320636 A JP2007320636 A JP 2007320636A JP 2007320636 A JP2007320636 A JP 2007320636A JP 5051764 B2 JP5051764 B2 JP 5051764B2
Authority
JP
Japan
Prior art keywords
discrete
expression
module
gene
expression profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007320636A
Other languages
English (en)
Other versions
JP2009146028A (ja
Inventor
吉史 岡田
航 藤渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2007320636A priority Critical patent/JP5051764B2/ja
Publication of JP2009146028A publication Critical patent/JP2009146028A/ja
Application granted granted Critical
Publication of JP5051764B2 publication Critical patent/JP5051764B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、多数の遺伝子発現プロファイルデータから共発現モジュールを探索する技術に関する。
マイクロアレイなどによる遺伝子発現データの測定実験が世界中で盛んに行われており、利用可能な実験データ数が急速に増大している。遺伝子発現データは、遺伝子セットの発現値のデータであり、多数の遺伝子の発現値を有している。以下、このような遺伝子発現データを、発現プロファイルという。例えば、公共データベースGEOでは、発現プロファイルの登録数が1年で2倍以上に増えており、既に17万件以上の発現プロファイルが登録されている。
このような膨大な発現データベースが用意された現在、高度なバイオインフォマティクス技術の活用によって、関連する複数の実験で協調して働く遺伝子群である共発現モジュールを同定及び検索する技術が必要とされている。共発現モジュールの探索技術は、細胞の発生解析、遺伝性疾患の原因遺伝子の発見、遺伝子間相互作用ネットワークの解明などに役立つと考えられる。
図19は、共発現モジュールを探索原理と共に示す図である。共発現モジュールは、バイクラスタリング処理によって求めることができる。バイクラスタリングとは、行列内で共通パタンが現れる局所的部分であるバイクラスタを探索する技術である。概念的には、行の順番の変更と、列の順番の変更によって、バイクラスタが探索される。バイクラスタリングは、文書の分類や画像の領域分割などの各種の用途にて実用化されている技術である。
図19を参照すると、発現データベースは、多数の発現プロファイルが配列された行列ということができる。この行列に対してバイクラスタリング処理が行われ、バイクラスタが探索される。探索されたバイクラスタが、共発現モジュールに相当する。図19に示すように、共発現モジュールは、遺伝子サブセットと発現プロファイルサブセットで構成されており、モジュール内では共通する発現パタンが現れる。
従来、関連技術としては、特許文献1が遺伝子発現プロファイル検索装置を提案している。この関連技術は、クエリの発現プロファイルと類似する個々の発現プロファイルをデータベースから探索できるが、共発現モジュールを探索するものではない。
また、非特許文献1は、バイクラスタリングを使ったモジュール検索技術を開示している。この関連技術によれば、発現データベース内の各モジュールにスコアが付けられる。そして、スコアが大きい方から所定数のモジュールが求められる。
また、非特許文献2も、バイクラスタリングを利用した共発現モジュール探索技術を開示している。この関連技術は、飽和アイテム集合列挙法(Linear time Closed itemset Miner、以下、LCM)に基づくバイクラスタリングを採用している。
飽和アイテム集合列挙法(LCM)は、例えば、多数の消費者により購入された商品のデータベースから、飽和アイテム集合を列挙することができる技術である。この例では、飽和アイテム集合は、複数の消費者から同時に購入される商品(アイテム)の最大集合である。LCMでは、トランザクションデータベース(この例では、全消費者が購入した全アイテムのデータベース)が処理されて、飽和アイテム集合が列挙される。LCMは、どの飽和アイテム集合も別の唯一の飽和アイテム集合から生成できるという性質を利用するprefix保存飽和拡張と呼ばれる方法により、効率的な枝刈りを実現する。そして、以前に見つけた飽和アイテム集合をメモリに保存せずに、深さ優先探索が行われ、線形時間で飽和アイテム集合が列挙される。LCMは、非特許文献3、4に開示されている。
非特許文献2は、上記のLCMを、遺伝子発現モジュールの探索に適用している。この場合、上記の例の消費者及び商品が、遺伝子及び発現プロファイル(実験)に置き換えられる。そして、LCMにより飽和アイテム集合が列挙され、各飽和アイテム集合からバイクラスタが求められ、このバイクラスタが共発現モジュールに相当する。
また、非特許文献2では、LCMによって多数の遺伝子発現モジュールが列挙された後に、フィルタリング操作が行われる。フィルタリングにより、小さいモジュールが除去される。
特開2006−92478号公報 A. Prelic, S. Bleuler, P. Zimmermann, A. Wille, P. Buhlman, W. Gruissem, L. Hennig, L. Thiele, and E. Zitzler, "A systematic comparison and evaluation of biclustering methods for gene expression data," Bioinformatics, vol. 22, pp.1122-1129, 2006 Y. Okada, W. Fujibuchi, P. Horton, "A Biclustering Method for Gene Expression Module Discovery Using a Closed Itemset Enumeration Algorithm", IPSJ Transactions on Bioinformatics, vol. 48, no. SIG 5(TBIO2), pp.39-48, 2007 宇野毅明、有村博紀、「飽和集合列挙アルゴリズムを用いた大規模データベースからのルール発見法、統計数理、日本、統計数理研究所、2005年、第53巻、第2号、318-329ページ Uno, T., Kiyomi, M., and Arimura, H."LCM ver.2: Efficient Mining Algorithms for Frequent/Closed/Maximal Itemsets", IEEE ICDM'04 Workshop FIMI'04, 2004.
しかしながら、上記の関連技術は、モジュール探索の効率をある程度向上しているものの、数千〜数万の実験データを含んだ大規模データベースへは適用されていない。大規模データベースにてモジュール探索を行うと、データ量が多くなり、計算負荷が過大となる。
また、上記の関連技術においては、モジュール内では発現パタンが完全に一致することが求められる。一部にノイズを含む共発現モジュールを探索することができず、これにより重要な遺伝子発現モジュールを取りこぼす可能性がある。さらに、フィルタリング操作で小さいモジュールを除去する過程でも、重要なモジュールを除去してしまう可能性がある。
本発明は上記背景の下でなされたものであり、その目的は、大規模データベースから共発現モジュールを網羅的に探索できるモジュール探索技術を提供することにある。
本発明の一の目的は、生物学的に意味のある共発現モジュールをより高い精度で探索できるモジュール探索技術を提供することにある。
本発明の一の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索装置であって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースと、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得するクエリ取得部と、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部と、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとするモジュール探索部とを備え、前記モジュール探索部は、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する離散値行列生成部と、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮する離散値行列圧縮部を有し、前記離散値行列圧縮部は、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。
上記のように、本発明は、発現プロファイルを離散化した離散発現プロファイルのデータベースを用意し、クエリ発現プロファイルを入力して、クエリ内の遺伝子サブセットで構成される共発現モジュールを探索する。共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、モジュール内で共通する離散ラベルパタンが現れる。本発明は特に、上述のようにクエリの離散発現プロファイルに基づいて離散値行列を圧縮し、圧縮された離散値行列から共発現モジュールを探索する。探索結果に影響を与えることなく、クエリに基づいて探索処理対象データを圧縮でき、探索処理対象データを大幅に削減できる。したがって、多数の発現プロファイルから共発現モジュールを網羅的に探索することが可能になる。また、本発明によれば、上記のようにクエリを使う探索機能が提供されるので、ユーザが興味を持つプロファイルデータをクエリとしたモジュール探索が可能になる。
前記離散値行列生成部は、前記離散値行列を生成する際、各離散発現プロファイルから、前記クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除してよい。
これにより、離散値行列が、クエリ発現プロファイルに存在する遺伝子のデータのみで構成される。すなわち、クエリ発現プロファイルに存在せずに他の発現プロファイルに存在する遺伝子のデータを持たないように、離散値行列が生成される。この処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外している。したがって、クエリを使った探索結果に影響を与えることなく、離散値行列を小さくでき、探索処理対象データをさらに削減できる。
前記離散値行列圧縮部は、さらに、前記モジュール探索部により探索されるべき前記共発現モジュールの最小遺伝子数に基づき、前記非モジュール離散ラベル以外の離散ラベルの数が前記最小遺伝子数未満である前記離散発現プロファイルを前記離散値行列から削除してよい。
これにより、有効な離散ラベルが少ないためにモジュール構成要素にならない離散発現プロファイルのデータを削除することができる。したがって、探索結果に影響を与えることなく、離散値行列を小さくでき、探索処理対象データをさらに削減できる。
前記モジュール探索部は、前記離散値行列内で共通パタンが現れるバイクラスタを探索するバイクラスタリング処理を行って、探索されたバイクラスタを前記共発現モジュールとしてよい。これにより、バイクラスタリング技術によって共発現モジュールを好適に探索できる。
前記モジュール探索部の前記バイクラスタリング処理は、飽和アイテム集合列挙法に基づくバイクラスタリング処理であり、前記離散値行列に含まれる遺伝子と離散ラベルの各組合せをアイテムとし、前記離散値行列から前記アイテムで構成されるトランザクションデータベースを生成し、前記トランザクションデータベースにおいて複数の離散発現プロファイルに共通に存在するアイテムの最大集合である飽和アイテム集合を列挙し、各飽和アイテム集合に対応するバイクラスタを求めてよい。これにより、飽和アイテム集合列挙法をバイクラスタリングに適用して、共発現モジュールを好適に探索できる。
前記モジュール探索部は、前記非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される前記トランザクションデータベースを生成してよい。
この構成により、トランザクションデータベースが、非モジュール離散ラベルに対応するデータ抜きで生成される。すなわち、非モジュール離散ラベルに対応するアイテムを含まないようにトランザクションデータベースが生成される。非モジュール離散ラベルは共発現モジュールを構成しない。したがって、上記の処理により、探索結果に影響を与えることなく、トランザクションデータベースを小型化でき、これにより探索処理対象データをさらに削減できる。
前記離散値行列圧縮部は、前記クエリ離散発現プロファイルの遺伝子の離散ラベルと各離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、前記離散発現プロファイルの前記遺伝子の離散ラベルを前記非モジュール離散ラベルに変換してよい。
この構成により、同一遺伝子の離散ラベルがクエリ離散発現プロファイルと離散発現プロファイルデータベースの離散発現プロファイルで異なる場合に、離散発現プロファイルの離散ラベルが非モジュール離散ラベルへ変換される。このラベル変換により、変換されたラベルからはトランザクションデータベースのアイテムが生成されない。ここで、変換されたラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルである。したがって、上記圧縮により、探索結果に影響を与えることなく、トランザクションデータベースをさらに小型化でき、これにより、探索処理対象データをさらに削減できる。
前記モジュール探索部は、探索された複数の共発現モジュールを融合して融合モジュールを生成するモジュール融合部を有し、前記モジュール融合部は、前記融合モジュール内でパタンが相違する部分であるノイズが、予め設定された許容ノイズ以下になる範囲で、融合処理を行ってよい。
この構成により、ノイズを許容した共発現モジュールを探索できる。ノイズを含むが生物学的に意味のある共発現モジュールを探索できる。したがって、生物学的に意味のある重要な共発現モジュールをより高い精度で求めることができる。
本発明は、多数の遺伝子発現プロファイルにおける遺伝子毎の多数の発現値から生成された発現順位データを記憶する発現順位データ記憶部を有してよく、前記発現順位データは、遺伝子毎に、各遺伝子の前記多数の発現値に順位を付したときの、前記離散ランクのランク境界順位を有しており、前記離散発現プロファイルデータベースの各離散発現プロファイル及び前記クエリ離散発現プロファイルは、前記発現順位データの前記ランク境界順位に基づいて判定された離散ランクの離散ラベルで構成されてよい。この構成により、発現値を適切にランク分けでき、生物学的に意味のある共発現モジュールをより高精度で探索できる。
前記発現順位データの前記ランク境界順位は、同一遺伝子の発現値データ数における比率に基づいて規定されてよく、発現値の最大値側に1以上の高発現ランクが設定されてよく、発現値の最小値側に1以上の低発現ランクが設定されてよく、前記高発現ランクと前記低発現ランクの間の領域が、共発現モジュールを構成しない前記非モジュール離散ラベルに対応するランクでよい。この構成により、発現値を適切にランク分けでき、生物学的に意味のある共発現モジュールをより高精度で探索できる。
本発明の別の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索方法であって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとし、前記探索ステップは、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。この態様によっても上述した本発明の利点が得られる。
本発明の別の態様は、遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する処理をコンピュータに実行させる遺伝子発現モジュール探索プログラムであって、モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとする処理を前記コンピュータに実行させ、前記探索ステップは、前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索される。この態様によっても上述した本発明の利点が得られる。
上記のように、本発明は、大規模データベースから共発現モジュールを網羅的に探索できるモジュール探索技術を提供することができる。
また、本発明は、生物学的に意味のある共発現モジュールをより高い精度で探索できるモジュール探索技術を提供することができる。
以下、本発明の好適な実施の形態について、図面を参照して説明する。
図1は、本発明の実施の形態に係る遺伝子発現モジュール探索装置を示している。遺伝子発現モジュール探索装置1は、コンピュータ装置であり、演算装置であるCPUと、RAM、ROM等の記憶装置と、キーボード及びポインティングデバイス等の入力装置と、ディスプレイ及びプリンタ等の出力装置と、ハードディスク等の外部記憶装置を備えている。遺伝子発現モジュール探索装置1は、ネットワークとの通信機能を備え、この通信機能が情報の入出力装置として機能してよい。また、外部記録媒体に対するデータの読み書きの構成も、入出力装置として機能してよい。記憶装置には、本発明の各種処理をコンピュータに行わせるプログラムが記憶されており、このプログラムを実行することによって遺伝子発現モジュール探索装置1が実現される。遺伝子発現モジュール探索装置1は一つのコンピュータ装置で構成されてもよく、複数のコンピュータ装置で構成されてもよく、それらは分散配置されてもよい。
図1に示すように、遺伝子発現モジュール探索装置1は、概略的には、モジュール探索に用いる離散プロファイルデータベースを作成するための構成として、発現プロファイルのデータを入力するプロファイル入力部3と、プロファイル入力部3により入力された多数の発現プロファイルからなる発現プロファイルデータベースを記憶する発現プロファイルデータベース記憶部5と、発現プロファイルデータベースから離散発現プロファイルデーターベースを生成する離散発現プロファイルデータベース生成部7と、離散発現プロファイルデータベース生成部7により生成された離散発現プロファイルデータベースを記憶する離散発現プロファイルデータベース記憶部9とを有する。
さらに、遺伝子発現モジュール探索装置1は、離散発現プロファイルデータベースを用いたモジュール探索のための構成として、クエリ発現プロファイルを入力するクエリ入力部11と、クエリ発現プロファイルからクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部13と、離散発現プロファイルデータベースを用いてクエリ発現プロファイルを含むような共発現モジュールを探索するモジュール探索部15と、モジュール探索部15により探索された共発現モジュールを出力するモジュール情報出力部17とを有する。
図2は、発現プロファイルデータベース記憶部5に記憶される発現プロファイルデータベースの例を示している。図示のように、発現プロファイルデータベースは、多数の発現プロファイルからなる。各発現プロファイルは、マイクロアレイなどを使った実験によって測定された遺伝子セットにおける各遺伝子の発現値のデータで構成される。発現プロファイルは実験データ又は実験プロファイルということもできる。発現値は絶対値でもよく、あるいは、比率等の相対値でもよい。発現プロファイルは、外部のデータベースから通信経由でプロファイル入力部3により入力されてよい。実際の発現プロファイルデータベースは、図2の例よりも大幅に大きいサイズを有しており、そして、遺伝子セットの遺伝子数も発現プロファイルの数も図2の例より大幅に多い。このような発現プロファイルデータベースが、共発現モジュールの探索源となる。
次に、離散発現プロファイルデータベース生成部7について説明する。前述のように、離散発現プロファイルデータベース生成部7は、発現プロファイルデータベースから離散発現プロファイルデータベースを生成する構成である。
まず、図3を参照し、生成されるべき離散発現プロファイルデータベースの概要を説明する。離散発現プロファイルデータベースは、多数の発現プロファイルからそれぞれ生成される多数の離散発現プロファイルによって構成される。各々の離散発現プロファイルは、発現プロファイルの発現値を離散化することにより得られるデータである。離散化のために、複数の離散ランクが設定されており、各離散ランクを表す離散ラベルが用いられる。本実施の形態の例では、3つの離散ランク「H(high)、「L(low)」、「other expressions(以下、othersという)」が用いられる。「others」は、「H」と「L」の中間のランクを表す。離散発現プロファイルは、図示のようにプロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである。
離散発現プロファイルデータベース生成部7は、上記の離散発現プロファイルデータベースを生成するために、発現プロファイルデータベース記憶部5の多数の発現プロファイルから発現順位データを生成する発現順位データ生成部21と、順位データ生成部21により生成された発現順位データを記憶する発現順位データ記憶部23と、発現順位データを基に多数の発現プロファイルから多数の離散発現プロファイルをそれぞれ生成する離散発現プロファイル生成部25とを有し、離散発現プロファイルデータベース記憶部9は、離散発現プロファイル生成部25により生成された多数の離散発現プロファイルで構成される離散発現プロファイルデータベースを格納する。
図4及び図5は、発現順位データ生成部21により生成される発現順位データを示している。発現順位データは、遺伝子毎のデータであり、発現プロファイルデータベースにおける同一遺伝子の多数の発現値から生成される。ここでは、一つの遺伝子を注目遺伝子とする。発現順位データ生成部15は、発現プロファイルデータベースから、注目遺伝子の全部の発現値を抽出する。抽出された全部の発現値の順位が、1−10000までの発現順位に正規化される。そして、「α%点の下限順位」と「β%点の上限順位」が求められる。「下限順位」とは、注目遺伝子を発現値で降順ソートしたときの下位α%の最高順位である。同様に、「上限順位」とは、同一遺伝子を発現値で降順ソートしたときの上位β%の最低順位である。α%及びβ%は、注目遺伝子の発現値の総数に対する比率である。図の例では、α=β=0.5である。
下限順位及び上限順位は、離散ランクのランク境界順位として用いられる。下限順位が「L」と「others」の境界であり、上限順位が「H」と「others」の境界である。
発現順位データ生成部21は、上記のランク境界順位である下限順位及び上限順位の情報を有する順位データファイルを作成し、発現順位データ記憶部23に格納する。図4に示すように、発現順位データファイルにおいては、「ID」、「遺伝子名」、「下限順位:上限順位」がタブ区切りで並べられる。
図6を参照し、上記のような発現順位データを用いる利点を説明する。図6において、横軸は発現値である。遺伝子Aの発現値は全体的に低く、遺伝子Bの発現値は全体に中程度であり、遺伝子Cの発現値は全体に高い。このような場合に、図示のように2つの発現値X1、X2をランク境界に設定して、ランク境界X1、X2を使って単純に発現値を使って離散化を行ったとすると、遺伝子Aのデータはすべて「L」にランクされ、遺伝子Bのデータはすべて「others」にランクされ、遺伝子Cのデータはすべて「H」にランクされる。これでは、発現値の大きさを適切にランキングできず、モジュール探索の精度が低下する。これに対して、本実施の形態によれば、上述した発現順位データを用いることで、遺伝子A、遺伝子B、遺伝子Cの各々に適切なランク境界Ya1、Ya2、Yb1、Yb2、Yc1、Yc2が設定され、発現値の大きさが適切にランクされ、したがって、モジュール探索の精度を向上できる。
離散発現プロファイル生成部25は、上記の発現順位データを参照して、各々の発現プロファイルを、離散発現プロファイルに変換する。この処理では、発現プロファイルにおける各遺伝子の発現値の発現順位が求められる。この発現順位は、上述したように同一遺伝子の全発現値における順位であって、1−10000の順位へと正規化されている。そして、発現順位が、該当遺伝子の発現順位データにおける下限順位及び上限順位と比較される。これにより、各発現値の離散ランクが判定されて、離散ラベルが付与される。
図7は、離散発現プロファイル生成部25により生成される遺伝子−離散ラベルファイルであり、このファイルが離散発現プロファイルデータベースに相当する。図7において、「 Experiment 1」は実験名であり、離散発現プロファイルを識別する情報に相当する。その次の行から各遺伝子に関するデータが記述される。データ行では、「ID」、「遺伝子名」、「順位」、「離散ラベル」がタブ区切りで並べられる。離散ラベル「1」「−1」「0」は、図3の「H」、「L」、「others」に相当する。
例えば、「Experiment 1」の遺伝子1007−s−atに着目する。発現順位は6664.7である。同遺伝子の下限順位は5089.8である(図4)。発現順位が下限順位以下なので、離散ラベルは「−1」(L)である。
同様に、「Experiment 1」において、遺伝子1053−atの発現順位は2670である。同遺伝子の下限順位:上限順位は、4329.31:1541.98である。発現順位が下限順位より高く、上限順位より低いので、離散ラベルは「0」(others)である。
また、「Experiment 2」において、遺伝子1007−s−atの発現順位は201.50である。同遺伝子の上限順位は209.128である。発現順位が上限順位以上なので、離散ラベルは「1」(H)である。
遺伝子−離散ラベルファイルにおいては、各実験のデータが、離散ラベルのセットであり、本発明における一つの離散発現プロファイルに相当する。そして、遺伝子−離散ラベルファイルが、本発明の離散発現プロファイルデータベースとして、離散発現プロファイルデータベース記憶部9に記憶される。
以上に、離散発現プロファイルデータベースを作成する構成について説明した。次に、上記の離散発現プロファイルデータベースを探索源として共発現モジュールを探索する構成について説明する。
クエリ入力部11は、本発明のクエリ取得部に相当する構成であり、モジュール探索のクエリとなるべき発現プロファイルであるクエリ発現プロファイルを入力する。ある実験で得られた発現プロファイルにてどのような共発現モジュールが働いているかにユーザが興味を持っているとする。このような発現プロファイルが、クエリ発現プロファイルとしてクエリ入力部11から入力される。
図8は、クエリ発現プロファイルの例を示している。具体的には、クエリ発現プロファイルは、「遺伝子名:発現値」の組をスペース又はタブで区切ったデータである。また、図示のように、クエリ入力部11は、クエリ発現プロファイルと共に、モジュール探索のパラメータを入力する。パラメータは、モジュール最小サイズ及び許容ノイズである。モジュール最小サイズは、探索されるべきモジュールの縦方向及び横方向の最小サイズであり、すなわち、最小遺伝子数及び最小プロファイル数(最小実験数)に相当する。許容ノイズは、ノイズの許容率で規定される。許容ノイズは、後述するようにモジュール融合処理にて使用される。
クエリ離散発現プロファイル生成部13は、クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成する。クエリ発現プロファイルは、上述の離散発現プロファイルデータベースを作成するときと同様の処理によって、クエリ離散発現プロファイルに変換される。すなわち、クエリ発現プロファイルにおける各遺伝子の発現値の発現順位が求められる。この発現順位は、発現プロファイルデータベース中の同一遺伝子の全部の発現値における順位であり、上記のように正規化される。この発現順位が、発現順位データ記憶部23に記憶された該当遺伝子の発現順位データと比較される。クエリ離散発現プロファイル生成部13は、発現順位を下限順位及び上限順位と比較し、「H」、「L」、「others」のいずれの離散ランクに属するかを判定する。そして、クエリ離散発現プロファイル生成部13は、判定された離散ランクを表す離散ラベルを各遺伝子に付与する。
モジュール探索部15は、離散発現プロファイルデータベースから、上述のようにして生成されたクエリ離散発現プロファイルを一部に含むような共発現モジュールを探索するように構成されている。
図9はモジュール探索の概念を示しており、図示のように、探索される共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、共通する離散ラベルパタンが現れるモジュールである。図9はモジュール探索の概念図であり、実際の処理では、モジュール探索部15の下記構成により、離散値行列が生成され、バイクラスタリングによってモジュール探索が行われる。
図1に示すように、モジュール探索部15は、離散値行列生成部31、離散値行列圧縮部33、バイクラスタリング処理部35及びモジュール融合部37を有している。
離散値行列生成部31は、クエリ離散発現プロファイル及び離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する。図9のクエリ離散発現プロファイルとデータベース内の多数の離散発現プロファイルが結合され、配列され、これにより離散値行列が得られる。
クエリ離散発現プロファイルと多数の離散発現プロファイルにおいて、構成要素の遺伝子セットが同じであるとは限らない。遺伝子セットが異なる場合、離散値行列生成部31は、各離散発現プロファイルから、クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除する。
これにより、離散値行列生成部31は、クエリ発現プロファイルに存在する遺伝子のデータのみで構成される離散値行列を生成する。すなわち、離散値行列生成部31は、クエリ発現プロファイルに存在せずに他の発現プロファイルに存在する遺伝子のデータを持たない行列を生成する。この処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外している。したがって、探索結果に影響を与えることなく、離散値行列を小さくできる。
次に、離散値行列圧縮部33による圧縮処理について説明する。離散値行列圧縮部33は、モジュール探索の前処理として、クエリ離散発現プロファイルに基づいて離散値行列を圧縮する。離散値行列圧縮部33は、下記の3つの圧縮処理を行うように構成されている。
「圧縮1」圧縮1は、所定の非モジュール離散ラベルを用いる。非モジュール離散ラベルは、モジュールを構成しない離散ラベルとして予め定められており、記憶されている。離散値行列圧縮部33は、クエリ離散発現プロファイル内で非モジュール離散ラベルが付された遺伝子を特定する。そして、特定された遺伝子のデータが離散値行列から削除される。
図10は、圧縮1の処理の例を示している。この例では、「others」が非モジュール離散ラベルである。離散値行列圧縮部33は、クエリ離散発現プロファイルのうちで、「others」が付された遺伝子を特定する。特定した遺伝子の全データ(行全体)が、離散値行列から削除される。
削除されたデータは、元々、共発現モジュールを構成しないデータである。したがって、上記圧縮により、クエリ発現プロファイルを使った探索結果に影響を与えずに、離散値行列を小さくして、探索処理対象データを大幅に削減できる。
「圧縮2」圧縮2は、クエリ離散発現プロファイルの遺伝子の離散ラベルと各々の離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、離散発現プロファイルの遺伝子の離散ラベルを非モジュール離散ラベルに変換する処理である。
図11を参照すると、離散値行列圧縮部33は、クエリ離散発現プロファイルと各々の離散発現プロファイルにおける同一遺伝子の離散ラベルを比較する。図中の例では、前者が「H」であり、後者が「L」であり、両ラベルが異なる。そこで、離散値行列圧縮部33は、離散発現プロファイルの方の離散ラベルを「others」に変換する。
図11では該当個所を全て示した。しかし、圧縮1の後に圧縮2を行う場合は、遺伝子1、2等のデータは既に削除されているので、圧縮2では処理されなくてよい。
圧縮2で変換されるラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルであり、要するにモジュール探索では無用なラベルである。圧縮2の変換を行うと、後段のトランザクションデータベースを生成する処理にて、無用なラベルのアイテムの生成を回避できる。これにより、探索結果に影響を与えることなく、トランザクションデータベースを小型化できる。
「圧縮3」圧縮3は最小遺伝子数を用いる。この最小遺伝子数は、前述したように、モジュール最小サイズとしてクエリ入力部11によりクエリ発現プロファイルなどと共に入力される。
最小遺伝子数は、探索すべき共発現モジュールの遺伝子配列方向(図9の縦方向)の最小サイズを規定する値である。離散値行列圧縮部33は、非モジュール離散ラベル以外の離散ラベルの数が最小遺伝子数未満である離散発現プロファイルを離散値行列から削除する。
図12の例において、最小遺伝子数が4であったとする。離散値行列圧縮部33は、「H」又は「L」(「others」以外)のラベルの数が4未満の離散発現プロファイルを離散値行列から削除する。
ここで、上記で削除した離散発現プロファイルは、有効なラベル数が少ないために後段の探索処理にて共発現モジュールとして探索されないプロファイルである。つまり、この圧縮処理は、クエリを使った検索結果にてモジュール構成要素にならないデータを除外できる。したがって、クエリを使った探索結果に影響を与えることなく、離散値行列を小さくできる。
以上に、本実施の形態に行列圧縮処理を説明した。上記の3つの圧縮処理は、圧縮1、圧縮2、圧縮3の順に行われてよい。これら圧縮の順番は入れ替えられてよい。ただし、圧縮3は、圧縮2の後に行うことが好適である。
次に、バイクラスタリング処理部35について説明する。バイクラスタリングは、既に説明したように、行列内で共通パタンが現れる局所的部分であるバイクラスタを探索する技術である。概念的には、行の順番の変更と、列の順番の変更によって、バイクラスタが探索される。バイクラスタリングは、文書の分類や画像の領域分割などの各種の用途にて実用化されている技術である。
本実施の形態では、バイクラタリングが共発現モジュール探索に適用される。すなわち、バイクラスタリング処理部35は、離散値行列圧縮部33による圧縮後の離散値行列からバイクラスタを探索する。探索されたバイクラスタが、共発現モジュールに相当する。
バイクラスタリング処理部35は、飽和アイテム集合列挙法(Linear time Closed itemset Miner、以下、LCM)を用いてバイクラスタリングの処理を行うように構成されている。LCMは、例えば、多数の消費者により購入された商品のデータベースから、飽和アイテム集合を列挙することができる。この例では、飽和アイテム集合は、複数の消費者から同時に購入される商品(アイテム)の最大集合である。LCMでは、トランザクションデータベース(この例では、全消費者が購入した全アイテムのデータベース)が処理されて、飽和アイテム集合が列挙される。
LCMは、どの飽和アイテム集合も別の唯一の飽和アイテム集合から生成できるという性質を利用するprefix保存飽和拡張と呼ばれる方法を用いることにより、効率的な枝刈りを実現する。図13は、保存飽和拡張法の概念を示している。以前に見つけた飽和アイテム集合をメモリに保存せずに、深さ優先探索が行われ、線形時間で飽和アイテム集合が列挙される。図中のφは空集合を示す。LCMは、既に挙げた非特許文献3、4に開示されている。
LCMによる共発現モジュール探索は、既に挙げた非特許文献2に開示されている。ただし、非特許文献2の技術では、上述したような圧縮処理が行われていなかった。本実施の形態では、上述した圧縮処理後の離散値行列がLCMに入力されるので、計算負荷が大幅に小さくなり、大規模なデータベースからの網羅的なモジュール探索が可能になる。
共発現モジュール探索へのLCMの適用について、より詳細に説明する。上述の例では、飽和アイテム集合は、複数の消費者により購入される商品(アイテム)の最大集合である。本実施の形態では、商品が遺伝子に置き換えられ、消費者が離散発現プロファイルに置き換えられる。
ここで、商品を第1属性、消費者を第2属性と考える。個々の商品は第1属性の要素であり、個々の消費者は第2属性の要素である。LCMは、第1属性と第2属性の行列を処理して、第2属性の複数の要素に該当する第1属性の要素の最大集合を求める処理といえる。本実施の形態では、第1属性を遺伝子とし、第2属性を離散発現プロファイルとする。これにより、LCMのアルゴリズムによって、第1属性である遺伝子の最大集合を求めることができる。この遺伝子の最大集合が共発現モジュールの遺伝子サブセットに相当する。
バイクラスタリング処理部35は、まず、LCM処理に必要なトランザクションデータベースを離散値行列から生成する。離散値行列の各データがアイテムに変換されて、トランザクションデータベースが生成される。本実施の形態の場合、アイテムは、離散値行列中の遺伝子と離散ラベルの組合せである。例えば、離散値行列が、遺伝子1、遺伝子2、遺伝子3を有していたとする。また、離散ラベルは、「H」及び「L」である。この場合、下記のようにアイテムが設定される。
遺伝子1、離散ラベルH:アイテムA
遺伝子1、離散ラベルL:アイテムB
遺伝子2、離散ラベルH:アイテムC
遺伝子2、離散ラベルL:アイテムD
遺伝子3、離散ラベルH:アイテムE
遺伝子3、離散ラベルL:アイテムF
トランザクションデータベースは、最小サポート数と共にLCMのアルゴリズムに入力される。最小サポート数は、最小プロファイル数(離散発現プロファイルの最小数)である。最小プロファイル数は、前述したように、クエリ入力部11からクエリ発現プロファイルと共に入力され、バイクラスタリング処理部35に供給される。LCMは、最小プロファイル数以上の複数の離散発現プロファイルに含まれているアイテムの最大集合を求める。この最大集合が、飽和アイテム集合である。
バイクラスタリング処理部35は、さらに、飽和アイテム集合から共発現モジュールを求める。飽和アイテム集合は、共発現モジュールの遺伝子サブセットに相当している。遺伝子と離散ラベルの組合せに対してアイテムが設けられているので、飽和アイテム集合は、遺伝子サブセットの各遺伝子の離散ラベルも特定する。つまり、飽和アイテム集合は、共発現モジュールにおける共通発現パタンである。この共通発現パタンを持つ離散発現プロファイルのサブセットは一意に定まる。このサブセットが飽和アイテム集合から求められ、これにより、他に包含されない極大なモジュールが得られる。
具体的には、バイクラスタリング処理部35は、飽和アイテム集合の全アイテムを併せ持つ離散発現プロファイルを抽出する。抽出された離散発現プロファイルの集合が、共発現モジュールのプロファイルサブセットである。このプロファイルサブセットと、飽和アイテム集合に示される遺伝子サブセットとにより、共発現モジュールが構成される。ただし、バイクラスタリング処理部35は、遺伝子サブセットの遺伝子数が最小遺伝子数未満のモジュールを除外する。こうして、バイクラスタリング処理部35は、共発現モジュールを求めることができる。
以上にバイクラスタリング処理部35のモジュール探索処理を説明した。上述したように、本実施の形態では、トランザクションデータベースは、「H」「L」に対応するアイテムのみを用いて生成される。すなわち、「others」に対応するアイテムは生成されない。「others」は、非モジュール離散ラベルである。つまり、トランザクションデータベースは、非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される。
非モジュール離散ラベルは、元々、共発現モジュールの構成要素に選択されないラベルであり、すなわち、共発現モジュールの探索にとって無用なラベルである。本実施の形態では、トランザクションデータベースが、無用なラベルに対応するデータを持たなくてよいので、トランザクションデータベースを小型化できる。
また、本実施の形態では、前段の圧縮2の処理にて、クエリ離散発現プロファイルの遺伝子の離散ラベルと各々の離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、離散発現プロファイルの遺伝子の離散ラベルを非モジュール離散ラベル(others)に変換されている。この変換されたラベルからは、上記のようにアイテムが生成されない。そして、変換されたラベルは、元々、クエリのラベルと相違するために共発現モジュールを構成しないラベルである。したがって、圧縮2により、探索結果に影響を与えることなく、トランザクションデータベースが小型化される。
上記においては、遺伝子発現モジュール探索装置1が、複数の発現プロファイルが同じ発現パタンを持つようなモジュール、すなわちプロファイルサブセット方向に発現パタンが共通するモジュールを探索している。変形例としては、遺伝子発現モジュール探索装置1は、複数の遺伝子が同じ発現パタンを持つようなモジュール、すなわち、遺伝子サブセット方向に発現パタンが共通するモジュールを探索してもよい(図19を参照すると、前者は横縞のモジュールであり、後者は縦縞のモジュールである)。この場合、上記の実施の形態と比べると、離散値行列が転置される(遺伝子とプロファイル(実験)が入れ替えられる)。また、離散発現プロファイルと離散ラベルの各組合せにアイテムが設定される。LCMの最小サポート数としては最小遺伝子数が用いられる。これにより、上述の実施の形態と同様の処理により、遺伝子サブセット方向にパタンが共通するモジュールを探索することができる。非特許文献2は、この変形例に相当するモジュールを探索している。
なお、実際に提供されているLCMアルゴリズムの例では、アイテムが、行列のうちの行方向(横方向)に並べられる。この観点では、本実施の形態では、離散値行列(図10等)を転置することにより遺伝子が行方向に配置され、それから離散値行列がLCMに適用されてよい。この離散値行列の転置は上記変形例では不要である。
以上に、バイクラスタリング処理部35によるモジュール探索について説明した。次に、モジュール融合部37について説明する。ここでは、バイクラスタリング処理部35により探索された共発現モジュールを、「コアモジュール」という。
図14は、モジュール融合部37による融合処理を示している。モジュール融合部37は、ノイズを許容して複数のコアモジュールを融合することにより融合モジュールを生成する構成である。融合処理は、トランザクションデータベースに変換される前の離散値行列に対して行われる。
ノイズとは、図示のように、モジュール内でパタンが相違する部分である。モジュール融合部37は、融合モジュール内のノイズが許容ノイズ以下になる範囲で融合処理を行う。許容ノイズは、前述のように、クエリ発現プロファイルと共にクエリ入力部11から入力されている。
本実施の形態では、許容ノイズは、ノイズ許容率で規定される。そして、ノイズ率がノイズ許容率以下になるように、融合処理が行われる。ノイズ率は、融合後に拡張されたモジュールにおける行と列のそれぞれについて計算される。図14の例では、モジュール1、2が融合されて、融合モジュールが形成されている。融合モジュールにおいては、「遺伝子a、実験4を含む行および列」および、「遺伝子e、実験1を含む行および列」が、拡張行及び拡張列である。これらの拡張行及び拡張列のノイズ率は以下の通りである。
「遺伝子a、実験4を含む行および列」に関して、
“遺伝子aの行のノイズ率”=1/4=0.25
“実験4の列のノイズ率”=1/5=0.2
「遺伝子e、実験1を含む行および列」に関して、
“遺伝子eの行のノイズ率”=1/4=0.25
“実験1の列のノイズ率”=1/5=0.2
少なくとも一つの拡張行又は拡張列において、ノイズ率がノイズ許容率を上回れば、融合は行われない。すなわち、すべての拡張行及び拡張列のノイズ率がノイズ許容率以下であれば、2つのモジュールが融合される。図14の例では、例えばノイズ許容率が0.3であれば、融合が行われる。
融合処理は具体的には下記の手順で行われてよい。図15は、モジュール融合処理の例を示すフローチャートである。まず、コアモジュールが、横方向(プロファイル配列方向)のサイズが大きい順にソートされる(S1)。モジュール数はXであったとする。パラメータm、nが、それぞれ、m=1、n=1に設定される(S3)。そして、第n位のコアモジュールが、第m位のコアモジュールに重ねられる(S5)。ここでは、2つのコアモジュールの共通部分が重ねられる。そして、モジュール融合部37は、2つのコアモジュールを融合したときのノイズを求め(S7)、ノイズが許容ノイズ以下か否かを判定する(S9)。上述したノイズ率が計算されて、ノイズ許容率と比較される。
モジュール融合部37は、ノイズが許容ノイズ以下であれば、融合を実行し(S11)、ノイズが許容ノイズより大きければ、融合を行わない。次に、n=Xか否かが判定され(S13)、ステップS13がNoであれば、nに1が加算され(S15)、ステップS5に戻る。ステップS13がYesであれば、mに1が加算されて(S17)、m=Xか否かが判定され(S19)、ステップS19がNoであれば、ステップS5に戻る。ステップS19がYesであれば、処理を終了する。
上記の図15の処理によれば、まず、第1位(最大)のコアモジュールと第2位のコアモジュールの融合が試みられ、ノイズが許容レベルであれば、両モジュールが融合される。続いて、同様の処理が、第1位のコアモジュールと第3位のコアモジュールに対して行われる。さらに、同様の処理が、順次、下位のコアモジュールと第1のコアモジュールとの組合わせに対して行われる。
こうして、第1位のコアモジュールと、他の全部のコアモジュールとの組み合せに対して、融合のための処理が行われる。第1位のコアモジュールの処理が完了すると、第2位のコアモジュールに関して同様の処理が行われる。このような処理が繰り返されて、全部のモジュールの組合せの融合処理(融合可否判断と融合実行)が行われる。
以上に、モジュール融合部37によるモジュール融合について説明した。融合処理を行うことにより、モジュール探索で見落としたノイズを含む実験と遺伝子を取り込むようにモジュールを伸長して、重複度の高いモジュール同士を融合させることができる。
モジュール探索部15は、上記のようにして融合処理を経た共発現モジュールの情報をモジュール情報出力部17に供給する。モジュール情報出力部17は、プリンタ、ディスプレイ等の出力装置から、探索された共発現モジュールの情報を出力する。共発現モジュールは、行列データのかたちで出力されてよい。ネットワーク通信機能が出力装置として用いられ、共発現モジュールの情報がネットワークに出力されてよい。また、外部記録媒体の書込装置が出力装置として用いられ、共発現モジュールの情報が外部記録媒体に出力されてよい。
図16〜図18は、上記のモジュール融合による精度向上の効果を示している。図16は、探索された共発現モジュールとKEGG代謝パスウェイとの関連を示している。KEGG代謝パスウェイのデータベースは、各遺伝子がどの代謝パスウェイに属しているかのデータを有している。
図16において、「従来法」は、前出の非特許文献2により探索された共発現モジュールの解析結果である。従来法では、LCMにより共発現モジュールが列挙され、それから小さなモジュールがフィルタリングにより除去される。従来法ではクエリ検索は行われていない。しかし、ここでは、本発明の融合による精度向上を評価するために、従来法にクエリ検索を適用し、比較用のデータを得た。また、従来法は遺伝子サブセット方向にパタンが共通するモジュールを探索する。しかし、ここでは、比較のために、本実施の形態と同様に、プロファイルサブセット方向にパタンが共通するモジュールが探索された。
また、図16において、「本発明」は、上述した本発明の手法によって探索された共発現モジュールの解析結果である。上述のモジュール融合によって、ある程度のノイズを許容しつつ、モジュールが拡大されている。
比較解析では、2,899の疾患細胞発現データベース(約22,283遺伝子)に対し、ランダムに選択した100個のクエリプロファイルが入力された。そして、それぞれのクエリで得られたモジュールのうち、特定の代謝パスウェイと統計的に有意な関連をもつモジュールをカウントした。
統計的な有意性の指標としては、超幾何分布から求まるP値が用いられる。このP値は、1つのモジュールの各遺伝子がもつ機能の一致性についての値として得られる。モジュールがしきい値(この例では0.0001)より小さいP値を少なくとも一つ持っていれば、そのモジュールが有意なモジュールとしてカウントされる。
一つのクエリで探索されたモジュール数に対するカウント値の割合が、有意なモジュールの割合として求められる。すなわち、100個のクエリの各々から、有意なモジュールの割合が得られる。
図16は、上記のようにして得られる有意なモジュールの割合のデータを示している。横軸は有意なモジュールの割合であり、縦軸は頻度である。分布が右寄りなほど、代謝パスウェイと関連の高いモジュールが多く探索されていることを意味する。図16に示すように、「本発明」の分布が、「従来法」の分布よりも右に寄っている。すなわち、本発明により、重要な共発現モジュールがより高い精度で探索されている。これは、モジュール融合によってノイズを含む重要な共発現モジュールを探索できたからである。
図17は、探索された共発現モジュールとGene Ontology(GO)遺伝子機能との関連を示している。GO遺伝子機能のデータベースは、機能が判明している様々な生物種の遺伝子のデータベースである。図16と図17の解析では、同じ発現プロファイルデータベース及びクエリが使われており、したがって、評価された共発現モジュールも同じである。
図17においても、図16と同様に、「本発明」の分布が、「従来法」の分布よりも右に寄っている。すなわち、本発明により、重要な共発現モジュールがより高い精度で探索されている。
図18は、モジュールと関連のある有意な代謝パスウェイとGOの種類数を示している。図示のように、「本発明」で生成されたモジュールは、従来法より多数の生物学的機能と関連付けられた。これは、生物学的に意味のある遺伝子群を含んだモジュールをうまく取り出せていることを意味する。このことからも、本発明は重要な共発現モジュールをより高い精度で探索できることが分かる。
次に、本実施の形態の変形例について説明する。本実施の形態では、離散ランクが、「H」「others」「L」の3つであった。離散ランク数(階級数)と種類はこれらに限定されない。より多くのランクが設定されてもよい。
また、遺伝子発現モジュール探索装置1が、複数の異なる離散ランク設定に対応可能に構成されてよい。例えば、離散発現プロファイルデータベース生成部7が、複数の離散ランク設定に対応する複数の離散発現プロファイルデータを予め生成する。それら複数の離散発現プロファイルデータベースが離散発現プロファイルデータベース記憶部9に格納される。また、発現順位データ生成部21は、複数の離散ランク設定にそれぞれ対応する複数の発現順位データファイルを生成し、発現順位データ記憶部23に格納する。クエリ入力部11は、クエリ発現プロファイルと共にモジュール探索パラメータを入力する。この際、モジュール探索パラメータの一つとして、離散ランク設定として離散ランク数が入力される。クエリ離散発現プロファイル生成部13は、離散ランク数に対応する発現順位データを使って、クエリ発現プロファイルを離散化する。モジュール探索部15は、離散ランク数に対応する離散発現プロファイルデータベースを用いて探索を行う。このような構成により、離散ランク数を可変にできる。
以上に、本発明の好適な実施の形態について説明した。上記のように、本発明は、発現プロファイルを離散化した離散発現プロファイルのデータベースを用意し、クエリ発現プロファイルを入力して、クエリ内の遺伝子サブセットで構成される共発現モジュールを探索する。共発現モジュールは、クエリ離散発現プロファイル中の遺伝子サブセットと、クエリ離散発現プロファイルを含む離散発現プロファイルサブセットとで構成されており、モジュール内で共通する離散ラベルパタンが現れる。本発明は特に、上述のようにクエリの離散発現プロファイルに基づいて離散値行列を圧縮し、圧縮された離散値行列から共発現モジュールを探索する。探索結果に影響を与えることなく、クエリに基づいて探索処理対象データを圧縮でき、探索処理対象データを大幅に削減できる。したがって、多数の発現プロファイルから共発現モジュールを網羅的に探索することが可能になる。また、本発明によれば、上記のようにクエリを使う探索機能が提供されるので、ユーザが興味を持つプロファイルデータをクエリとしたモジュール探索が可能になる。
以上に本発明の好適な実施の形態を説明した。しかし、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。
以上のように、本発明にかかる遺伝子発現モジュール探索装置は、発現データベースから生物学的に意味のある共発現モジュールを探索する技術として有用である。
本発明の実施の形態に係る遺伝子発現モジュール探索装置を示すブロック図である。 発現プロファイルデータベースの例を示す図である。 離散発現プロファイルデータベースの例を示す図である。 発現順位データの上限、下限を示す図である。 発現順位データの上限、下限を示す図である。 発現順位データを用いる利点を説明する図である。 離散発現プロファイル生成部により生成される遺伝子−離散ラベルファイルを示す図である。 クエリ入力部から入力されるクエリ発現プロファイルの例を示す図である。 モジュール探索処理を示す図である。 離散値行列圧縮部による離散値行列の圧縮処理の示す第1の図である。 離散値行列圧縮部による離散値行列の圧縮処理の示す第2の図である。 離散値行列圧縮部による離散値行列の圧縮処理の示す第3の図である。 飽和アイテム集合列挙法における保存飽和拡張法の概念を示す図である。 モジュール融合処理を示す図である。 モジュール融合処理を示すフローチャートである。 モジュール融合による精度向上を示す図である。 モジュール融合による精度向上を示す図である。 モジュール融合による精度向上を示す図である。 共発現モジュールの例を示す図である。
符号の説明
1 遺伝子発現モジュール探索装置
3 プロファイル入力部
5 発現プロファイルデータベース記憶部
7 離散発現プロファイルデータベース生成部
9 離散発現プロファイルデータベース記憶部
11 クエリ入力部
13 クエリ離散発現プロファイル生成部
15 モジュール探索部
17 モジュール情報出力部
21 発現順位データ生成部
23 発現順位データ記憶部
25 離散発現プロファイル生成部
31 離散値行列生成部
33 離散値行列圧縮部
35 バイクラスタリング処理部
37 モジュール融合部

Claims (12)

  1. 遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索装置であって、
    モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースと、
    モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得するクエリ取得部と、
    前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成するクエリ離散発現プロファイル生成部と、
    前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとするモジュール探索部とを備え、
    前記モジュール探索部は、
    前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成する離散値行列生成部と、
    前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮する離散値行列圧縮部を有し、
    前記離散値行列圧縮部は、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索装置。
  2. 前記離散値行列生成部は、前記離散値行列を生成する際、各離散発現プロファイルから、前記クエリ離散発現プロファイルに含まれない遺伝子についてのデータを削除することを特徴とする請求項1に記載の遺伝子発現モジュール探索装置。
  3. 前記離散値行列圧縮部は、さらに、前記モジュール探索部により探索されるべき前記共発現モジュールの最小遺伝子数に基づき、前記非モジュール離散ラベル以外の離散ラベルの数が前記最小遺伝子数未満である前記離散発現プロファイルを前記離散値行列から削除することを特徴とする請求項1又は2に記載の遺伝子発現モジュール探索装置。
  4. 前記モジュール探索部は、前記離散値行列内で共通パタンが現れるバイクラスタを探索するバイクラスタリング処理を行って、探索されたバイクラスタを前記共発現モジュールとすることを特徴とする請求項1〜3のいずれかに記載の遺伝子発現モジュール探索装置。
  5. 前記モジュール探索部の前記バイクラスタリング処理は、飽和アイテム集合列挙法に基づくバイクラスタリング処理であり、前記離散値行列に含まれる遺伝子と離散ラベルの各組合せをアイテムとし、前記離散値行列から前記アイテムで構成されるトランザクションデータベースを生成し、前記トランザクションデータベースにおいて複数の離散発現プロファイルに共通に存在するアイテムの最大集合である飽和アイテム集合を列挙し、各飽和アイテム集合に対応するバイクラスタを求めることを特徴とする請求項4に記載の遺伝子発現モジュール探索装置。
  6. 前記モジュール探索部は、前記非モジュール離散ラベル以外の離散ラベルに対応するアイテムで構成される前記トランザクションデータベースを生成することを特徴とする請求項5に記載の遺伝子発現モジュール探索装置。
  7. 前記離散値行列圧縮部は、前記クエリ離散発現プロファイルの遺伝子の離散ラベルと各離散発現プロファイルの同一遺伝子の離散ラベルとが相違する場合に、前記離散発現プロファイルの前記遺伝子の離散ラベルを前記非モジュール離散ラベルに変換することを特徴とする請求項6に記載の遺伝子発現モジュール探索装置。
  8. 前記モジュール探索部は、探索された複数の共発現モジュールを融合して融合モジュールを生成するモジュール融合部を有し、前記モジュール融合部は、前記融合モジュール内でパタンが相違する部分であるノイズが、予め設定された許容ノイズ以下になる範囲で、融合処理を行うことを特徴とする請求項1〜7のいずれかに記載の遺伝子発現モジュール探索装置。
  9. 多数の遺伝子発現プロファイルにおける遺伝子毎の多数の発現値から生成された発現順位データを記憶する発現順位データ記憶部を有し、前記発現順位データは、遺伝子毎に、各遺伝子の前記多数の発現値に順位を付したときの、前記離散ランクのランク境界順位を有しており、前記離散発現プロファイルデータベースの各離散発現プロファイル及び前記クエリ離散発現プロファイルは、前記発現順位データの前記ランク境界順位に基づいて判定された離散ランクの離散ラベルで構成されていることを特徴とする請求項1〜8のいずれかに記載の遺伝子発現モジュール探索装置。
  10. 前記発現順位データの前記ランク境界順位は、同一遺伝子の発現値データ数における比率に基づいて規定されており、発現値の最大値側に1以上の高発現ランクが設定され、発現値の最小値側に1以上の低発現ランクが設定され、前記高発現ランクと前記低発現ランクの間の領域が、共発現モジュールを構成しない前記非モジュール離散ラベルに対応するランクであることを特徴とする請求項9に記載の遺伝子発現モジュール探索装置。
  11. 遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する遺伝子発現モジュール探索方法であって、
    モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、
    モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、
    前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、
    前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとし、
    前記探索ステップは、
    前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、
    前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、
    前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索方法。
  12. 遺伝子セットの発現値を有する発現プロファイルのデータベースから、遺伝子サブセットと発現プロファイルサブセットで構成されており共通する発現パタンが現れる共発現モジュールを探索する処理をコンピュータに実行させる遺伝子発現モジュール探索プログラムであって、
    モジュール探索源である多数の発現プロファイルからそれぞれ生成された多数の離散発現プロファイルを有し、各々の離散発現プロファイルは、プロファイル中の各遺伝子の発現値が属する離散的ランクを表す離散ラベルのセットである離散発現プロファイルデータベースを用意し、
    モジュール探索のクエリとなる発現プロファイルであるクエリ発現プロファイルを取得し、
    前記クエリ発現プロファイルに対応する離散発現プロファイルであるクエリ離散発現プロファイルを生成し、
    前記離散発現プロファイルデータベースから、前記クエリ離散発現プロファイル中の遺伝子サブセットで構成されており共通する離散ラベルパタンが現れるモジュールを探索し、探索したモジュールを共発現モジュールとする処理を前記コンピュータに実行させ、
    前記探索ステップは、
    前記クエリ離散発現プロファイル及び前記離散発現プロファイルデータベースの多数の離散発現プロファイルで構成される離散値行列を生成するステップと、
    前記クエリ離散発現プロファイルに基づいて、モジュール探索の前処理として前記離散値行列を圧縮するステップを有し、
    前記圧縮ステップは、モジュールを構成しない離散ラベルとして予め定められた所定の非モジュール離散ラベルが前記クエリ離散発現プロファイル内で付された遺伝子のデータを削除することにより前記離散値行列を圧縮し、圧縮後の前記離散値行列から前記共発現モジュールが探索されることを特徴とする遺伝子発現モジュール探索プログラム。
JP2007320636A 2007-12-12 2007-12-12 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム Active JP5051764B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007320636A JP5051764B2 (ja) 2007-12-12 2007-12-12 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007320636A JP5051764B2 (ja) 2007-12-12 2007-12-12 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム

Publications (2)

Publication Number Publication Date
JP2009146028A JP2009146028A (ja) 2009-07-02
JP5051764B2 true JP5051764B2 (ja) 2012-10-17

Family

ID=40916590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007320636A Active JP5051764B2 (ja) 2007-12-12 2007-12-12 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム

Country Status (1)

Country Link
JP (1) JP5051764B2 (ja)

Also Published As

Publication number Publication date
JP2009146028A (ja) 2009-07-02

Similar Documents

Publication Publication Date Title
JP4382526B2 (ja) 文章分類装置および方法
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
JP2007004233A (ja) 文章分類装置、文章分類方法、およびプログラム
JP5588811B2 (ja) データ分析支援システム及び方法
JPWO2010061537A1 (ja) 検索装置、検索方法、及びプログラム
KR20150103509A (ko) Lda를 이용한 특허 문헌 분석 방법
KR20160050729A (ko) 특허 정보를 이용한 특허 로드맵 생성 방법 및 시스템
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
US20070239663A1 (en) Parallel processing of count distinct values
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
US20140035809A1 (en) Hexahedral Mesh Generator
JP7473389B2 (ja) 学習モデル生成システム、及び学習モデル生成方法
US9639073B2 (en) Information processing apparatus for discriminating between combined results of plurality of elements, program product and method for same
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
US7882114B2 (en) Data processing method and data processing program
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
JP5051764B2 (ja) 遺伝子発現モジュール探索装置、遺伝子発現モジュール探索方法及び遺伝子発現モジュール探索プログラム
CN107609110B (zh) 基于分类树的最大多样频繁模式的挖掘方法及装置
Kabir et al. Association rule mining for both frequent and infrequent items using particle swarm optimization algorithm
Zaman et al. Knowledge Mapping for Research Papers
Vijayalakshmi et al. An efficient count based transaction reduction approach for mining frequent patterns
Bhiwani K-Mean Evaluation in Weka Tool and Modifying It using Standard Score Method
Liu et al. Interactive visual decision tree classification
JP4004584B2 (ja) クラスタリング装置及び方法
Cinar et al. Clustering of short time-course gene expression data with dissimilar replicates

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120719

R150 Certificate of patent or registration of utility model

Ref document number: 5051764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250