JP2002358309A - プロファイルデータベース及びプロファイル作成方法 - Google Patents

プロファイルデータベース及びプロファイル作成方法

Info

Publication number
JP2002358309A
JP2002358309A JP2001168230A JP2001168230A JP2002358309A JP 2002358309 A JP2002358309 A JP 2002358309A JP 2001168230 A JP2001168230 A JP 2001168230A JP 2001168230 A JP2001168230 A JP 2001168230A JP 2002358309 A JP2002358309 A JP 2002358309A
Authority
JP
Japan
Prior art keywords
profile
sequences
sequence
database
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001168230A
Other languages
English (en)
Inventor
Shigeru Hachitsuka
茂 八塚
Isamu Muto
勇 武藤
Iwao Yamashita
巌 山下
Takuro Tamura
卓郎 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2001168230A priority Critical patent/JP2002358309A/ja
Priority to US10/155,631 priority patent/US7599801B2/en
Publication of JP2002358309A publication Critical patent/JP2002358309A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 【課題】 大規模な生体高分子の配列間の相関解析を高
速に実行でき、任意の解析済プロファイルを再利用でき
る手段を提供する。 【解決手段】 大規模なプロファイルデータベース10
3を提供し、そのデータベースを使って高速に生体高分
子の配列間の相関解析を行えるようにし、プロファイル
データベースから任意のプロファイルを取り出せるよう
にした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の生体高分子
の配列に対して配列同士の相関解析を行い、その結果を
蓄積した計算済プロファイルデータベースを作成する方
法と、プロファイルデータベースを利用して配列間の相
関図又はマルチプルアラインメントを高速に作成する方
法に関するものである。
【0002】
【従来の技術】従来、配列間の相関解析を行う方法とし
ては、J. Thompson and T. Gibsonが作成したプログラ
ムであるClustalW(1994- )がある。ここで使われている
計算法は、ClustalW Thompson JD, Higgins DG, Gibson
TJ (Nucleic Acid Res. 1994Nov: 4673-80)に述べられ
ている。ClustalWを使用することで、異なる配列間の進
化系統関係を解析し、それらのマルチプルアラインメン
トを作成することができる。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
技術には以下の問題点がある。 1.一般に多数の配列間の相関解析には膨大な計算時間
が必要である。例えば、平均配列長1500bpの核酸配列50
0個を対象としてClustalWを用いて計算を行うと約30時
間もかかることがある。核酸やアミノ酸等の生体高分子
の配列(以下、単に「配列」という)の解読が容易にな
り、配列のデータが大量に生産されるようになった現
在、配列の解析にこのように時間がかかると、研究推進
のボトルネックとなってしまう。(計算時間の問題)
【0004】2.計算対象の配列のサイズや数が増加す
るにしたがって、計算時間と同時に、必要な計算機のメ
モリ空間も増加し、現実的な時間内で計算を終了するた
めに必要な計算機仕様も大きなものとなるが、その様な
計算機が利用できる研究環境は稀である。(計算規模の
問題) 3.個々の計算には大量の計算機資源や研究時間を消費
しているが、計算結果の再利用が考慮されていない。
(計算結果の再利用の問題) 本発明は、上記従来技術の問題点を解消できる手段を提
供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、配列間の相関解析の結果情報である“プ
ロファイル”を再利用可能な方式で蓄積したデータベー
スを構築する。また、プロファイルデータベースに蓄積
したプロファイルを利用して、新たな配列間の相関解析
を高速に行う方式を提供する。即ち、利用者の解析対象
である配列の集合が、プロファイルデータベースに登録
されたあるプロファイルエントリを構成する配列の部分
集合である場合、そのプロファイルエントリより、対象
配列に関連した解析結果情報のみを抽出し、これを新た
なプロファイルとして利用者に提供可能とする。また、
対象配列の全てを含むプロファイルエントリが存在しな
い場合も、大多数の対象配列を含むプロファイルエント
リが存在する場合は、そのプロファイルエントリより、
対象配列に関連した解析結果情報のみを抽出し、これを
初期プロファイルとして、そのプロファイルエントリに
含まれなかった配列をこの初期プロファイルに加える方
法で解析を行い、目的のプロファイルを得る方法を提供
する。いずれの場合も、大幅な計算時間の短縮が可能で
ある。
【0006】本発明によるプロファイルデータベース
は、複数の生体高分子の配列をマルチプルアライメント
及び/又は進化系統解析した結果のプロファイルを、各
プロファイルのIDと名称とプロファイルデータとを対
応付けて格納したプロファイルテーブルと、各プロファ
イルのIDとプロファイル解析条件とを対応付けて格納
したプロファイル解析条件テーブルと、プロファイルの
IDと配列IDとを対応付けて格納した配列メンバテー
ブルと、各配列の配列IDと配列名と配列とを対応付け
て格納した配列テーブルとによって蓄積したことを特徴
とする。
【0007】本発明によるプロファイル作成方法は、複
数の生体高分子の配列に対してマルチプルアライメント
作成及び/又は進化系統解析するプロファイル作成方法
において、プロファイル作成の対象となる複数の配列を
入力するステップと、複数の配列群に対してマルチプル
アライメント解析や進化系統解析した結果を各配列群に
対するプロファイルとして蓄積したプロファイルデータ
ベースを検索し、入力された配列を最も多く含む配列群
に対するプロファイルを検索するステップと、入力され
た複数の配列と検索されたプロファイルが対象としてい
る配列群との和集合に対してマルチプルアライメント作
成及び/又は進化系統解析を行うステップとを含むこと
を特徴とする。
【0008】この時、入力された複数の配列と検索され
たプロファイルが対象としている配列群との和集合に対
してマルチプルアライメント作成及び/又は進化系統解
析を行った結果を新たなプロファイルとしてプロファイ
ルデータベースに登録するステップを更に含むのが好ま
しい。
【0009】
【発明の実施の形態】以下、本発明を実施する場合の一
形態を図面を参照して具体的に説明する。図1は、本発
明によるプロファイルデータベース利用システム(スタ
ンドアロン方式)の構成例を示すブロック図である。こ
のプロファイルデータベース利用システム(スタンドア
ロン方式)101は、処理装置102、プロファイルデ
ータベース103、表示装置104、キーボード10
5、マウス106を備えて構成される。
【0010】利用者はキーボード105やマウス106
を使って核酸などの任意の生体高分子の配列を処理装置
102に入力する。処理装置102は、入力された配列
とプロファイルデータベース103を使って配列間の相
関解析を行い、その結果から配列間の相関図又はマルチ
プルアラインメントを表示装置104に描画する。
【0011】利用者はまた、キーボード105やマウス
106を使って、処理装置102にプロファイルデータ
ベース103にあるプロファイルの中から、任意の条件
に合うプロファイルを表示することを要求する。処理装
置102は利用者からの要求を受け付けると、プロファ
イルデータベース103にアクセスして全プロファイル
の中から、利用者の入力した条件に合うプロファイルを
検索し、それを表示装置104に一覧表示する。利用者
は表示されたプロファイルの中から、任意のプロファイ
ルを選択し、それを表示することを要求する。処理装置
102は利用者からの要求を受け付けると、プロファイ
ルデータベース103にアクセスして要求されたプロフ
ァイルを取得し、表示装置104に表示する。
【0012】図2は、本発明によるプロファイルデータ
ベース利用システム(クライアント・サーバ方式)の構
成例を示すブロック図である。このプロファイルデータ
ベース利用システム(クライアント・サーバ方式)は、
図2に示すように、プロファイルデータベース処理装置
201とデータ入出力処理装置205と、通信回線20
4で実現する。プロファイルデータベース処理装置20
1は、データベースの処理を行う処理装置202と、プ
ロファイルデータベース203から構成される。データ
入出力処理装置205は、データの入出力処理を行う処
理装置206と、表示装置207と、キーボード208
と、マウス209を備えて構成される。
【0013】利用者はキーボード208やマウス209
を使って核酸などの任意の生体高分子の配列をデータ入
出力処理装置205に入力する。データ入出力処理装置
205は、入力された配列を通信回線204を通してプ
ロファイルデータベース処理装置201へ送信する。プ
ロファイルデータベース処理装置201は、送信された
配列とプロファイルデータベース203を使って配列間
の相関解析を行い、その結果を通信回線204を通して
データ入出力処理装置205へ送る。データ入出力処理
装置205は、送信された解析結果から配列間の相関図
又はマルチプルアラインメントを表示装置207に描画
する。
【0014】利用者はまたキーボード208やマウス2
09を使って、データ入出力処理装置205にプロファ
イルデータベース203から、任意の条件に合うプロフ
ァイルの表示を要求する。データ入出力処理装置205
は利用者からの要求を受け付けると、その要求を通信回
線204を通してデータベース処理装置201に送信す
る。データベース処理装置201は送信された要求を受
け付けると、プロファイルデータベース203にアクセ
スしてプロファイルデータベースの中から利用者の入力
した条件に合うプロファイルを検索し、それを通信回線
204を通してデータ入出力処理装置205に送信す
る。データ入出力処理装置205は、送信されたプロフ
ァイル一覧を受け取ると、それを表示装置207に表示
する。利用者は表示されたプロファイル一覧の中から任
意のプロファイルを選択し、それを表示することをデー
タ入出力処理装置205に要求する。データ入出力処理
装置205は利用者からの要求を、通信回線204を使
ってデータベース処理装置201へ送信する。データベ
ース処理装置201は送信された要求を受け取ると、プ
ロファイルデータベース203にアクセスし、要求され
たプロファイルを取得し、データ入出力処理装置205
へ送信する。データ入出力処理装置205は送信された
プロファイルを表示装置207に表示する。
【0015】図3は、表示装置104又は表示装置20
7に表示する、配列間の相関を示す樹状図の一例を示す
図である。この図は配列間の進化系統を表している。樹
状図の右端にある文字列は各配列の配列名である。図4
は、表示装置104又は表示装置207に表示する、配
列間のマルチプルアラインメント(複数の配列を並べ、
それらの間の一致・不一致をわかりやすく表示する表示
形式)の一例を示す図である。画面上側はマルチプルア
ラインメント概要図401であり、アラインメント配列
の全長を表示している。画面下側はアラインメント配列
402である。アラインメント配列402においては、
全配列が一致した部分403と、各配列間の一致率が一
定以上の部分404で色分けが可能である。
【0016】図5は、プロファイルデータの例を示す図
である。このフォーマットは、配列間の相関解析計算に
ClustalWを用いた場合のものである。1つのプロファイ
ル501は、項目502(配列名と配列ID)、項目50
3(アラインメント配列)、項目504(配列間の相関
解析結果)からなる。項目502は、プロファイルに含
まれる配列名と配列IDである。項目503は、プロファ
イル内の各配列をマルチプルアラインメント表示したも
のである。各配列の並び順は、項目502と同じでなけ
ればならない。項目504は、プロファイル内の配列間
の相関解析結果である。ここで各配列IDの右側の数値
は、各配列とその進化系統上上流にある配列との距離を
表す。この距離が大きいほど、2つの配列は進化系統上
隔たっている。
【0017】図6は、プロファイルデータベースで使用
するテーブルの定義を示す図である。プロファイルテー
ブル601には、プロファイルデータベース中の各プロ
ファイルのID(prf_id)と名前(prf_name)とプロファイル
(profile)が格納されている。各プロファイルは圧縮さ
れており、これによりプロファイルデータベースをコン
パクトに格納することが可能になる。
【0018】配列メンバテーブル602には、プロファ
イルのID(prf_id)と各配列のID(seq_id)が格納されて
いる。このテーブル上にある各配列IDは配列テーブル6
03に、このテーブル上にある各プロファイルのIDはプ
ロファイルテーブル601にそれぞれ存在しなければな
らない。このテーブルでは、1つのプロファイルIDが複
数の配列IDを持っており、逆に1つの配列IDが複数のプ
ロファイルIDを持っている。このテーブルを使用するこ
とで、個別のプロファイルにアクセスすることなく、配
列間の相関図又はマルチプルアラインメント作成に用い
る最適なプロファイルを高速に検索することが可能にな
る。
【0019】配列テーブル603にはプロファイルデー
タベース中にある各配列(sequence)と配列名(seq_na
me)と配列ID(seq_id)とが格納されている。プロファ
イル解析条件テーブル604には、各プロファイルのID
(prf_id)と、解析条件名(cnd_name)と、条件値(va
lue)とが格納されている。このテーブル上にある各プ
ロファイルのIDは、テーブル601に存在しなければな
らない。
【0020】図7は、プロファイルデータベースのデー
タ例を示す図である。配列メンバテーブルをみると、1
つのプロファイルIDが複数の配列IDを持っており、逆に
1つの配列IDが複数のプロファイルIDを持っている。こ
れは、1つのプロファイルは複数の配列を含むためであ
り、また、同じ配列が異なるプロファイルに含まれるこ
とがあるためである。
【0021】図8は図1、2で説明したプロファイルデ
ータベース利用システムにおける、配列間の相関図又は
マルチプルアラインメント作成処理を詳細に説明したフ
ローチャートである。ここで、配列間の相関解析にはCl
ustalWを用いている。処理が開始されると、入力された
核酸などの配列が読み込まれる(801)。読み込む配
列の存在を判定し(802)、存在すればそれをプロフ
ァイルデータベースと照合し(803)、入力配列が新
規(プロファイルデータベースに存在しない)かどうか
を判定する(804)。ここでは、入力配列と完全一致
する配列がプロファイルデータベース中に存在する場合
には入力配列は既存配列とし、それ以外の場合には入力
配列は新規配列とする。入力配列が新規であれば、その
配列に配列IDを付与する(805)。こうして全ての配
列を読み込んだ後、マルチプルアラインメント・進化系
統解析計算で用いる対象プロファイルを決定する(80
6)。
【0022】対象プロファイルが決定したら、そのプロ
ファイルに入力配列が内包されているかどうかを判定す
る(807)。対象プロファイルに入力配列がすべて内
包されている場合、配列間相関解析は行わず、対象プロ
ファイルをそのまま解析結果810とする。対象プロフ
ァイルに入力ファイルが一部内包されている場合、対象
プロファイルと入力配列を使ってClustalWにより配列間
相関解析を行い(808)、解析結果810を出力す
る。対象プロファイルに入力配列が全く内包されていな
い場合、入力配列のみを使ってClustalWにより配列間相
関解析を行い(809)、解析結果810を出力する。
解析結果が出力されると、解析結果810を使ってプロ
ファイルデータベースを更新する(811)。そして、
配列間相関図又はマルチプルアラインメント描画のため
の情報を作成し(812)、配列間相関図又はマルチプ
ルアラインメントを表示装置に描画する(813)。
【0023】図9は、図8において入力配列の対象プロ
ファイルを決定する方法についての説明図である。図9
に示すように縦軸901を入力配列、横軸902をデー
タベース中のプロファイルとした表を作り、例えば、入
力された配列seq1,seq2,…の1つseq2が、データベー
ス中のプロファイルprof1 ,prof2,…の1つprof2に含
まれていれば、seq2とprof2が交わる位置に印903を
つける。このような作業を全ての入力配列に対して行
い、プロファイル毎に印の数(hit)を記録する。その結
果、hitが最も多かったプロファイル、図示の例の場合
にはprof5を対象プロファイルとする。
【0024】もしhitが最大となるプロファイルが複数
存在する場合には、候補プロファイルの中でそれぞれの
プロファイルが内包する配列中に占める入力配列数の割
合が最も高いものを対象プロファイルとする方法(小規
模な相関図又はマルチプルアラインメントを作成する場
合に有効)と、候補プロファイルの中でそれぞれのプロ
ファイルが内包する配列中に占める入力配列数の割合が
最も低いものを対象プロファイルとする方法(大規模な
相関図又はマルチプルアラインメントを作成する場合に
有効)がある。例えば、prof4、prof5のhitが共に3で
これが全プロファイル中で最大であり、かつprof4が内
包する配列数が6、prof5が内包する配列数が30である場
合、前者の方法では対象プロファイルはprof4となり、
後者の方法ではprof5となる。
【0025】図10は、図1、2で説明したプロファイ
ルデータベース利用システムにおける任意のプロファイ
ルデータの表示処理を詳細に説明したフローチャートで
ある。処理が開始されると、プログラムはプロファイル
データベースから利用者が入力した条件に合うプロファ
イルを検索し(1001)、表示装置に表示する(10
02)。利用者は表示されたプロファイルの中から任意
のプロファイルを選択する(1003)。プログラムは
選択されたプロファイルをプロファイルデータベースか
ら取得し(1004)、表示装置に表示する(100
5)。
【0026】図11は、図1、2で説明したプロファイ
ルデータベース利用システムにおける、配列間の相関図
又はマルチプルアラインメント作成処理のための配列投
入のユーザインターフェースのうち、メインとなるダイ
アログの一例である。利用者はまずメインダイアログ
(図11)において、核酸などの配列ファイルをドラッ
グ&ドロップして、ファイルウィンドウ1101に入力
する。次に利用者は、「プロファイルの指定」ボタン1
102を押してプロファイルダイアログ(図12)を起
動する。プロファイルダイアログが起動されると、プロ
ファイルデータベース中の全プロファイルの一覧が、内
包している入力配列数の多い順に並んで表示される。各
プロファイルが内包する入力配列の数はダイアログの起
動時に計算され、「内包する入力配列数」欄1202に
表示される。利用者は、各プロファイルの検索対象欄1
201をチェックして配列間の相関解析に用いるプロフ
ァイルを指定できる。プロファイルデータベース中の全
プロファイルを用いる場合には、「すべてのプロファイ
ルを検索」ボタン1203を押す。
【0027】プロファイルの指定を終えた利用者は、メ
インダイアログ(図11)に戻り、「マルチプルアライ
ンメントの表示」ボタン1103を押してマルチプルア
ラインメント(図4)を表示、または「配列間相関図の
表示」ボタン1104を押して配列間の相関を示した樹
状図(図3)を表示させることができる。プロファイル
の指定をしなかった場合には、図8の方法で適切な対象
プロファイルを決定し、マルチプルアラインメントある
いは樹状図を表示する。
【0028】図13は、図11、図12で説明したプロ
ファイルデータベース利用システムにおける、配列間の
相関図又はマルチプルアラインメント作成処理のための
配列投入のユーザインターフェースの利用手順について
の説明図である。処理が開始されると、利用者からのド
ラッグ&ドロップによる配列ファイル入力を受け付ける
(1301)。ファイル入力が完了した後に「プロファ
イルの指定」ボタンが押された(1302)場合には、
プロファイルダイアログが表示される(1303)。そ
の後、「マルチプルアラインメント表示」ボタンまたは
「配列間相関図の表示」ボタンが押される(1304)
と、指定されたプロファイルを利用して配列間相関解析
を行う(1305)。解析が完了すると、利用者によっ
て押されたボタンの種類を判別し(1306)、「マル
チプルアラインメントの表示」ボタンが押されていれば
マルチプルアラインメントを表示し(1307)、「配
列間相関図の表示」ボタンが押されていれば進化系統樹
を表示する(1309)。
【0029】
【発明の効果】以上、説明したように、本発明によれ
ば、プロファイルデータベースに蓄えられた解析済デー
タを用いて、これまで膨大な時間がかかっていた配列間
の相関解析の結果を、高速に得る手段を提供可能であ
る。
【図面の簡単な説明】
【図1】本発明によるプロファイルデータベース利用シ
ステム(スタンドアロン方式)の構成例を示すブロッ
ク。
【図2】本発明によるプロファイルデータベース利用シ
ステム(クライアント・サーバ方式)の構成例を示すブ
ロック図。
【図3】樹状図の例を示す図。
【図4】マルチプルアラインメントの一例を示す図。
【図5】プロファイルデータの例を示す図。
【図6】プロファイルデータベースで使用するテーブル
の定義を示す図。
【図7】プロファイルデータベースのデータ例を示す
図。
【図8】相関図又はマルチプルアラインメント作成処理
を説明したフローチャート。
【図9】対象プロファイル決定の説明図。
【図10】プロファイルデータの表示処理を説明したフ
ローチャート。
【図11】配列投入のユーザインターフェース(メイン
ダイアログ)の例を示す図。
【図12】配列投入のユーザインターフェース(プロフ
ァイルダイアログ)の例を示す図。
【図13】配列投入のユーザインターフェース利用手順
を示す図。
【符号の説明】
101…プロファイルデータベース利用システム(スタ
ンドアロン方式)、102…処理装置、103…プロフ
ァイルデータベース、104…表示装置、105…キー
ボード、106…マウス、201…データベース処理装
置、202…処理装置、203…プロファイルデータベ
ース、204…通信回線、205…データ入出力処理装
置、206…処理装置、207…表示装置、208…キ
ーボード、209…マウス、301…配列名、401…
マルチプルアラインメント概要図、402…アラインメ
ント配列、403…全配列が一致した部分、404…配
列の一致率が一定以上の部分、501…プロファイルデ
ータ、502…配列名及び配列ID、503…アラインメ
ント配列、504…相関解析結果、601…プロファイ
ルテーブル、602…配列メンバテーブル、603…配
列テーブル、604…プロファイル解析条件ファイル、
901…入力された配列のID、902…プロファイルデ
ータベース中のプロファイルデータのID
───────────────────────────────────────────────────── フロントページの続き (72)発明者 武藤 勇 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 (72)発明者 山下 巌 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 (72)発明者 田村 卓郎 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 Fターム(参考) 4B024 AA11 CA01 CA11 HA19 4B063 QA01 QA18 QQ42 QQ52 QR90 QS39 5B075 ND20 ND34 UU18

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の生体高分子の配列をマルチプルア
    ライメント及び/又は進化系統解析した結果のプロファ
    イルを、各プロファイルのIDと名称とプロファイルデ
    ータとを対応付けて格納したプロファイルテーブルと、
    各プロファイルのIDとプロファイル解析条件とを対応
    付けて格納したプロファイル解析条件テーブルと、プロ
    ファイルのIDと配列IDとを対応付けて格納した配列
    メンバテーブルと、各配列の配列IDと配列名と配列と
    を対応付けて格納した配列テーブルとによって蓄積した
    ことを特徴とするプロファイルデータベース。
  2. 【請求項2】 複数の生体高分子の配列に対してマルチ
    プルアライメント作成及び/又は進化系統解析するプロ
    ファイル作成方法において、 プロファイル作成の対象となる複数の配列を入力するス
    テップと、 複数の配列群に対してマルチプルアライメント解析や進
    化系統解析した結果を各配列群に対するプロファイルと
    して蓄積したプロファイルデータベースを検索し、入力
    された配列を最も多く含む配列群に対するプロファイル
    を検索するステップと、 入力された複数の配列と検索されたプロファイルが対象
    としている配列群との和集合に対してマルチプルアライ
    メント作成及び/又は進化系統解析を行うステップとを
    含むことを特徴とするプロファイル作成方法。
  3. 【請求項3】 請求項2記載のプロファイル作成方法に
    おいて、前記入力された複数の配列と検索されたプロフ
    ァイルが対象としている配列群との和集合に対してマル
    チプルアライメント作成及び/又は進化系統解析を行っ
    た結果を新たなプロファイルとして前記プロファイルデ
    ータベースに登録するステップを更に含むことを特徴と
    するプロファイル作成方法。
JP2001168230A 2001-06-04 2001-06-04 プロファイルデータベース及びプロファイル作成方法 Pending JP2002358309A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001168230A JP2002358309A (ja) 2001-06-04 2001-06-04 プロファイルデータベース及びプロファイル作成方法
US10/155,631 US7599801B2 (en) 2001-06-04 2002-05-23 Profile database and method for preparing profile

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001168230A JP2002358309A (ja) 2001-06-04 2001-06-04 プロファイルデータベース及びプロファイル作成方法

Publications (1)

Publication Number Publication Date
JP2002358309A true JP2002358309A (ja) 2002-12-13

Family

ID=19010488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001168230A Pending JP2002358309A (ja) 2001-06-04 2001-06-04 プロファイルデータベース及びプロファイル作成方法

Country Status (2)

Country Link
US (1) US7599801B2 (ja)
JP (1) JP2002358309A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059557A1 (ja) * 2002-12-26 2004-07-15 National Institute Of Advanced Industrial Science And Technology タンパク質立体構造予測システム
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
JP2006023572A (ja) * 2004-07-08 2006-01-26 Mitsubishi Electric Corp 対話装置
JP2007207113A (ja) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd 系統樹表示システム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930197B2 (en) * 2006-09-28 2011-04-19 Microsoft Corporation Personal data mining
WO2008053669A1 (fr) * 2006-11-01 2008-05-08 Konica Minolta Business Technologies, Inc. Système d'entrée/sortie de données, procédé de commande du système d'entrée/sortie de données, et appareil de commande

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3078400A (en) 1999-01-25 2000-08-07 Institute Of Medicinal Molecular Design. Inc. Describing and storing method of alignment information
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059557A1 (ja) * 2002-12-26 2004-07-15 National Institute Of Advanced Industrial Science And Technology タンパク質立体構造予測システム
GB2411655A (en) * 2002-12-26 2005-09-07 Nat Inst Of Advanced Ind Scien System for predicting three-dimensional structure of protein
US7243051B2 (en) 2002-12-26 2007-07-10 National Institute Of Advanced Industrial Science And Technology System for predicting three-dimensional structure of protein
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
JP2006023572A (ja) * 2004-07-08 2006-01-26 Mitsubishi Electric Corp 対話装置
JP4684583B2 (ja) * 2004-07-08 2011-05-18 三菱電機株式会社 対話装置
JP2007207113A (ja) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd 系統樹表示システム

Also Published As

Publication number Publication date
US20020184201A1 (en) 2002-12-05
US7599801B2 (en) 2009-10-06

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN110292775B (zh) 获取差异数据的方法及装置
US9256686B2 (en) Using a bloom filter in a web analytics application
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
KR20160033665A (ko) 추천 결과를 디스플레이하기 위한 방법 및 장치
WO2007121001A2 (en) Method and apparatus for interactive generation of device response template and analysis
WO2022160442A1 (zh) 答案生成方法、装置、电子设备及可读存储介质
CN104715063A (zh) 搜索排序方法和装置
JP2002358309A (ja) プロファイルデータベース及びプロファイル作成方法
Chordia et al. Grouping web access sequences using sequence alignment method
WO2018205391A1 (zh) 信息检索准确性评估方法、***、装置及计算机可读存储介质
CN104156364B (zh) 地图搜索结果的展现方法和装置
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CA3153550A1 (en) Core recommendation method, device and system
CN114238296A (zh) 产品指标数据展示方法、装置、设备及存储介质
CN114841165A (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN110245208B (zh) 一种基于大数据存储的检索分析方法、装置及介质
CN114138739A (zh) 一种数据库表内容快速比对***
CN113282218A (zh) 多维报表生成方法、装置、设备及存储介质
CN113435970A (zh) 基于生物信息的产品推荐方法、装置、电子设备及介质
JP2000293531A (ja) 情報検索方法及び装置
US20050154750A1 (en) Methods and apparatus for generating automated graphics using stored graphics examples
CN106529212B (zh) 基于序列依赖频率矩阵的生物序列进化信息提取方法
CN114741018B (zh) 数据可视化方法、装置、设备及存储介质
CN114969464B (zh) 基于毫米波通信的智能可视化显示***

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060404