JP5183155B2 - 大量配列の一括検索方法及び検索システム - Google Patents
大量配列の一括検索方法及び検索システム Download PDFInfo
- Publication number
- JP5183155B2 JP5183155B2 JP2007288007A JP2007288007A JP5183155B2 JP 5183155 B2 JP5183155 B2 JP 5183155B2 JP 2007288007 A JP2007288007 A JP 2007288007A JP 2007288007 A JP2007288007 A JP 2007288007A JP 5183155 B2 JP5183155 B2 JP 5183155B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- character
- query
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000012545 processing Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 22
- 108090000623 proteins and genes Proteins 0.000 claims description 21
- 210000000349 chromosome Anatomy 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000002299 complementary DNA Substances 0.000 claims description 9
- 238000010195 expression analysis Methods 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000003491 array Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims 1
- 108020004999 messenger RNA Proteins 0.000 description 27
- 239000012634 fragment Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000003252 repetitive effect Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 241000894007 species Species 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000037429 base substitution Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000013377 clone selection method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
以下、本発明の実施例を図面を用いて詳細に説明する。
データの参照関係4は、現在検索処理中の作業配列1に対して、クエリー側サフィックス・アレイ2内の範囲(i0,i1)とターゲット側サフィックス・アレイ3内の範囲(j0,j1)が対応していることを表している。
(実施例2)
前記実施例においては、mRNA断片配列のゲノム配列へのマッピング位置を求める条件として、mRNA断片配列がゲノム配列中の完全一致する部分配列として出現することとした。しかし、実際には、SNP(1塩基多型)などが知られているように、レファランスとなるゲノム配列とシーケンシングで得たmRNA断片配列が正しく対応している場合であっても、ゲノムやmRNAを採取した個人の違いにより、それらの塩基の並びに若干の相違が見られることがある。そこで、このような場合にも、正しい対応関係を求めるために、mRNA断片配列のゲノム配列へのマッピング位置を求める条件を緩和して、mRNA断片配列がゲノム配列中に近似的に一致する部分配列として出現することとする。ここで2つの配列が近似的に一致するとは、予め指定した許容数以下の箇所の文字の置換や挿入や欠失により、それら2つの配列が一致することである。このときの、文字の置換や挿入や欠失の数を不一致数とよぶ。
以下、図4を用いてこのような、近似的に一致するターゲット配列内のサフィックスの管理方法を説明する。61は検索処理中の作業用の文字列Sであり、この例では、ACGである。62は、Sと近似的に一致するターゲット側のサフィックスを管理するリストである。各行がそれぞれSと近似的に一致するターゲット側のサフィックスQに対応する。この例ではQは3種類ある。62の第1列目と第2列目は、それらのサフィックスのターゲット側サフィックス・アレイ63内の出現範囲の開始と終了位置であり、ターゲット側サフィックス・アレイ63内でのソート順位を表す整数である。ターゲット側サフィックス・アレイ63内は、前記実施例の図1における7や9と同一のものであるが、その内部で参照される範囲が複数ある点が異なっている。また、62の第3列目は、SとQの不一致数(それらの間で、塩基の置換、挿入、欠失により差異が生じている箇所の数)とNの数の和である。不一致数とNの数は独立にカウントし、サフィックスを棄却するか否かの判定に用いることも出来るが、本実施例では、不一致数とNの数との和を用いることとし、これを簡単のため単に不一致数とよぶことにする。
(実施例3)
前記実施例においては、ターゲット側とクエリー側のサフィックスの出現範囲を管理するために、図1の2や3のようなサフィックス・アレイを用いている。例えば、ヒト・ゲノム配列の場合、総塩基数は約30億にも達するため、サフィックス・アレイ内のソート順位を表す整数には少なくとも4バイトが必要となり、サフィックス・アレイのサイズは12ギガバイトにも達する。そこで、サフィックス・アレイと情報的に等価な内容で、よりコンパクトは表現ができるコンプレスト・サフィックス・アレイ(非特許文献8)やバローズ・ホィーラー変換(非特許文献4)などを、サフィックス・アレイの代わりに用いて、上記と類似の構成で上記の目的を達することができる。
(実施例4)
前記実施例においては、A, G, C, T, Nの5種類の文字からなる塩基配列データに対して、本発明を適用し、mRNAの発現解析を行う方法を説明した。本発明は、より多種類の文字からなる一般的な文書データに対しても適用することが可能である。図8を用いて、本発明を用いて、大量の文字句データが大量の蓄積文書データ内部で扱われている話題に対して、どのような引用を行っているか解析するシステム全体の構成を説明する。より具体的には、例えば、大量の蓄積文書データとしては大量の広告文書を想定し、大量の文字句データとしては不特定多数の人から得られた大量のアンケート調査結果を想定し、どの文書のどの話題からの引用が多いかを解析すること想定してもよい。
2 クエリー側サフィックス・アレイ
3 ターゲット側サフィックス・アレイ
4 現在処理中の検索文字列(塩基配列データ)に対して、それが出現するクエリー側サフィックス・アレイ内のインデクス範囲、及び、ターゲット側サフィックス・アレイ内のインデクス範囲を示す、データ間の参照関係
5 Aにより1文字伸長された新たな検索文字列(塩基配列データ)
6 Cにより1文字伸長された新たな検索文字列(塩基配列データ)
7 データ参照関係が更新されたクエリー側サフィックス・アレイ
8 クエリー側サフィックス・アレイ内部への参照先の変化を表す状態遷移
9 データ参照関係が更新されたターゲット側サフィックス・アレイ
10 ターゲット側サフィックス・アレイ内部への参照先の変化を表す状態遷移
11 新たな検索文字列5に対して、それが出現するクエリー側サフィックス・アレイ内のインデクス範囲、及び、ターゲット側サフィックス・アレイ内のインデクス範囲を示す、データ間の参照関係
12 新たな検索文字列6に対して、それが出現するクエリー側サフィックス・アレイ内のインデクス範囲、及び、ターゲット側サフィックス・アレイ内のインデクス範囲を示す、データ間の参照関係
13 計算機主記憶上において、クエリー側の情報とターゲット側の情報を論理的に区分する説明用の分割線
21 クエリー配列データ(mRNAの塩基配列を表現する文字列データ)
22 クエリー側サフィックス・アレイの構築処理
23 ターゲット配列データ(ゲノムの塩基配列を表現する文字列データ)
24 ターゲット側サフィックス・アレイの構築処理
25 検索文字列とそのクエリー側サフィックス・アレイ内の出現範囲、および、ターゲット側サフィックス・アレイ内の出現範囲の初期化処理
26 検索文字列の1文字伸長処理および棄却判断
27 該当するクエリー配列の最長一致サフィックスの報告
28 全長一致するクエリー配列をもつ検索文字列の抽出処理
29 検索文字列ごとの繰り返し処理
30 検索文字列のターゲット配列内の出現回数の評価と判断
31 該当するクエリー配列のターゲット配列内のマッピング位置の報告
32 該当するクエリー配列をリピート配列として報告
41 「検索文字列の1文字伸長処理および棄却判断」26の入力データ
42 文字種(A, G, C, T)ごとの繰り返し処理
43 検索文字列の1文字伸長処理
44 新たな検索文字列に対するクエリー側サフィックス・アレイ内出現位置の更新
45 新たな検索文字列に対するクエリー側サフィックス・アレイ内の出現有無の判定
46 新たな検索文字列の棄却処理
47 新たな検索文字列に対するターゲット側サフィックス・アレイ内出現位置の更新
48 新たな検索文字列に対するターゲット側サフィックス・アレイ内の出現有無の判定
49 全長一致するターゲット内の部分配列をもたないようなクエリー配列に対する、最長一致サフィックスの報告
50 新たな検索文字列の棄却処理
51 「検索文字列の1文字伸長処理および棄却判断」26の出力データ
61 検索文字列S
62 Sと近似的に一致する複数種類のターゲット配列内サフィックスQの管理テーブル
63 ターゲット側サフィックス・アレイ
71 Sと近似的に一致するサフィックスQの1文字伸長処理の入力データ
72 文字種ごとの繰り返し処理
73 サフィックスQの伸長処理
74 新たな検索文字列yQに対するターゲット側サフィックス・アレイ内出現位置の更新
75 出現の有無の判定
76 yQの棄却処理
77 塩基置換による不一致数またはNの数の増加の判定
78 塩基置換またはNによるyQの不一致数の更新
79 塩基欠失によるQの不一致数の更新
80 塩基挿入のための文字種ごとの繰り返し処理
81 サフィックスyQの伸長処理
82 新たな検索文字列zyQに対するターゲット側サフィックス・アレイ内出現位置の更新
83 出現の有無の判定
84 zyQの棄却処理
85 塩基挿入によるQの不一致数の更新
86 不一致数の判定
87 サフィックスの棄却
88 Sと近似的に一致するサフィックスQの1文字伸長処理の出力データ。
Claims (4)
- 複数の文字配列からなる集合をクエリーデータとし、夫々の前記文字配列より長い長さをもつ文字配列からなる集合をターゲットデータとして入力手段を介して入力し、
前記クエリーデータに属する各文字配列が、前記ターゲットデータ中の配列に部分配列として出現するか否か、部分配列として出現する回数、部分配列として出現する位置を算出する複数文字配列の一括検索方法において、
前記クエリーデータに属する全ての文字配列のサフィックスを辞書式順番にソートした第一インデクスデータと、前記ターゲットデータに属する全ての文字配列のサフィックスを辞書式順番にソートした第二インデクスデータとを記憶手段に記憶し、
同一の作業配列が複数のクエリー配列のサフィックスとして共有される事例のリストを前記第一インデクスの範囲とし、前記同一の作業配列がターゲット配列中に出現する全ての位置のリストを前記第二インデクスの範囲として、該第一、第二のインデクス範囲から両インデクス間の対応関係求め、
作業配列の長さを0から1文字ずつ伸長しながら両インデクス間の対応関係を求め、
作業配列の長さがクエリーデータの配列の長さに達するまで前記対応関係を求める処理を繰り返し、作業配列と全長にわたり一致する全てのクエリー配列とそれらのターゲット配列中の全ての出現位置との対応関係を両インデクス間の対応関係として求めることを特徴とする複数文字配列の一括検索方法。 - 請求項1に記載の複数文字配列の一括検索方法において、
2つの文字配列が予め指定した許容数以下の箇所の文字の置換や挿入や欠失により一致するとき、または他の任意の文字と一致する特殊文字が予め指定した許容回数以下だけ含まれるとき、それら2つの文字配列が近似的に一致するものとし、
前記クエリーデータに属する各文字配列と近似的に一致する配列が、前記ターゲットデータ中の配列に部分配列として出現するか否か、部分配列として出現する回数、部分配列として出現する位置を算出することを特徴とする複数文字配列の一括検索方法。 - 請求項1に記載の複数文字配列の一括検索方法において、
前記クエリーデータに属する全ての配列のサフィックス、または、ターゲットデータに属する全ての配列のサフィックスに対して、それらを辞書式順番にソートしたインデクスデータを前記記憶手段に記憶する代わりに、
それと情報論的に等価なバローズ・ホィーラー変換、サフィックス・トリー、または、コンプレスト・サフィックス・アレイを前記記憶手段に記憶することを特徴とする複数文字配列の一括検索方法。 - cDNA配列データ、ゲノム配列データ、および、遺伝子領域座標データを入力する入力処理部と、
入力された前記cDNA配列データをクエリー配列データとし、前記ゲノム配列データをターゲット配列データとし、前記クエリー配列データに属する全ての文字配列のサフィックスを辞書式順番にソートした第一インデクスデータと、前記ターゲット配列データに属する全ての文字配列のサフィックスを辞書式順番にソートした第二インデクスデータとを記憶装置に記憶し、
同一の作業配列が複数のクエリー配列のサフィックスとして共有される事例のリストを前記第一インデクスの範囲とし、前記同一の作業配列がターゲット配列中に出現する全ての位置のリストを第二インデクスの範囲とし、
これらのインデクス範囲の組により両インデクス間の対応関係を求め、作業配列の長さを0から1文字ずつ伸長しながら両インデクス間の対応関係を求め、
作業配列の長さがクエリー配列データの配列の長さに達するまで前記対応関係を求める処理を繰り返し、作業配列と全長にわたり一致する全てのクエリー配列とそれらのターゲット配列中の全ての出現位置との対応関係を一括して両インデクス間の対応関係として求めることにより、前記クエリー配列データに属する各文字配列が、前記ターゲット配列データ中の配列に部分配列として出現するか否か、部分配列として出現する回数、部分配列として出現する位置を算出して検索処理を行い、各クエリー配列に対するマッピング位置を計算するマッピング位置計算処理部と、
前記各クエリー配列のマッピング位置と前記遺伝子領域座標データを比較し、遺伝子領域と同じ染色体上でその開始位置から終了位置までの範囲内にマッピング位置が含まれるようなクエリー配列を、その遺伝子に属するクエリー配列であると判定する座標データ比較処理部と、
前記遺伝子に属するクエリー配列の数を数える配列カウント処理部と、
前記配列カウント処理部での処理結果を発現解析結果として出力する出力処理部とを有することを特徴とする検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007288007A JP5183155B2 (ja) | 2007-11-06 | 2007-11-06 | 大量配列の一括検索方法及び検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007288007A JP5183155B2 (ja) | 2007-11-06 | 2007-11-06 | 大量配列の一括検索方法及び検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009116559A JP2009116559A (ja) | 2009-05-28 |
JP5183155B2 true JP5183155B2 (ja) | 2013-04-17 |
Family
ID=40783653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007288007A Active JP5183155B2 (ja) | 2007-11-06 | 2007-11-06 | 大量配列の一括検索方法及び検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5183155B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298709A (zh) * | 2014-09-05 | 2015-01-21 | 上海中和软件有限公司 | 基于句间关联图的文本主题挖掘方法 |
CN105590038A (zh) * | 2014-10-22 | 2016-05-18 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种推断寡核苷酸在基因组上结合位点的方法和*** |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100996443B1 (ko) | 2010-04-13 | 2010-11-24 | (주)신테카바이오 | 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법 |
KR101355254B1 (ko) * | 2012-10-22 | 2014-01-28 | 인하대학교 산학협력단 | 접미사 트리의 병렬 생성을 위한 트라이 자료구조 기반 접미사 병렬 분할 방법 |
WO2014132497A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社日立ハイテクノロジーズ | データ解析装置、及びその方法 |
JP6198659B2 (ja) * | 2014-04-03 | 2017-09-20 | 株式会社日立ハイテクノロジーズ | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
CN104077361B (zh) * | 2014-06-09 | 2018-01-12 | 汉柏科技有限公司 | 一种用于大数据的排序方法及*** |
DE112016007194T5 (de) * | 2016-09-02 | 2019-07-04 | Hitachi High-Technologies Corporation | Verfahren zum Erzeugen eines Zeichenkettenwörterbuchs, Verfahren zum Suchen eines Zeichenkettenwörterbuchs und ein System zum Verarbeiten eines Zeichenkettenwörterbuchs |
WO2019226976A1 (en) * | 2018-05-25 | 2019-11-28 | New York Institute Of Technology | Method and system for use in direct sequencing of rna |
CN111916153B (zh) * | 2020-06-17 | 2022-06-17 | 电子科技大学 | 一种并行多重序列比对方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3344394B2 (ja) * | 1999-12-24 | 2002-11-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 配列の変換方法、構造解析方法、装置及び記録媒体 |
JP2003228571A (ja) * | 2001-11-28 | 2003-08-15 | Kyoji Umemura | 文字列の出現頻度の計数方法およびその方法を利用可能な装置 |
JP2003256433A (ja) * | 2002-02-27 | 2003-09-12 | Japan Science & Technology Corp | 遺伝子構造解析方法およびその装置 |
-
2007
- 2007-11-06 JP JP2007288007A patent/JP5183155B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298709A (zh) * | 2014-09-05 | 2015-01-21 | 上海中和软件有限公司 | 基于句间关联图的文本主题挖掘方法 |
CN105590038A (zh) * | 2014-10-22 | 2016-05-18 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种推断寡核苷酸在基因组上结合位点的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
JP2009116559A (ja) | 2009-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5183155B2 (ja) | 大量配列の一括検索方法及び検索システム | |
Giegerich et al. | Efficient implementation of lazy suffix trees | |
US10521441B2 (en) | System and method for approximate searching very large data | |
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
Deorowicz et al. | Genome compression: a novel approach for large collections | |
Kucherov et al. | Multiseed lossless filtration | |
US8788522B2 (en) | Pair character string retrieval system | |
WO2011073680A1 (en) | Improvements relating to hash tables | |
Procházka et al. | Compressing similar biological sequences using fm-index | |
US20170169159A1 (en) | Repetition identification | |
Zhang et al. | SMOTIF: efficient structured pattern and profile motif search | |
Kumar et al. | Efficient read alignment using burrows wheeler transform and wavelet tree | |
JP3370787B2 (ja) | 文字配列検索方法 | |
JP2003256433A (ja) | 遺伝子構造解析方法およびその装置 | |
KR100538451B1 (ko) | 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법 | |
Xylogiannopoulos | Exhaustive exact string matching: the analysis of the full human genome | |
Somayajulu | Index based multiple pattern matching algorithm using DNA sequence and pattern count | |
Hossen et al. | Performance evaluation of various DNA pattern matching algorithms using different genome datasets | |
Nicolas et al. | Finding and characterizing repeats in plant genomes | |
Mutakabbir et al. | Mining frequent pattern within a genetic sequence using unique pattern indexing and mapping techniques | |
Liu et al. | Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining | |
KR20190139227A (ko) | K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법 | |
Zhukovaа et al. | About the possibility of determining the prefix and suffix of a word by subwords of fixed length | |
Bhukya et al. | 2-Jump DNA Search Multiple Pattern Matching Algorithm | |
Lavanya et al. | Discovery of longest increasing subsequences and its variants using DNA operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130115 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5183155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |