JP7422367B2 - 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム - Google Patents
近似文字列照合方法及び該方法を実現するためのコンピュータプログラム Download PDFInfo
- Publication number
- JP7422367B2 JP7422367B2 JP2021194605A JP2021194605A JP7422367B2 JP 7422367 B2 JP7422367 B2 JP 7422367B2 JP 2021194605 A JP2021194605 A JP 2021194605A JP 2021194605 A JP2021194605 A JP 2021194605A JP 7422367 B2 JP7422367 B2 JP 7422367B2
- Authority
- JP
- Japan
- Prior art keywords
- key
- string
- character string
- predetermined
- computer program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 89
- 238000004590 computer program Methods 0.000 title claims description 36
- 238000004364 calculation method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 44
- 238000013507 mapping Methods 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 20
- 230000035772 mutation Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 10
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- BZSALXKCVOJCJJ-IPEMHBBOSA-N (4s)-4-[[(2s)-2-acetamido-3-methylbutanoyl]amino]-5-[[(2s)-1-[[(2s)-1-[[(2s,3r)-1-[[(2s)-1-[[(2s)-1-[[2-[[(2s)-1-amino-1-oxo-3-phenylpropan-2-yl]amino]-2-oxoethyl]amino]-5-(diaminomethylideneamino)-1-oxopentan-2-yl]amino]-1-oxopropan-2-yl]amino]-3-hydroxy Chemical compound CC(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCC)C(=O)N[C@@H](CCCC)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCN=C(N)N)C(=O)NCC(=O)N[C@H](C(N)=O)CC1=CC=CC=C1 BZSALXKCVOJCJJ-IPEMHBBOSA-N 0.000 description 4
- 108700010674 N-acetylVal-Nle(7,8)- allatotropin (5-13) Proteins 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
T=3,000,000,000×0.000001×30
=90,000(秒)
となる。つまり、ヒトゲノムの解析において、メインメモリへのランダムアクセスだけで、約9万秒(約25時間)かかることになる。このため、たとえ、高性能なプロセッサを備えたコンピュータを用いたとしても、メモリアクセス時間が制約となって、マッピング時間を短縮するには限界があった。
前記方法は、前記参照文字列に基づいて階層的インデックスを作成することと、前記クエリ文字列の少なくとも一部と一致する前記参照文字列における部分文字列を同定するために、前記階層的インデックスを参照して、前記参照文字列に対する前記クエリ文字列のマッピングを行うことと、前記マッピングにより同定される少なくとも1以上の前記部分文字列に基づいて、前記近似文字列を導出することと、を含む。
ここで、前記階層的インデックスを作成することは、前記参照文字列から所定長の各第1のキーを切り出すことと、切り出された前記各第1のキーについて、所定のハッシュ関数により該第1のキーに基づいて算出されるハッシュ値を割り当てた第1のキー配列を作成することと、作成された前記第1のキー配列を更新することと、更新された前記第1のキー配列を前記階層的インデックスとして出力することと、を含む。
また、前記第1のキー配列を更新することは、前記第1のキー配列における前記各第1のキーについて、前記参照文字列における該第1のキーの出現回数を同定することと、同定された前記第1のキーの前記出現回数に従って、該第1のキーに第1の追加キーを追加することにより新たな第1のキーを作成し、該新たな第1のキーに基づいて前記第1のキー配列を更新することと、を含む。
前記方法は、前記参照文字列から所定長の各第1のキーを切り出すことと、切り出された前記各第1のキーについて、所定のハッシュ関数により該第1のキーに基づいて算出されるハッシュ値を割り当てた第1のキー配列を作成することと、作成された前記第1のキー配列を更新することと、更新された前記第1のキー配列を前記階層的インデックスとして出力することと、を含む。
ここで、前記第1のキー配列を更新することは、前記第1のキー配列における前記各第1のキーについて、前記参照文字列における該第1のキーの出現開始位置及び出現回数を同定することと、同定された前記第1のキーの前記出現開始位置及び前記出現回数に従って、該第1のキーに第1の追加キーを追加することにより新たな第1のキーを作成し、該新たな第1のキーに基づいて前記第1のキー配列を更新することと、を含む。
前記方法は、前記参照文字列に基づく階層的インデックスを読み出すことと、前記クエリ文字列から所定のキー長を有する各キーを切り出して、キー配列を作成することと、前記クエリ文字列から切り出された前記各キーについて、前記所定のハッシュ関数により該キーに基づいて算出されるハッシュ値を割り当てたキー配列を作成することと、前記各キーについて、前記ハッシュ値に従って、所定のサンプリング間隔で、前記階層的インデックスを参照し、該キーの出現開始位置及び出現回数を同定することと、前記同定した出現回数が所定のしきい値を超えているか否かを判断することと、前記同定された前記出現回数が所定の許容値を超えていると判断される場合に、前記キーに対して前記クエリ文字列における該キーに続く少なくとも1以上の文字からなる追加キーを追加することにより新たなキーを作成することと、前記同定された前記出現回数が所定のしきい値を超えていないと判断される場合に、同定された現在の前記キーの出現開始位置及び該キーを出力することと、を含む。
そして、前記キーの前記出現開始位置及び前記出現回数を同定することは、前記同定された前記出現回数が所定のしきい値を超えていないと判断されるまで、現在の前記キーに新たな前記追加キーを順次に追加して、前記新たなキーを作成することを含む。
前記方法は、マッピングにより同定された一致文字列に基づく、被照合文字列と照合文字列とからなる文字列ペアを受信することと、前記文字列ペアに基づいて少なくとも1つの近似文字列を導出するために、所定のアラインメント処理を実行することと、
導出された前記少なくとも1つの近似文字列を出力することと、を含む。
そして、前記所定のアラインメント処理を実行することは、前記被照合文字列と前記照合文字列とに基づいて所定のアラインメント表を作成することと、前記アラインメント表の対角線上の要素を中心にした幅mを有する計算領域を設定することと、設定された前記計算領域における各要素について、変異度を算出することと、算出された前記変異度に基づいて、最大変異度を決定することと、決定された前記最大変異度に基づいて、前記少なくとも1つの近似文字列を導出することを含む。
そして、前記最大変異度が前記下限値を超えると判断されるまで、前記計算領域を拡幅することにより新たな計算領域を設定して前記変異度を算出することが繰り返され得る。
F(0,-1)+s(x1,y0)=Null
F(0,0)-d=0-2=-2
F(1,-1)-d=Null
であるから、
F(1,0)=-2
となる。
F(2,0)=F(1,0)-d=-4
となる。同様にして、
F(n,0)=-nd
F(0,n)=-nd
となるため、アラインメント表は図8Bに示すようになる。
F(0,0)+s(x1,y1)=0+2=2
F(0,1)-d=-2-2=-4
F(1,0)-d=-2-2=-4
であり、これにより、
F(1,1)=2
となり、アラインメント表は図8Cに示すようになる。
FLow=(文字列の長さ-m)×s …式2
ただし、s=2である。
で算出される。
FLow=(24-m)×s
=17×2
=34
となる。
(a)第1のパス:GGG<C>A<T>TC<AA>C-ATAA<G>TCG[G]CC
(b)第2のパス:GGG<C>A<T>TC<A>[A][C]ATAA<G>TCG[G]CC
(c)第3のパス:GGG<C>AT[T]C<A>[A][C]ATAA<G>TCG[G]CC
(d)第4のパス:GGG<C>AT[T]C[A]<AC>ATAA<G>TCG[G]CC
(e)第5のパス:GGG<C>A<T>TC<AA>C-ATAA<G>TCG[G]CC
(f)第6のパス:GGG<C>AT<T>C<A>[A][C]ATAA<G>TCG[G]CC
ただし、記号「< >」は、文字間への挿入を表し、記号「[ ]」は文字の置換を表し、記号「-」は文字の欠損を表すものとする。
なお、理解容易のため、上記の各パスに従う近似文字列を参照文字列との対比において図11A及び11Bに示している。
10…上位コンピュータ
20…下位コンピュータ
30…データベース
Claims (21)
- コンピューティングデバイスに、クエリ文字列に基づいて参照文字列における近似文字列を検索するための方法を実行させるためのコンピュータプログラムであって、
前記方法は、
前記参照文字列に基づいて階層的インデックスを作成することと、
前記クエリ文字列の少なくとも一部と一致する前記参照文字列における部分文字列を同定するために、前記階層的インデックスを参照して、前記参照文字列に対する前記クエリ文字列のマッピングを行うことと、
前記参照文字列における前記マッピングにより同定された前記部分文字列を含む前記部分文字列近傍の文字列である被照合文字列と、前記クエリ文字列における前記マッピングにより同定された前記部分文字列を含む前記部分文字列近傍の文字列である照合文字列と、に基づいて、前記被照合文字列と前記照合文字列とに近似する文字列を前記近似文字列として導出することと、を含み、
前記階層的インデックスを作成することは、
前記参照文字列から所定長の各第1のキーを切り出すことと、
切り出された前記各第1のキーについて、所定のハッシュ関数により該第1のキーに基づいて算出されるハッシュ値を割り当てた第1のキー配列を作成することと、
作成された前記第1のキー配列を更新することと、
更新された前記第1のキー配列を前記階層的インデックスとして出力することと、を含み、
前記第1のキー配列を更新することは、
前記第1のキー配列における前記各第1のキーについて、前記参照文字列における該第1のキーの出現回数を同定することと、
同定された前記第1のキーの前記出現回数に従って、該第1のキーに対して前記参照文字列における該第1のキーに続く少なくとも1以上の文字からなる第1の追加キーを追加することにより前記第1のキー配列を更新することと、を含む、
コンピュータプログラム。 - 前記第1のキー配列を作成することは、前記ハッシュ値に従って前記第1のキー配列における前記各第1のキーをソートすることを含む、
請求項1に記載のコンピュータプログラム。 - 前記第1のキー配列を更新することは、
前記同定した出現回数が所定の許容値を超えているか否かを判断することと、
前記同定された出現回数が前記所定の許容値を超えていると判断される場合に、前記第1のキーに対して前記参照文字列における該第1のキーに続く少なくとも1以上の文字からなる前記第1の追加キーを追加することにより新たな第1のキーを作成することと、
前記新たな第1のキーについて、前記参照文字列における該新たな第1のキーの出現回数を同定することと、を含む、
請求項1又は2に記載のコンピュータプログラム。 - 前記第1のキー配列を更新することは、前記第1の追加キーに従って前記第1のキー配列における前記新たな第1のキーをソートすることを更に含む、
請求項3に記載のコンピュータプログラム。 - 前記第1のキー配列を更新することは、前記同定された前記出現回数が所定の許容値を超えていないと判断されるまで、現在の前記第1のキーに新たな前記第1の追加キーを順次に追加することにより新たな前記第1のキーを作成することを含む、
請求項3又は4に記載のコンピュータプログラム。 - 前記第1のキー配列を前記階層的インデックスとして出力することは、
前記同定された前記出現回数が所定の許容値を超えていないと判断される場合に、現在の前記第1のキー配列を前記階層的インデックスとして出力することを含む、
請求項3から5のいずれか一項に記載のコンピュータプログラム。 - 前記マッピングを行うことは、
前記クエリ文字列から所定長の各第2のキーを切り出すことと、
前記クエリ文字列から切り出された前記各第2のキーについて、前記所定のハッシュ関数により該第2のキーに基づいて算出されるハッシュ値を割り当てた第2のキー配列を作成することと、
前記各第2のキーについて、前記ハッシュ値に従って、所定のサンプリング間隔で、前記階層的インデックスを参照し、該第2のキーの出現開始位置及び出現回数を同定することと、を含む、
請求項1から6のいずれか一項に記載のコンピュータプログラム。 - 前記第2のキーの前記出現開始位置及び前記出現回数を同定することは、
前記第2のキーの前記出現回数が前記所定の許容値を超えているか否かを判断することと、
前記第2のキーの前記出現回数が前記所定の許容値を超えていると判断される場合に、前記第2のキーに対して前記クエリ文字列における該第2のキーに続く少なくとも1以上の文字からなる第2の追加キーを追加することにより新たな第2のキーを作成することと、
前記第2のキーの前記出現回数が前記所定の許容値を超えていないと判断される場合に、同定された現在の前記第2のキーを前記部分文字列として出力するとともに該第2のキーの前記出現開始位置を出力することと、を含む、
請求項7に記載のコンピュータプログラム。 - 前記第2のキーの前記出現開始位置及び前記出現回数を同定することは、前記第2のキーの前記同定された前記出現回数が前記所定の許容値を超えていないと判断されるまで、現在の前記第2のキーに新たな前記第2の追加キーを順次に追加して、前記新たな第2のキーを作成することを更に含む、
請求項8に記載のコンピュータプログラム。 - 前記第2のキーの前記出現回数が前記所定の許容値を超えていると判断される場合に、該第2のキーの前記所定のサンプリング間隔を大きくする、
請求項8又は
9に記載のコンピュータプログラム。 - 前記近似文字列を導出することは、
前記マッピングにより同定された前記部分文字列に基づく、前記被照合文字列と前記照合文字列とからなる文字列ペアを作成することと、
前記文字列ペアに基づいて少なくとも1つの前記近似文字列を導出するために、所定のアラインメント処理を実行することと、
導出された前記少なくとも1つの近似文字列を出力することと、を含む、
請求項8から10のいずれか一項に記載のコンピュータプログラム。 - 前記所定のアラインメント処理を実行することは、
前記被照合文字列と前記照合文字列とに基づいて所定のアラインメント表を作成することと、
前記アラインメント表の対角線上の要素を中心にした幅mを有する計算領域を設定することと、
設定された前記計算領域における各要素について、変異度を算出することと、
算出された前記変異度に基づいて、最大変異度を決定することと、
決定された前記最大変異度に基づいて、前記少なくとも1つの近似文字列を導出することを含む、
請求項11に記載のコンピュータプログラム。 - 前記所定のアラインメント処理を実行することは、
前記最大変異度と所定の下限値とを比較して、前記最大変異度が前記所定の下限値を超えているかを判断することと、
前記最大変異度が前記所定の下限値を超えていないと判断される場合に、新たな計算領域を設定するために、前記計算領域の前記幅mを拡幅することと、
前記最大変異度が前記所定の下限値を超えていると判断される場合に、前記最大変異度を有する要素に基づいて、前記少なくとも1つの近似文字列を導出することと、を含み、
前記最大変異度が前記下限値を超えると判断されるまで、前記計算領域を拡幅することにより新たな計算領域を設定して前記変異度を算出することを繰り返す、
請求項12に記載のコンピュータプログラム。 - 前記所定の下限値は、所定の要素列にm個の連続したギャップがあり、それ以外の部分は一致したと仮定した場合の変異度の値である、
請求項13に記載のコンピュータプログラム。 - 前記部分文字列に対して前記参照文字列における対応する所定の文字列を追加することにより前記被照合文字列を作成することと、
前記部分文字列に対して前記クエリ文字列における対応する所定の文字列を追加することにより前記照合文字列を作成することと、を更に含む、
請求項11から14のいずれか一項に記載のコンピュータプログラム。 - コンピューティングデバイスに、クエリ文字列に基づいて参照文字列を探索するための階層的インデックスを作成する方法を実行させるためのコンピュータプログラムであって、
前記方法は、
前記参照文字列から所定長の各第1のキーを切り出すことと、
切り出された前記各第1のキーについて、所定のハッシュ関数により該第1のキーに基づいて算出されるハッシュ値を割り当てた第1のキー配列を作成することと、
作成された前記第1のキー配列を更新することと、
更新された前記第1のキー配列を前記階層的インデックスとして出力することと、を含み、
前記第1のキー配列を更新することは、
前記第1のキー配列における前記各第1のキーについて、前記参照文字列における該第1のキーの出現開始位置及び出現回数を同定することと、
同定された前記第1のキーの前記出現開始位置及び前記出現回数に従って、該第1のキーに対して前記参照文字列における該第1のキーに続く少なくとも1以上の文字からなる第1の追加キーを追加することにより前記第1のキー配列を更新することと、を含む、
コンピュータプログラム。 - コンピューティングデバイスに、参照文字列に対してクエリ文字列のマッピングを行う方法を実行させるためのコンピュータプログラムであって、
前記方法は、
前記参照文字列から切り出される各第1のキー、及び前記各第1のキーについて、該第1のキーに基づいて所定のハッシュ関数により算出されるハッシュ値が割り当てられた第1のキー配列であって、前記参照文字列における前記第1のキーの出現開始位置及び出現回数に従って前記第1のキーに追加キーが追加された該第1のキー配列からなる階層的インデックスを読み出すことと、
前記クエリ文字列から所定のキー長を有する各第2のキーを切り出すことと、
前記クエリ文字列から切り出された前記各第2のキーについて、所定のハッシュ関数により該第2のキーに基づいて算出されるハッシュ値を割り当てた第2のキー配列を作成することと、
前記各第2のキーについて、前記ハッシュ値に従って、所定のサンプリング間隔で、前記階層的インデックスを参照し、前記第1のキー配列における前記第1のキーとの比較により、該第2のキーと一致する前記第1のキーの前記参照文字列における出現開始位置及び出現回数を同定することと、
前記同定した出現回数が所定の許容値を超えているか否かを判断することと、
前記同定された前記出現回数が所定の許容値を超えていると判断される場合に、前記第2のキーに対して前記クエリ文字列における該第2のキーに続く少なくとも1以上の文字からなる追加キーを追加することにより新たな第2のキーを作成することと、
前記同定された前記出現回数が所定の許容値を超えていないと判断される場合に、同定された現在の前記第2のキーと一致する前記第1のキーの前記参照文字列における出現開始位置及び該第2のキーを出力することと、を含み、
前記第2のキーと一致する前記第1のキーの前記参照文字列における前記出現開始位置及び前記出現回数を同定することは、前記同定された前記出現回数が所定の許容値を超えていないと判断されるまで、現在の前記第2のキーに新たな前記追加キーを順次に追加して、前記新たな第2のキーを作成することを含む、
コンピュータプログラム - 前記方法は、前記同定された前記出現回数が所定の許容値を超えていると判断される場合に、前記第2のキーの前記所定のサンプリング間隔を大きくするように構成される、
請求項17に記載のコンピュータプログラム。 - コンピューティングデバイスに、参照文字列における部分文字列とクエリ文字列との間の変異を所定のアラインメント処理により同定する方法を実行させるためのコンピュータプログラムであって、
前記方法は、
前記参照文字列に対する前記クエリ文字列のマッピングを行うことと、
前記参照文字列における前記マッピングにより同定された前記部分文字列を含む前記部分文字列近傍の文字列である被照合文字列と、前記クエリ文字列における前記マッピングにより同定された前記部分文字列を含む前記部分文字列近傍の文字列である照合文字列と、からなる文字列ペアを作成することと、
前記文字列ペアに基づいて、前記被照合文字列と前記照合文字列とに近似する文字列を少なくとも1つの近似文字列として導出するために、所定のアラインメント処理を実行することと、
導出された前記少なくとも1つの近似文字列を出力することと、を含み、
前記所定のアラインメント処理を実行することは、
前記被照合文字列と前記照合文字列とに基づいて所定のアラインメント表を作成することと、
前記アラインメント表の対角線上の要素を中心にした幅mを有する計算領域を設定することと、
設定された前記計算領域における各要素について、変異度を算出することと、
算出された前記変異度に基づいて、最大変異度を決定することと、
決定された前記最大変異度に基づいて、前記少なくとも1つの近似文字列を導出することを含む、
コンピュータプログラム。 - 前記所定のアラインメント処理を実行することは、
前記最大変異度と所定の下限値とを比較して、前記最大変異度が前記所定の下限値を超えているかを判断することと、
前記最大変異度が前記所定の下限値を超えていないと判断される場合に、新たな計算領域を設定するために、前記計算領域の前記幅mを拡幅することと、
前記最大変異度が前記所定の下限値を超えていると判断される場合に、前記最大変異度を有する要素に基づいて、前記少なくとも1つの近似文字列を導出することと、を含み、
前記最大変異度が前記下限値を超えると判断されるまで、前記計算領域を拡幅することにより新たな計算領域を設定して前記変異度を算出することを繰り返す、
請求項19に記載のコンピュータプログラム。 - 前記所定のアラインメント処理を実行することは、所定の要素列にm個の連続したギャップがあり、それ以外の部分は一致したと仮定した場合の変異度の値を前記所定の下限値として設定することを更に含む、
請求項20に記載のコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021194605A JP7422367B2 (ja) | 2021-11-30 | 2021-11-30 | 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021194605A JP7422367B2 (ja) | 2021-11-30 | 2021-11-30 | 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023080989A JP2023080989A (ja) | 2023-06-09 |
JP7422367B2 true JP7422367B2 (ja) | 2024-01-26 |
Family
ID=86656333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021194605A Active JP7422367B2 (ja) | 2021-11-30 | 2021-11-30 | 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7422367B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017138A1 (fr) | 2001-08-21 | 2003-02-27 | Institute Of Medicinal Molecular Design. Inc. | Procede de lecture d'informations d'une sequence biologique et procede de stockage |
US20120239706A1 (en) | 2011-03-18 | 2012-09-20 | Los Alamos National Security, Llc | Computer-facilitated parallel information alignment and analysis |
US20210201163A1 (en) | 2019-12-28 | 2021-07-01 | Intel Corporation | Genome Sequence Alignment System and Method |
-
2021
- 2021-11-30 JP JP2021194605A patent/JP7422367B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003017138A1 (fr) | 2001-08-21 | 2003-02-27 | Institute Of Medicinal Molecular Design. Inc. | Procede de lecture d'informations d'une sequence biologique et procede de stockage |
US20120239706A1 (en) | 2011-03-18 | 2012-09-20 | Los Alamos National Security, Llc | Computer-facilitated parallel information alignment and analysis |
US20210201163A1 (en) | 2019-12-28 | 2021-07-01 | Intel Corporation | Genome Sequence Alignment System and Method |
Also Published As
Publication number | Publication date |
---|---|
JP2023080989A (ja) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Geniehd: Efficient dna pattern matching accelerator using hyperdimensional computing | |
JP3672242B2 (ja) | パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体 | |
US10521441B2 (en) | System and method for approximate searching very large data | |
Drew et al. | Polymorphic malware detection using sequence classification methods | |
Mohammed et al. | Glove word embedding and DBSCAN algorithms for semantic document clustering | |
Thoma et al. | Discriminative frequent subgraph mining with optimality guarantees | |
US11062793B2 (en) | Systems and methods for aligning sequences to graph references | |
JP5183155B2 (ja) | 大量配列の一括検索方法及び検索システム | |
Vinga et al. | Pattern matching through Chaos Game Representation: bridging numerical and discrete data structures for biological sequence analysis | |
CN114420215B (zh) | 基于生成树的大规模生物数据聚类方法及*** | |
US20220005546A1 (en) | Non-redundant gene set clustering method and system, and electronic device | |
Rani et al. | Cluster analysis method for multiple sequence alignment | |
Zhang et al. | Unsupervised entity resolution with blocking and graph algorithms | |
Hakak et al. | Partition-based pattern matching approach for efficient retrieval of Arabic text | |
US8965935B2 (en) | Sequence matching algorithm | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
JP7422367B2 (ja) | 近似文字列照合方法及び該方法を実現するためのコンピュータプログラム | |
Loukides et al. | Bidirectional string anchors for improved text indexing and top-$ k $ similarity search | |
US20130041593A1 (en) | Method for fast and accurate alignment of sequences | |
de Armas et al. | K-mer Mapping and de Bruijn graphs: the case for velvet fragment assembly | |
US10867134B2 (en) | Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary | |
Yang et al. | Improving regular-expression matching on strings using negative factors | |
CN110111837B (zh) | 基于两阶段结构比对的蛋白质相似性的搜索方法及*** | |
Xylogiannopoulos | Exhaustive exact string matching: the analysis of the full human genome | |
Li et al. | Seeding with minimized subsequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220818 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7422367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |