JPH07319924A

JPH07319924A - 手書き電子文書のインデックス付けおよび探索方法

Info

Publication number: JPH07319924A
Application number: JP7124120A
Authority: JP
Inventors: Baabara Danieru; バーバラダニエル; Arefu Waritsudo; アレフワリッド
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-05-24
Filing date: 1995-05-23
Publication date: 1995-12-08
Also published as: US5553284A

Abstract

(57)【要約】【目的】ＨＭＭによってモデル化された複数の手書き
の電子文書の検索の高速化を図るためのインデックス付
け方法と探索方法を提供し、かつインデックス付けに必
要な時間とスペースを削減する方法を提供することにあ
る。【構成】本発明のインデックス付け方法は、ｎ個のシ
ンボルを含み、シーケンス長Ｔを有するＨＭＭによって
モデル化された文書に対して、(1)０からＴ−１レベル
の各レベルは最小確率値を有するインデックスを確立す
るステップと、(2)各ノードに対して、格納されている
シンボルが文書の出力信号を表す確率を決定するステッ
プと、(3)決定された確率と、そのレベルでの最小確率
値とを比較するステップと、(4)文書へのポインタをＴ
レベルのノードのポインタリストに追加するステップと
を有しており、それぞれの文書に対してこれらのステッ
プを繰り返すことによってインデックス付けが実現され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベース中の文書
を探索する方法一般に関し、特に、手書きの電子文書を
インデックス付けし、探索するための方法に関する。

【０００２】

【従来の技術】コンピュータにおいて、ペン型インター
フェースの導入とともに、電子絵画および手書きの文書
が普通に用いられるようになってきている。最近の製品
においてキーボードは、全てのデータ入力が実現できる
ペンによっておきかえられている。

【０００３】Ｄ．ＬｏｐｒｅｓｔｉおよびＡ.Ｔｏｍｋ
ｉｎｓは、論文「絵文字名(Pictrographic Naming)」、
ＩＮＴＥＲＣＨＩ、1993年４月、補会報（絵文字名(pic
tographic name)の使用に関する教示について援用）に
おいて、文書名の許容範囲を、任意の手書きの絵を含む
ように拡張することを提案している。文書を作成したと
き、または初めて記憶媒体に記憶するときに、作者は、
文字による名前を打つ代わりに、絵文字名を描く。後に
文書の１つを検索するときには、絵文字名をメニューま
たは「ブラウザ」に表示し、使用者は所望の絵文字名を
選択する。データベースが約８から１２以上の文書を含
むときには、検索中に全ての絵文字名を表示することは
現実的ではなくなる。

【０００４】後で文書の１つを検索するための別の方法
では、ペン型のインターフェースを用いて絵文字名をも
う１度描く。手書きの絵は毎回全く同じには描かれない
ので、任意の手書きの絵（すなわち入力シーケンス）が
どの文書（すなわち出力シーケンス）を表しているかを
決定するためには、パターン認識技術が必要となる。

【０００５】手書きの絵の使用によって文書を識別する
ために提案された技術の１つは、隠れマルコフモデル
（ＨＭＭ：Hidden Markov Model）を用いて入力シーケ
ンスに最も似た絵文字名を有する文書候補のリストを与
えるものである。このリストから、ペンを用いて１つの
ファイルが選択される。ＨＭＭによれば、絵および手書
き文書マッチングのための強力なツールが提供される。
数人の研究者が、ＨＭＭを用いて手書きおよび手書きさ
れた文書をモデル化してきた。

【０００６】ＲａｂｉｎｅｒＬ．Ｒ．の「音声認識に
おける隠れマルコフモデルおよび選ばれたアプリケーシ
ョンに関するチュートリアル(A Tutorial on Hidden Ma
rkovModels and selected Applications in Speech Rec
ognition)」ＩＥＥＥ会報、77(2)：257−285、1989年２
月を、ＨＭＭのパターン認識への使用に関する教示に関
して援用する。

【０００７】形式的には、ＨＭＭは、観察され得ない
（隠れた）推計的(stochastic)プロセスであって観察さ
れたシンボルのシーケンスを生成する１群の推計的プロ
セスによって明らかにされるような推計的プロセスを含
んだ２重に推計的なプロセスである。数学的には、ＨＭ
Ｍは集合＜σ、Ｑ、ａ、ｂ＞である。

【０００８】上記式において、１）σは出力シンボルの（有限の）アルファベット文字
である。シンボルは、典型的には文字の部分集合であ
る。

【０００９】２）Ｑは状態の集合であり、Ｎ個の状態モ
デルに対し、Ｑ＝｛０、．．．、Ｎ−１｝である。

【００１０】３）ａは状態間の遷移を支配する確率分布
である。状態ｉからｊへ遷移する確率は、ａ_ijによって
表される。遷移確率ａ_ijは、０から１の間であって、下
記の式（１）を満たす実数である。

【００１１】

【数１】

【００１２】この分布は状態の初期分布すなわち最初の
状態をｉとしたとき、確率ａ_iを含む。

【００１３】４）ｂは、各状態における出力シンボルの
分布を支配する出力確率分布ｂ_i（ｓ）である。すなわ
ち、ｂ_i（ｓ）は状態ｉの間にシンボルｓ∈σを生成す
る確率である。これら確率は、以下の法則に従う。

【００１４】

【数２】

【００１５】

【数３】

【００１６】通常、ＨＭＭが用いられる場合、遷移確率
（ａ）および状態集合（Ｑ）は、モデルを１連のサンプ
ルに最適に適合させることによって計算される（これは
モデルを「訓練すること(training)」として知られてい
る）。各サンプルは、出力シンボル（ポイント）シーケ
ンスからなり、この出力シンボル（ポイント）シーケン
スを用いることによってモデルのパラメータが調整され
得る。しかし、手書き文書認識のようなアプリケーショ
ンの場合、モデルは１つのサンプル（インデックスされ
る文書の出力シンボルのシーケンス）を用いて記述され
る。よって非常にしばしば、モデルの構造は、それを訓
練するために用いるサンプルの欠如を補うために「固
定」されている。すなわち、モデルが一旦インデックス
に対して選択されると、そのモデルは前記インデックス
に対して常に用いられる。このモデルはインデックスの
生成後に動的に変化されることはない。例えば、「左か
ら右(left-to-right)」ＨＭＭを用いることが、可能で
ある。この「左から右」ＨＭＭとは、現状態に留まるこ
と、またはシーケンス中の次の状態にジャンプすること
のみが可能なモデルのことである。

【００１７】

【発明が解決しようとする課題】手書き文書問題に関し
ては、データベース中の各絵または文書は、ＨＭＭによ
ってモデル化される。従って、入力パターンが与えられ
たとき、認識プロセスは、データベース中の各ＨＭＭを
実行しかつ最も高い確率で入力パターンを生成するＨＭ
Ｍを選択することを包含する。これは非常に時間を浪費
する。ＨＭＭを用いることの主な障害は、実行速度、特
に大型データベースの場合における実行速度である。１
つの文書を検索するためにデータベース中の各文書に対
してリアルタイムにＨＭＭを実行することは、１文書の
検索プロセスにおいて容認できない遅れをもたらし、こ
の方法による絵文字名の使用を非実用的なものにする。

【００１８】本発明は、複数の電子的に手書きされた文
書をインデックス付けするための方法に関する。

【００１９】本発明はこのような現状に鑑みてなされた
ものであり、その目的とするところは、ＨＭＭによって
モデル化された複数の手書きの電子文書の検索の高速化
を図るためにインデックス付けし、探索する方法を提供
することにある。

【００２０】本発明の他の目的は、インデックス付けに
必要な時間を削減可能な、複数の手書きの電子文書をイ
ンデックス付けする方法を提供することにある。

【００２１】本発明のさらに他の目的は、インデックス
に必要な格納スペースを削減可能な、複数の手書きの電
子文書にインデックス付けする方法を提供することにあ
る。

【００２２】

【課題を解決するための手段】本発明による複数の手書
き電子文書のインデックス付け方法は、該複数の手書き
電子文書のそれぞれは出力シーケンス中に順序づけられ
た複数の出力シンボルを含み、該複数の手書き電子文書
のそれぞれは、対応する隠れマルコフモデル（Hidden M
arkov Model: ＨＭＭ）によってモデル化され、該隠れ
マルコフモデルはｎ個のシンボルを含む共通アルファベ
ットおよびＴ個のシンボルの共通出力シーケンス長を有
しており、ここでｎおよびＴは整数であり、該方法は、（ａ）Ｔ個のレベルを有するインデックスを確立するス
テップであって、該レベルのうちのゼロとＴ−１との間
のレベルは最小確率値をそれぞれ有しており、該レベル
のそれぞれは少なくとも１つのノードを有しているステ
ップと、（ｂ）該インデックスの該レベルの１つにおける各ノー
ドに対して、（１）各該ＨＭＭを該１つの文書に用い
て、該ノード内に格納されているシンボルが該１つの文
書内の対応する出力信号を表す確率を決定するステップ
と、（２）ステップ（ｂ）（１）で決定された該確率が
該１つのレベルの最小確率値を超え、次のレベルが１番
目のレベルとＴ−１番目のレベルとの間にある場合、該
インデックスの該次のレベルにおいてノードを付加する
ステップと、（３）該ノードがステップ（ｂ）（２）で
付加された場合、該次のレベルにおいて該付加されたノ
ードに対してステップ（ｂ）を実行するステップと、
（４）該次のレベルがＴ番目のレベルであり、ステップ
（ｂ）（１）で決定された該確率が該Ｔ−１番目のレベ
ルの該最小確率値よりも大である場合、該インデックス
の該Ｔ番目のレベルにおけるノードに格納されているポ
インタのリストに、該１つの文書へのポインタを付加す
るステップと、を行うことによって該文書の１つに該シ
ンボルをインデックス付けするステップと、（ｃ）該１つの文書以外の該複数の文書の各々にステッ
プ（ｂ）を繰り返すステップと、を包含しており、その
ことにより上記目的が達成される。

【００２３】本発明による別の複数の手書き電子文書の
インデックス付け方法は、各手書きの電子文書が出力シ
ーケンス中に順序づけられた複数の出力シンボルを含
み、各文書が隠れマルコフモデル（Hidden Markov Mode
l: ＨＭＭ）によってモデル化され、該隠れマルコフモ
デルはｎ個の出力シンボルを含む共通アルファベットお
よびＴ個のシンボルの共通出力シーケンス長を有してお
り、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、該ゼロ番目のレベル
とＴ−１番目のレベルとの間の各ノードはｎ個のポイン
タを有し、それぞれは異なる出力シンボルに対応し、か
つ、各ノードの異なるサブツリーを識別し、該ゼロ番目
のレベルと該Ｔ−１番目のレベルとの間の該ポインタは
ポインタのシーケンスを形成し、各該ポインタのシーケ
ンスは該ルートノードから各々異なる該リーフノードの
１つまで続いている、情報ツリーを確立するステップ
と、（ｂ）該リーフノードの１つにおける該複数の文書の部
分集合を識別するポインタの各リストを格納するステッ
プであって、（１）文書に対して各々ＨＭＭを用いて、
該ルートノードから該１つのリーフノードまで続く各該
ポインタのシーケンスが該文書の１つの該各出力シーケ
ンスを表す確率を該１つのリーフノードに対して決定す
るステップと、（２）該確率がしきい値よりも大である
場合、該１つのリーフノードの該ポインタのリストに、
該１つの文書へのポインタを付加するステップと、
（３）各該複数の文書のそれぞれに対してステップ
（１）および（２）を繰り返すステップと、を含むステ
ップと、（ｃ）該１つのリーフノード以外の各該リーフノードに
対してステップ（ｂ）を繰り返すステップと、を包含し
ておりそのことにより上記目的が達成される。

【００２４】また、ゼロとＴ−１の間の各レベルは最小
確率値を有し、ステップ（ｂ）（１）は、（ｉ）前記ルートノードからｊ番目のノードに続く前記
ポインタのシーケンスの部分集合が、前記１つの文書に
おける初めのｊ＋１個のシンボルを表す確率を決定する
ステップと（ここでｊは０とＴ−１との間の整数）、（ｉｉ）ｊ−１番目のレベルに対してステップ（ｉ）で
決定された前記確率が該ｊ−１番目のレベルの各該最小
確率値を超える間、１とＴ−１との間のｊの各値に対し
てステップ（ｉ）を繰り返すステップと、を包含してい
てもよい。

【００２５】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル（Hidden Markov
Model: ＨＭＭ）によってモデル化され、該隠れマルコ
フモデルはｎ個の出力シンボルを含む共通アルファベッ
トおよびＴ個のシンボルの共通出力シーケンス長を有し
ており、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを表し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
のツリーの各レベルは異なる最小確率値を有し、該ゼロ
番目のレベルと該Ｔ−１番目のレベルとの間の各ノード
はｎ個のポインタを有し、それぞれは該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
Ｔ−１番目との間のレベルのポインタは出力シンボルの
シーケンスを表すポインタのシーケンスを形成し、各該
ポインタのシーケンスは該ルートノードから各々異なる
該リーフノードの１つに続き、各リーフノードは異なる
出力シンボルのシーケンスと関連づけられている、情報
ツリーを確立するステップと、（ｂ）該文書の１つに対して、該ツリーに情報を格納す
るステップであり、該ステップは、（１）該レベルの１
つの該ノードの各部分集合に対して、（ｉ）該ルートノードから該１つのノードへ続く該ポイ
ンタのシーケンスの一つのサブシーケンスが該１つの文
書において該出力シンボルの対応する部分集合を表す確
率を決定するステップと、（ｉｉ）ステップ（ｂ）（１）（ｉ）で決定された該確
率が該１つのレベルの該最小確率値を超え、かつ、次の
レベルが該１番目のレベルと該Ｔ−１番目のレベルとの
間にある場合、該次のレベルにおけるノードに対してス
テップ（ｂ）を呼び出すステップと、（ｉｉｉ）該次のレベルが該Ｔ番目のレベルであり、か
つ、該確率が該しきい値よりも大である場合、該ポイン
タのシーケンスの１つと関連づけられた該リーフノード
の該ポインタのリストに、該１つの文書へのポインタを
付加するステップと、を含むステップと、（ｃ）該１つの文書以外の該複数の文書の各々に対して
ステップ（ｂ）を繰り返すステップと、を包含してお
り、そのことにより上記目的が達成される。

【００２６】好ましくは、前記ステップ（ｂ）（１）
は、（ｉｖ）前記確率が前記レベルのうちの１つのレベルの
前記各最小確率値よりも小さい場合、前記ステップ
（ｂ）（２）の繰り返しを中断するステップをさらに包
含している。

【００２７】好ましくは、前記方法は、（ｄ）Ｔ個の入力シンボルの集合を与えるステップと、（ｅ）該Ｔ個の入力シンボルに対応するポインタのシー
ケンスの１つを選択するステップと、（ｆ）探索によって見いだされる際に、該選択されたポ
インタのシーケンスが続く前記リーフノードの前記リス
トにおける前記複数の文書の部分集合を識別するステッ
プと、をさらに包含している。

【００２８】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル（Hidden Markov
Model: ＨＭＭ）によってモデル化され、該隠れマルコ
フモデルはｎ個の出力シンボルを含む共通アルファベッ
トおよびＴ個のシンボルの共通出力シーケンス長を有し
ており、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードであり、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
の各レベルは異なる最小確率値を有し、該ゼロ番目のレ
ベルと該Ｔ−１番目のレベルとの間の各ノードはｎ個の
ポインタを有し、それぞれはアルファベット内の各々異
なるシンボルと関連づけられ、かつ、該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
Ｔ−１番目との間のレベルのポインタは、出力シンボル
のシーケンスを表すポインタのシーケンスを形成し、各
該ポインタのシーケンスは該ルートノードから各々異な
る該リーフノードの１つに続き、各リーフノードは出力
シンボルの各々異なるシーケンスと関連づけられてい
る、情報ツリーを確立するステップと、（ｂ）プロシージャを実行するステップであり、該ステ
ップは、（１）該レベルの１つの該ノードの各々の部分
集合の１つに対して、（ｉ）該ルートノードからある１つのノードへ続く該ポ
インタのシーケンスの１つ内の該ポインタの１つが該文
書の１つのあるレベルにおける該出力シンボルを表す確
率を決定するステップと、（ｉｉ）ステップ（ｂ）（１）（ｉ）で決定された確率
が該１つのレベルの該最小確率値を超え、かつ、次のレ
ベルが１番目のレベルと該Ｔ−１番目のレベルとの間に
ある場合、該次のレベルにおけるノードに対して該プロ
シージャを実行するステップと、（ｉｉｉ）該次のレベルがＴ番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタのシーケ
ンスの該１つと関連づけられた該リーフノードの該ポイ
ンタのリストに、該１つの文書へのポインタを付加する
ステップと、を行うことを含むステップと、（ｃ）該１つの文書以外の各該複数の文書に対してステ
ップ（ｂ）を繰り返すステップと、を包含しておりその
ことにより上記目的が達成される。

【００２９】好ましくは、前記ステップ（ｂ）（１）
は、（ｉｖ）前記確率が前記レベルのうちの一つの前記各最
小確率値よりも小である場合、前記一つのノードがルー
トノードであるサブツリー内にあるどのノードに対して
も前記ステップ（ｂ）（２）の繰り返しを中断するステ
ップをさらに包含している。

【００３０】好ましくは、前記方法は、（ｄ）Ｔ個の入力シンボルの集合を与えるステップと、（ｅ）該Ｔ個の入力シンボルに対応するポインタのシー
ケンスのうちの１つを選択するステップと、（ｆ）該選択されたポインタのシーケンスが続く該リー
フノードに格納された該ポインタのリストを取り出すス
テップと、（ｇ）探索によって見いだされる際に、該取り出された
リストにおける該ポインタが指す前記複数の文書の部分
集合を識別するステップと、をさらに包含している。

【００３１】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル（Hidden Markov
Model: ＨＭＭ）によってモデル化され、該隠れマルコ
フモデルはｎ個の出力シンボルを含む共通アルファベッ
トおよびＴ個のシンボルの共通出力シーケンス長を有し
ており、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルと該Ｔ−１番目のレベルとの間の各ノードはｎ個
のポインタを有し、各ポインタは各該ノードの異なるサ
ブツリーを識別し、該Ｔ番目のレベルにおける各該ノー
ドは各文書を識別するポインタの各リストを有してい
る、情報ツリーを確立するステップと、（ｂ）各該レベルに対してしきい値を確立するステップ
と、（ｃ）該文書の一つに対する該ＨＭＭが、アルファベッ
トのｋ番目の出力シンボルを該１つの文書のｊ番目の出
力シンボルを表すものとして識別する確率を計算するス
テップと（ここで、ｋは０とｎ−１との間の整数、ｊは
０とＴ−１との間の整数）、（ｄ）ステップ（ｃ）で計算された該確率が該ｊ番目の
レベルの該しきい値よりも大である場合、該ｊ番目のレ
ベルにおける該ノードの１つのｋ番目のポインタを該１
つのノードの該サブツリーの１つを指すように設定し、
該１つのサブツリーは該Ｔ番目のレベルにおけるノード
の部分集合を含むステップと、（ｅ）ｊを１でインクリメントするステップと、（ｆ）（１）ｊがＴ未満であり、かつ、（２）ステップ
（ｃ）で計算される該確率が該ｊ番目のレベルの該しき
い値よりも大である間、各レベルｊに対してステップ
（ｃ）から（ｅ）を繰り返し、それによってポインタの
シーケンスを形成するステップと、（ｇ）ｋの各値に対してステップ（ｃ）〜（ｆ）を繰り
返すステップと、（ｈ）該１つの文書において通常１からＴ−１まで番号
を付けられた出力信号の各々をポインタのシーケンスが
識別する確率が該Ｔ番目のレベルの該しきい値よりも大
である場合、該Ｔ番目のレベルにおける該リストの一つ
の中の文書を識別するステップと、（ｉ）該複数の文書の各々に対してステップ（ｃ）〜
（ｇ）を繰り返すステップと、を本願しておりそのこと
により上記目的が達成される。

【００３２】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル（Hidden Markov
Model: ＨＭＭ）によってモデル化され、該隠れマルコ
フモデルはｎ個の出力シンボルを含む共通アルファベッ
トおよびＴ個のシンボルの共通出力シーケンス長を有し
ており、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
の各レベルは最小確率値を有する、該情報ツリーを確立
するステップと、（ｂ）各々異なる数のポインタを該ゼロ番目のレベルと
該Ｔ−１番目のレベルの間の各ノードに付加するステッ
プであって、該ポインタの数は０とｎの間であり、各ポ
インタは該ツリーの次のレベルにおいて各々異なるノー
ドを識別し、該ゼロ番目のレベルと該Ｔ−１番目のレベ
ルの間のポインタはシンボルのシーケンスを表すポイン
タのシーケンスを形成し、各ポインタのシーケンスは該
ルートノードから各々異なる該リーフノードの１つに続
き、各リーフノードは各々異なるシンボルのシーケンス
と関連づけられているステップであり、（１）該レベル
の１つにおける該ノードの各々に対して、（ｉ）該ルートノードから該ノードへ続くポインタのシ
ーケンスの１つの部分集合が該文書の１つにおいて該出
力シンボルの部分集合を表す確率を決定するステップ
と、（ｉｉ）ステップ（ｂ）（１）（ｉ）において決定され
た確率が該１つのレベルの該最小確率値を超え、次のレ
ベルが該１番目のレベルと該Ｔ−１番目のレベルとの間
にある場合、該次のレベルにおいてノードを付加するス
テップと、（ｉｉｉ）該ノードが付加された場合、該次のレベルに
おいて付加されたノードに対してプロシージャを実行す
るステップと、（ｉｖ）該次のレベルが該Ｔ番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタの該１つ
のシーケンスと関連づけられた該リーフノードのポイン
タの該リストにおいて該１つの文書にポインタを付加す
るステップを行うステップと、（ｃ）該１つの文書以外の各該複数の文書に対してステ
ップ（ｂ）を繰り返すステップと、を包含しておりその
ことにより上記目的が達成される。

【００３３】本発明による複数の手書き電子文書のイン
デックス付けおよび探索方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、それぞれが隠れマルコフモデル（Hidden Marko
v Model: ＨＭＭ）によってモデル化され、該隠れマル
コフモデルはｎ個のシンボルを含む共通アルファベット
およびＴ個のシンボルの共通出力シーケンス長を有して
おり、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
個のレベルを有する情報ツリーであって、該レベルは通
常ゼロ番目からＴ番目まで番号を付けられ、該ゼロ番目
のレベルと該Ｔ−１番目のレベルとの間の各ノードはｎ
個のポインタを有し、各ポインタは各該ノードの異なる
サブツリーを識別し、該Ｔ番目のレベルにおける各該ノ
ードは各文書を識別するポインタの各リストを有してい
る、該情報ツリーを確立するステップと、（ｂ）各レベルに対してしきい値をそれぞれ確立するス
テップと、（ｃ）該文書の１つに対する該ＨＭＭがアルファベット
のｋ番目のシンボルを、該１つの文書のｊ番目の出力シ
ンボルを表すものとして識別する確率を計算するステッ
プと（ここでｋは０とｎ−１との間の整数、ｊは０とＴ
−１との間の整数）、（ｄ）ステップ（ｃ）において計算された確率が該ｊ番
目のレベルの該しきい値よりも大である場合、該ｊ番目
のレベルにおける該ノードの１つのｋ番目のポインタを
該１つのノードの該サブツリーの１つを指すように設定
し、該１つのサブツリーは該Ｔ番目のレベルにおけるノ
ードの部分集合を含むステップと、（ｅ）ｊを１でインクリメントするステップと、（ｆ）（１）ｊがＴ未満であり、（２）ステップ（ｃ）
で計算される該確率が該ｊ番目のレベルの該しきい値よ
りも大である場合、各レベルｊに対してステップ（ｃ）
から（ｅ）を繰り返し、それによってポインタのシーケ
ンスを形成するステップと、（ｇ）ｋの各値に対してステップ（ｃ）〜（ｆ）を繰り
返すステップと、（ｈ）該１つの文書における通常１番目からＴ−１番目
まで番号を付けられた各出力信号を識別するポインタの
シーケンスの確率が該Ｔ番目のレベルの該しきい値より
も大である場合、該Ｔ番目のレベルにおける該リストの
１つの中の文書を識別するステップと、（ｉ）該複数の文書の各々に対してステップ（ｃ）〜
（ｇ）を繰り返すステップと、（ｊ）Ｔ個の入力シンボルの集合を与えるステップと、（ｋ）第１のレベルにおける該ノードの１つを選択する
ステップと、（ｌ）ゼロとＴ−１の間のｊの各値に対して、（１）ｋ
_jがゼロとｎ−１の間の整数であるとき、該選択された
ノードのｋ_j番目の出力シンボルが該ｊ番目の入力シン
ボルと一致するように、ｊ番目の入力シンボルに対する
各インデックスｋ_jを識別するステップと、（２）ステ
ップ（ｌ）（１）において選択された該ノードの該ｋ_j
番目のポインタが指す、ｊ＋１レベルにおけるノードを
選択するステップと、を繰り返すステップと、（ｍ）該探索によって見いだされる際に該Ｔ番目のレベ
ルにおいて該選択されたノードが指す該複数の文書の該
部分集合を選択するステップと、を包含しており、その
ことにより上記目的が達成される。

【００３４】

【作用】各文書は、出力シーケンス順に並べられた複数
の出力シンボルを含む。各文書は、各ＨＭＭによってモ
デル化される。ＨＭＭは、ｎ個の出力シンボルを含む通
常のアルファベットを有し、Ｔ個のシンボルからなる通
常の出力シーケンス長を有する。ここで、ｎおよびＴは
ともに整数である。

【００３５】また、情報ツリーが確立される(establish
ed)。各ツリーは、Ｔ＋１個のレベルのリンクされたノ
ードをメモリに格納した形で有している。Ｔ＋１個のレ
ベルはゼロ番目からＴ番目まで順にナンバリングされて
いる。ゼロ番目のレベルはルートノードを有している。
Ｔ番目のレベルの各ノードはリーフノードである。ゼロ
番目のレベルとＴ−１番目のレベルまでの各ノードはｎ
個のポインタを有している。ｎ個のポインタの各々は、
次のレベルのツリーのそれぞれ異なるノードを表してい
る。ゼロ番目とＴ−１番目の間のレベルのポインタはポ
インタシーケンスを形成する。各ポインタシーケンス
は、ルートノードからそれぞれ異なる１つのリーフノー
ドに続く。各リーフノードは、それぞれ異なる出力シン
ボルシーケンスに関連づけられている。

【００３６】１つのレベル中のノードの各部分集合のそ
れぞれに、プロシージャが実行される。プロシージャは
以下のステップを有する。

【００３７】（ｉ）ルートノードから任意のノードまで
続くポインタシーケンス群のうちの１つの部分集合が、
インデックス付けされる文書の１つ中の出力シンボルの
部分集合を表している確率を決定することと、（ｉｉ）
決定された確率が、そのレベルにおける最小確率値を超
え、かつ次のレベルが１番目のレベルとＴ−１番目のレ
ベルとの間であるならば、次のレベルに対してプロシー
ジャを呼び出すことと、（ｉｉｉ）もし次のレベルがＴ
番目のレベルであり、かつ確率がしきい値よりも大であ
れば、リーフノードのポインタのリスト中でそのポイン
タシーケンスに関連づけられた文書にポインタを付加す
ること。

【００３８】このプロシージャを、データベース中のイ
ンデックス付けすべき各文書に対し繰り返す。

【００３９】発明の別の局面においては、文書はＴ個の
入力シンボル集合を用いて探索される。Ｔ個の入力シン
ボルに対応するポインタシーケンスが選択される。リー
フノードのリスト中の複数の文書中の，選ばれたポイン
タシーケンスが示している部分集合が、探索によって発
見されたものであると識別される。

【００４０】

【実施例】図１を参照して説明を行う。本発明は、複数
の電子的に手書きされた例えばＤ₁〜Ｄ₁₀のような文書
をインデックスする方法に関する。簡略化のため、図１
は、アルファベットが２つのシンボル（０および１）し
か有さず、かつシーケンス長が３シンボルであるインデ
ックスを示している。本発明によれば、各文書の特徴
は、インデックス時における前処理段階においてＨＭＭ
を用いて分析され、インデックスに格納される。

【００４１】ＨＭＭ分析の結果は、後に文書検索操作中
において、類似の特徴を有する入力シーケンスを認識す
るために用いられる。文書が検索される度毎にＨＭＭを
実行する必要はない。検索中において、各特徴は、イン
デックス中に格納されたシーケンスと単純に比較され、
予め実行されていたＨＭＭの結果が、入力シンボルシー
ケンスによって表されている確率が高い文書を識別す
る。このように、入力シーケンスが検知されるとき、マ
ッチする出力シーケンスを識別するための解釈を直接行
うわけではなく、格納されたＨＭＭを用いることによっ
て、予め認識された出力シーケンスに対して比較を行
う。

【００４２】文書は、レポジトリまたはデータベースに
格納される。各文書Ｄ₁〜Ｄ₁₀は、出力シーケンス中に
順序づけられた複数のシンボルを含む。文書がデータベ
ースに加えられたときは、文書から固定の整数（Ｔ）個
のシンボルがインデックス付けのために用いられる。こ
れらのＴ個のシンボルは、絵文字名を形成していても良
く、または文書自体のテキスト中の最初のＴ個のシンボ
ルであっても良い。実施例においては、出力シーケンス
長Ｔを文書名におけるシンボル数とする。

【００４３】各文書Ｄ₁〜Ｄ₁₀は、各ＨＭＭによってモ
デル化される。ＨＭＭは、ｎ個の出力シンボルを含む通
常のアルファベットを有し、Ｔ個のシンボルからなる通
常の出力シーケンス長を有する。ここで、ｎは整数であ
る。

【００４４】以下、文書中の出力シンボルとは、文書名
中の出力シンボルを示す。

【００４５】インデックスは、ツリー１０として構築さ
れる。ツリー１０は、Ｔ＋１個のレベルを有する（ただ
しＴは、出力シーケンスのステップ数、またはレポジト
リもしくはデータベース中の文書に関連づけられたＨＭ
Ｍにおける出力シーケンス長である）。ツリー１０のル
ートは、レベル０におけるノード１２であり、ｒによっ
て示される。ツリーの各レベルは文書中の各連続シンボ
ルに対応する。ツリー１０の各レベルは、検索の精度を
制御するしきい値に関連づけられている。

【００４６】ツリー１０の各内部ノード１２、２２、２
４および３１〜３４（ルートノード１２を含む）は、ｎ
個の集合であり、ｎ個の集合中の各エントリは、出力ア
ルファベットσのそれぞれ異なるシンボルに対応し、サ
ブツリーへのポインタを有している。ν［ｋ］は、ノー
ドν上のｋ番目のエントリを示す。ただし、ｋは０から
ｎの間の整数である（図１に示す例ではｎ＝２）。

【００４７】Ｔ−１番目における各内部ノード３１〜３
４は、リンクされたポインタのリストを含んでいるＴ番
目のレベル中のリーフノード４１−４８を指している。
例えば、リンクされたリスト４１は、ポインタ４１ａ〜
４１ｃを含んでいる。リンクされたリスト４１−４８
は、レポジトリ中に文書を含んでいるファイルＤ１〜Ｄ
１０へのポインタを格納している。

【００４８】ツリーの各ブランチ内の連続するポインタ
は、ポインタのシーケンスを形成する。例えば、図１
に、入力シーケンス０、１、０に対するポインタのシー
ケンス５０を示す。すなわち、最初の入力シンボル０が
与えられると、ノード１２のゼロ番目のポインタ１２ａ
はノード２２を指す。次の入力１が与えられると、ノー
ド２２の１番目のポインタ２２ｋはノード３２を指す。
次の入力０が与えられると、ノード３２のゼロ番目のポ
インタ３２ａはリーフノード４３を指す。

【００４９】当業者であれば、可能な入力シーケンスと
リーフノードの間に１対１の対応が成り立っていること
が理解できるであろう。表１は、図１に示される入力シ
ーケンスおよび対応するリーフノードをリストしたもの
である（参照符号によって示す）。

【００５０】

【表１】

【００５１】文書を挿入するために、Ｔ個の出力シンボ
ル集合が文書から抽出される。図１の例においては、３
つのシンボル（Ｔ＝３）が抽出され、各シンボルはゼロ
または１である。

【００５２】ｎ個のアルファベットおよびシーケンス長
Ｔに対し、ｎ^T個の可能な出力シーケンスが存在する。
よって、（図１に示す）ツリーは、各可能な出力シーケ
ンスに対し１つずつ、計ｎ^T個のリーフノードを有して
いる。発明の第１の実施例においては、挿入されている
文書に対するＨＭＭは、前処理（挿入）段階においてｎ
^T回実行される（各ＨＭＭは全ての可能なシーケンスに
対して異なる回数ずつ実行される）。もし任意の出力シ
ーケンスが文書の出力シーケンスを示している確率がし
きい値よりも高いとＨＭＭが決定すると、その文書への
ポインタが、その出力シーケンスに対応するポインタシ
ーケンスによって識別されるリンクされたリストに、付
加される。この決定は、各リーフノードに対して行われ
る。

【００５３】例えば、ツリー１０が与えられるとき、文
書Ｄ₁に対するＨＭＭ（ＨＭＭ₁と呼ぶ）は、８回実行さ
れる（表１に示す出力シーケンスの各々に対し１回ず
つ）。ＨＭＭ₁が所与の出力シーケンスに対して実行さ
れるとき、ＨＭＭ₁は、その出力シーケンスが文書Ｄ１
の出力シーケンス中のＴ個のシンボルを示している確率
を決定する。図１に示すように、前記出力シーケンスを
示している確率を所望の値有している（すなわち確率が
しきい値より高い）のは、出力シーケンスの２つのみ
（０、０、０および１、１、０）である。従って、文書
Ｄ₁へのポインタ４１ａおよび４７ｂがリーフノード４
１および４７のリンクされたリストのそれぞれに付加さ
れる。

【００５４】リンクされたリストは、その他のＨＭＭ
（ＨＭＭ₂、．．．、ＨＭＭ₁₀と呼ぶ）を、可能な出力
シーケンスに１回ずつ８回実行することによって完成さ
れる。その後、各出力シーケンスが文書の出力シーケン
スに等しい確率が所望のしきい値を超える各リーフノー
ド４１〜４８のリンクされたリストに、各文書Ｄ₂〜Ｄ₁
₀に対するポインタが、付加される。

【００５５】一旦文書が以上のように処理されかつイン
デックスされれば、１つの文書または１群の文書の検索
を非常に素早く行うことができる。文書を検索するため
には、使用者は入力デバイスを用いて絵文字名を描き、
入力されたシンボルのシーケンスが検知される。表１に
示した１対１の対応を用いて、ツリーをトラバース(tra
verse)することにより（ルートノード１２からリーフノ
ード４１〜４８へのポインタ経路を通って）、入力シー
ケンスに対応するリーフノード４１〜４８が発見され
る。

【００５６】また、ポインタを格納してツリーをトラバ
ースする代わりに、リーフノード４１〜４８の位置を入
力シーケンスの関数として計算しても良い（ツリーは全
てのノードが含まれる完全なツリーであるため）。一旦
リーフノードが発見されれば、リーフノードのリンクさ
れたリストに含まれる文書のリストが使用者に提供され
る。

【００５７】好ましくは、探索によって発見された文書
の絵文字名は、グラフィカルユーザーインターフェース
を用いることによりメニュー内に絵文字的に表示され
る。使用者は、所望の文書を表示されたリストから選択
する。図１に示す例において一旦使用者が絵文字名を描
くと、発明の実施例においては、最も近い１つないし４
つの名前を有する文書が選択するために表示される。こ
のようにして、もし使用者が入力シンボル０、１、０
（シーケンス５０）を有する絵文字名を描いた場合、シ
ステムは文書Ｄ３およびＤ４の絵文字名を表示する。使
用者は、１０個の文書から選択しなければならないとい
う手間から免れ、文書検索操作中にＨＭＭを実行するこ
とにともなう遅延が避けられる。

【００５８】以上説明した第１のの実施例は、各文書名
中のアルファベットのサイズおよびシンボル数が比較的
短い場合に効果がある。例えば、図１に示すインデック
スでは、アルファベット中に２シンボルしかなく、また
シーケンス長が３シンボルであり、ツリー中のノード総
数は１５である。

【００５９】しかし、もしアルファベットのサイズまた
は出力シーケンス長が大きくなると、インデックスのサ
イズおよびそれを生成するために必要とする時間が指数
的に増加する。例えば、５０個のシンボルが出力シーケ
ンス中に存在し、アルファベットが２５０個のシーケン
スを含んでいるとすると、インデックスは約１０^１２０
個のノードを含んでいる。この場合、多くのデータベー
スに対して上記第１の実施例は非実用的となる。

【００６０】インデックスを生成するために必要とする
時間を減少するために、図３を用いて以下に説明するよ
うに、本発明の第２の方法によれば、単に確率を計算
し、かつツリーの中の１つ以上の文書を指しているリー
フノードを有している可能性の高いブランチのためのイ
ンデックスエントリを格納するための方法が提供され
る。第２の実施例も、図１と同様のインデックスを用い
ることが可能である。この方法を図３のフローチャート
を用いて詳細に説明する。

【００６１】本発明の更なる局面によれば、ツリー１０
は、各文書の、あるレベルにおける文書の出力シーケン
スを表している確率が少なくともしきい値以上である入
力シンボルを示している各レベルのノードのみを包含し
ていてよい。その結果、ツリー１０のサイズが相当小さ
くなる。本発明のこの局面を、図４（ａ）から図４
（ｃ）を用いて詳細に説明する。

【００６２】文書を挿入するために、Ｔ個の出力シンボ
ル集合がその文書から抽出される。図１に示す概略図に
おいては２つのシンボルしか示していないが、手書き文
書のためのアルファベット例は、１６個のシンボルを有
する。手書きの絵はポイントに分割され、各ポイントは
シンボルによって示される。本シンボルアルファベット
例においては、ポイント毎につき４つの特徴が抽出され
る。すなわち、方向、速度、方向の変化、および速度の
変化である。各特徴は、４つの可能な値の集合から導か
れる。その理由は、１つのポイントの特徴ベクタ（シン
ボル）は４ペアのビットを用いて示されるからである。
本シンボルアルファベット例においては、σ中の出力シ
ンボルの各々は、８ビットのベクタ値を用いて表現され
る。他の同等のシンボルアルファベットを用いてもよい
よ考えられる。当業者であれば、ツリーの各ノードがこ
のアルファベット例のために、１６個のエントリを有す
ることがことが理解されるであろう。図を簡潔にするた
め、ツリー全体は示していない。

【００６３】個々のシンボルは、ペン型インターフェー
ス等の従来技術を用いて検知されるとする。本実施例に
おいて、いったん個々のシンボルが検知されると、「左
から右」ＨＭＭがシンボルを分析するために用いられ
る。「左から右」ＨＭＭとは、現状態に留まることまた
はシーケンス中の次の状態にジャンプすることのみが可
能なモデルである。

【００６４】このようなＨＭＭの１例を図２に示す。こ
のモデルは、０から４までナンバリングされた５つの状
態を含んでいる。このＨＭＭ例において、状態ｉから状
態ｉ＋１にジャンプする確率ｐ_ｉは、０ ≦ ｉ ≦ ｎ−
１の時、０．５である。一方、同じ状態に留まる確率
（１− ｐ_i）は０．５である。最後の状態に留まる確率
ｐ_nは、一旦到達すれば、１．０である。選択されたＨ
ＭＭがインデックスの一生を通じて固定であり、動的に
変化しなければ、他のＨＭＭも使用され得ることが当業
者には理解されるであろう。

【００６５】ツリーの各レベルＬ（０≦ Ｌ≦ Ｔ）に
は、それぞれ最小確率値εＬ（０ ≦εＬ ≦ １が割り
付けられる。

【００６６】ツリー１０中の各ノードｑ、レベルＬ、出
力アルファベット中の各シンボルｏにおいて、Ｏｑ＝Ｏ
［ｉ₁］Ｏ［ｉ₂］．．．Ｏ［ｉ_L］は、ツリーのルート
１２からノードｑへの経路中のシンボルシーケンスを表
している。そして、データベース中の全てのＨＭＭに対
し（すなわち全ての文書に対し）計算可能である関連づ
けられた剪定関数(pruning function)ｆ^m（Ｌ、ｑ、
Ｏ_q、ｏ）が存在する。

【００６７】図３を参照して、本発明の別の局面に特徴
づけられる実施例を示す。ステップ１００、１０２、１
０４、および１２２を有するループが実行される。ステ
ップ１００は、このループが実行されるべき１つの文書
を選択する。ステップ１０２において、レベルは、挿入
プロシージャ１０４を開始する前にゼロ（ルートノー
ド）にリセットされる。データベース内の各文書Ｄ₁〜
Ｄ₁₀に対し、ステップ１０４のプロシージャが実行され
る。

【００６８】ステップ１０４の挿入プロシージャは、ス
テップ１０８においてｋの値をゼロにセットすることに
よって開始する。ｋは、ツリー１０の各レベルのゼロ番
目のノードにおいて０の値を有する整数のインデックス
である。ステップ１１０において、剪定関数計算が実行
される。与えられたレベルＬ、与えられたノードν、出
力シーケンスの部分集合Ｏ（ノードνとルートとの間の
経路の全てのノードを含む）、およびインデックスｋの
任意の値の組み合わせに対し、剪定関数ｆ^m（Ｌ、ν、
Ｏν、ｋ）はＯ中の各シンボルが文書Ｄ_mの正しい対応
する出力シンボルを表している確率を与える。

【００６９】挿入プロシージャのステップ１１０におい
て、レベルＬのノードνおよび出力シンボルｋを処理す
るとき、もし条件ｆ^m（Ｌ、ｑ、ｏν、ｋ）≧εＬが真
であれば、ステップ１１２において、ノードν［ｋ］か
ら始まるサブツリーが調べられる。もし真でなければ、
挿入アルゴリズムは、決定ステップ１１０の「Ｎｏ」ブ
ランチをたどることによって、ノードν［ｋ］から始ま
るサブツリーをスキップする。このことにより、確率計
算の数が減り、結果として、各文書をデータベースに挿
入するときにインデックスする時間が減少する。

【００７０】もしステップ１１０の「Ｙｅｓ」ブランチ
がとられた場合は、ステップ１１２において、現ノード
のレベルがチェックされる。もし現ノードが中間ノード
であれば（すなわちＬ≦ Ｔ−１）、制御はステップ１
１６に移り、ステップ１０４の挿入プロシージャが、現
ノードのｋ番目のエントリ（ポインタ）が指しているツ
リーのブランチに対し、再帰的に実行される。ステップ
１０４の再帰的実行の間、ステップ１１２のチェック
が、現レベルＬがＴ番目のレベル（リーフノード）であ
ると決定したとき、文書Ｄ_mへのポインタがそのリーフ
ノードに格納されたポインタリストに付加される。

【００７１】ステップ１１８および１２０において、一
旦Ｄ_mに対するインデックス処理が現サブツリーにおい
て完了すると、ステップ１１０〜ステップ１２０をｋの
各値（すなわち任意のレベルの各ノード）について繰り
返すことによって残りのサブツリーの全てが調べられ
る。ｋの値がｎになった時、この文書の処理は完了し、
ステップ１２２において制御をステップ１００に渡すこ
とによって他の文書を処理することが可能になる。

【００７２】例えば、図１を再び参照し、文書Ｄ₇をデ
ータベースに挿入しようとしているとする。入力装置の
シンボル検知部分(symbol detection facility)から、
シンボルストリング０、１、１が検知される。処理は、
ルートノード１２から開始する。ステップ１１０おい
て、ノード１２のゼロ番目のエントリ１２ａ（ノード２
２を指している）に対し、関数ｆ^mが、ゼロ番目のレベ
ルの最小確率ε０よりも大きい確率値を返す。従って、
エントリ１２ａが指しているブランチが調べられる。
ステップ１１６において、ノード２２のゼロ番目のエン
トリ２２ａに対し、関数ｆ^mが、１番目のレベルの最小
確率ε１よりも小さい確率値を返す。その結果、エント
リ２２ａが指しているブランチは調べられない。ノード
３１に対しては、確率計算は全くなされない。次に、ノ
ード２２の１番目のエントリ２２ｋ（ノード３２を指
す）に対し、関数ｆ^mが部分シーケンス０、１について
評価され、ε１よりも大きい確率値を返す。このように
して、エントリ２２ｋを指すポインタが調べられる。

【００７３】ノード３２において関数ｆ^mを評価した結
果、確率は、エントリ３２ａについて評価したときのレ
ベル２に対する最小確率値（ε２）よりも小さく、ま
た、エントリ３２ｋについて評価したときの最小確率ε
２よりも大きい。従って、文書Ｄ₇へのポインタは、エ
ントリ３２ｋが指しているリスト４４中に格納される。

【００７４】次に、関数ｆ^mが、ノード１２の１番目の
エントリ１２ｋについて評価される。関数はε０よりも
小さい確率値を返し、その結果、エントリ１２ｋが指す
ブランチは、評価されない。

【００７５】このようにして、図３のプロシージャを用
いることにより、文書Ｄ₇に対する確率計算は、ノード
３１、２４、３３、および３４においては行われない。
しかし、挿入遅延（insertion delay：文書をレポジト
リに付加するときの前処理時間）は減少するが、図３の
方法によって生成されるインデックスは、ｎ＝２かつＴ
＝３であるツリーに対して、図１に示したものと同量の
メモリを使用する。本発明の別の局面によれば、インデ
ックスによって占められる空間も減少させることが可能
である。

【００７６】本発明の更なる局面によれば、あるレベル
における出力シーケンスを表している確率値が少なくと
もεＬであるような全ての各レベルの入力シンボルを識
別する各文書について、アレイを維持してもよい。各文
書の各レベルにおける確率の高いシンボルを識別するア
レイを維持することによって、ツリー１０のサイズを相
当減少することができる。

【００７７】図１の文書Ｄ₁の例を参照し、もし文書Ｄ₁
がデータベース中の唯一の文書であれば、この文書はリ
ーフノード４１および４７の両方に関連づけられている
ため、ツリーはノード１２、２２、２４、３１、３４、
４１、および４７のみを含んでいる。このアレイは、レ
ベルゼロのノード１２、レベル１のノード２２および２
４、ならびにレベル２のノード４１および４７を識別す
る。ノード３２、３３、４２〜４６、および４８はツリ
ーには含まれない。アルファベットのサイズまたは文書
名の長さが大きいときは、本発明のこの局面によれば、
ツリーサイズは大幅に減少される。

【００７８】表２は、図３の方法を実行する際の疑似コ
ード例を示している。

【００７９】

【表２】

【００８０】表２の挿入プロシージャ(insertion proce
dure)の間、レベルｌのノードνおよび出力シンボルｋ
を処理する際に（ステップ２２６）、もし条件（ｆ
^m（ｌ、ν、Ｏν、ｋ）≧ ε１）が真であれば、ステッ
プ２２８〜２３０において、サブツリーν［ｋ］が調べ
られる。そうでない場合、ステップ２２８〜２３４が実
行されず、挿入アルゴリズムはサブツリー全体をスキッ
プする。これによって、各文書をデータベースに挿入す
るために必要な時間が減少する。

【００８１】表３は、文書を検索する際にインデックス
をトラバースするための疑似コード例を示している。入
力文書Ｄに類似した文書の集合を選択するために、Ｔ個
の出力シンボル集合Ｏ＝｛Ｏ［ｉ］、０ ≦ ｉ ≦
Ｔ｝および｛０ ≦ Ｏ［ｉ］≦ ｎ−１｝が入力シー
ケンスから抽出され、トラバースプロシージャ(Procedu
re traverse：表３参照）が実行される。または、リー
フノードのアドレスは、出力シンボル集合Ｏを計算し、
それに関連づけられたｋ個のＨＭＭに、直接アクセスし
てもよい。

【００８２】

【表３】

【００８３】図１を用いて上記に説明したインデックス
１０は、剪定関数ｆ^m（ｌ，ｑ，Ｏ_q，ｏ）が提供される
限り有効である。インデックスの「性能」は、剪定関数
がどのくらい有効であるかに影響される。インデックス
の性能は、その方法が正しい絵文字名を最初に選択する
か、または、使用者が正しい名前を選択するためのリス
ト中の数個の名前の中に、正しい名前が含まれているか
否かによって測られる。

【００８４】剪定関数ｆ^m（ｌ、ｑ、Ｏ_q、ｏ）を計算するために、文書の基本
的なデータベースによって以下の条件が満たされると仮
定する。

【００８５】（１）データベース内のすべての文書は、
左から右ＨＭＭによってモデル化され、各ＨＭＭはＮ個
の状態を有している。これらのＨＭＭの遷移確率は以下
のようになり得る。

【００８６】

【数４】

【００８７】

【数５】

【００８８】

【数６】

【００８９】データベース内のすべての文書について、
長さＴの出力シンボルのシーケンスが抽出される。イン
デックスが用いられるすべての入力は、ＨＭＭのアルフ
ァベット（Σ）から取られたＴ出力シンボルのシーケン
スの形態で与えられる。

【００９０】剪定関数ｆ^mのいくつかのバリエーション
を用いてもよい。第１の剪定関数例は、以下のように生
成され得る。

【００９１】ＨＭＭＨ_mがその実行のステップｉ（０
≦ｉ≦Ｔ−１、および０≦ｊ≦Ｎ−１）において状態ｊ
にある確率にφ^m _i,jを定義する。φ^m _i,jが出力シーケン
スＯには依存しないことに注目されたい。そして、ＨＭ
ＭＨ_mが実行のステップｉにおいてシンボルｏを出力
する確率Φ^m _i（ｏ）を定義する。Φ^m _i（ｏ）はφ^m _i,jを
用いて以下のように計算され得る。

【００９２】

【数７】

【００９３】

【数８】

【００９４】このとき、式（４）〜（６）に基づき、

【００９５】

【数９】

【００９６】

【数１０】

【００９７】および

【００９８】

【数１１】

【００９９】ここで

【０１００】

【数１２】

【０１０１】式（４）〜（１２）に基づき、φおよびΦ
を計算する過程は、ツリー１０のブランチが処理される
過程には依存しない。この過程は、ＨＭＭモデル
（Ｈ_m）のみに依存する。その結果、ツリーにＨＭＭモ
デルＨ_mを挿入すると、Φ^m［ｉ］［ｊ］が、ｊ番目の出
力シンボルがＨＭＭＨ_mを実行するｉ番目のステップ
において現れる確率に対応するように、Ｔ×Ｎの大きさ
を有するマトリクスΦ^m［］［］が構築される。すなわ
ち、

【０１０２】

【数１３】

【０１０３】モデルＨ_mをツリー１０に挿入している
間、図３の方法によってたどった(descended)経路の数
を剪定(prune)するために、マトリクスΦ^m［ｉ］［ｊ］
がアクセスされる。

【０１０４】第２の例示的な剪定関数は、出力シンボル
間の依存性を利用する。例えば、ＨＭＭの実行のステッ
プｉにおいて出力シンボルが現れる確率を計算する代わ
りに、ＨＭＭの初めのｉ個のステップを実行した後に、
シーケンスＯ［０］Ｏ［１］．．．Ｏ［ｉ］が現れる確
率を計算してもよい。これによって、新しいＨＭＭが挿
入されるツリー内の経路に依存する第２の例示的な剪定
関数が導かれる。

【０１０５】この方法は、シーケンスＯｑ＝Ｏ［０］Ｏ
［１］、．．．、Ｏ［Ｔ−１］（ツリー１０のルート１
２からノードｑまでの経路内のシンボルのシーケンスを
示している）がＨ_mによって生成される確率が高い（あ
るいは、与えられたしきい値を超えている）とき、リー
フノードｑに属するリンクされたリストにＨＭＭＨ_m
のインデックスｍを挿入する。これは、確率：Ｐｒｏｂ
［Ｏ［０］Ｏ［１］、．．．、Ｏ［Ｔ−１］｜Ｈ_m］に
対応する。挿入時間および前処理時間を節約するため
に、ツリー１０の（長さＴの）可能な限り全てのパター
ンについてこの確率を計算すべきではない。その結果、
ツリーをたどると、以下の剪定関数が与えられる。従っ
て、サブツリー全体が剪定される。

【０１０６】剪定関数の第２の実施態様を用いるため
に、ｉステップを実行し、状態ｊで終了した後、シーケ
ンスＯ［０］Ｏ［１］．．．Ｏ［ｉ］がＨＭＭによって
生成される確率にα^m _i、jを定義する。すなわち、

【０１０７】

【数１４】

【０１０８】ＨＭＭモデルＨ_mがツリー１０に挿入され
た時点で、ツリー１０をたどっていくと、シーケンスＯ
［０］Ｏ［１］、．．．、Ｏ［ｉ］を中断せずに構成し
ながらαが動的に計算される。ノードｑでツリー１０の
レベルｊまでツリーが深さ優先の順位でたどられる仮定
する。シーケンスＯ_q＝Ｏ［０］Ｏ［１］、．．．、Ｏ
［ｉ］は、ル−トからｑに降順していく間に出会うシン
ボルに対応する。この場合、αは以下のように計算され
得る。

【０１０９】

【数１５】

【０１１０】

【数１６】

【０１１１】

【数１７】

【０１１２】

【数１８】

【０１１３】

【数１９】

【０１１４】第１の剪定関数例と第２の剪定関数例との
間の相違点はαは計算のステップｉまでに生成された出
力シーケンスに依存するが、φは依存しないことであ
る。さらに、Φは一つの出力シンボルにのみ依存し、α
のようにはシンボルのシーケンスに依存しない。αを計
算する再帰的過程は、φ計算の代わりにα計算が用いら
れることを除いて、φを計算するために用いられた再帰
的過程と同一である。

【０１１５】全ての経路についてαを計算する時間を削
減する方法の一つとして、再帰的なステップの中間結果
のスタックを保持することがある。サブツリーのトラバ
ースが終了すると、スタックはサブツリーのルートレベ
ル（すなわち、ツリーのルートに最も近い、サブツリー
内のノード）までポップアップされ、ツリー１０のルー
トから計算を開始する代わりに、そこから再帰が開始さ
れる。モデルＨ_mを挿入するためにツリー１０が降順さ
れる際、ノードｑを処理するときには、処理はノードｑ
の親内のα（α's）から開始する。再帰的処理の１ステ
ップは、ｑ内の各シンボルについてαを計算するために
与えられる。その結果得られたｎ計算は、スタックに保
管される（ｑにはｎ個のシンボルがある）。

【０１１６】ｑより下のサブツリーの一つを降順する
間、例えば、ノードｕにおいて、ノードｑについて計算
されたα（α's）がαを計算するための再帰式数式の付
加的な１ステップで用いられ、ノードｕにおける対応す
るα（α's）が得られる。このように、α（α's）を計
算するためのオーバヘッドが最小になる、なぜなら、ツ
リー１０内の各ノードについて、再帰的数式の１ステッ
プがノード内の各シンボルに対してαを計算するために
採用されるからである。プロシージャ全体は、ノードご
とに１度しか行われない。つまり、１つのノードに対す
るα（α's）は１度を超えては評価されない。

【０１１７】挿入時間にアクセスされたサブツリーを剪
定するために、αが新しい関数ψ^m _iを計算するために用
いられる。この新しい関数ψ^m _iは、シンボルＯ［ｉ］が
計算のステップｉで現れる確率である（すなわち、ψ^m _i
は、ＨＭＭの状態に関する情報には依存していない）。
これは、すべての可能な状態ｊに関してα^m _i、jを合計す
ることによって達成され得る。従って、

【０１１８】

【数２０】

【０１１９】

【数２１】

【０１２０】ψは、ノード内の各シンボルに対して計算
され、しきい値と比較される。シンボルに対応するサブ
ツリーは、ψのその対応する値がしきい値を超える場合
にのみアクセスされる。換言すれば、各ノードに対する
剪定関数は、

【０１２１】

【数２２】

【０１２２】によって定義される。

【０１２３】ψに対する計算は正確であり、この為に、
各入力パターンおよび挿入アルゴリスムによってアクセ
スされる各ツリー経路について評価を行うのは計算上不
経済である。第３の例示的な方法が示されるが、この方
法は剪定関数ψの近似であり、方程式（２０）〜（２
２）に示されている。剪定関数ψは近似をとられ、その
結果、剪定関数ψはノードｑのレベルにのみ依存し、ｑ
に至るツリー経路全体には依存しない。

【０１２４】ＨＭＭＨ_mを実行するｋ番目の段階にお
ける出力シンボルｓをモデルが予測する、計算された確
率（あるいはその推定）になるようにｐ^m _k（ｓ）を定義
する。従って、ｐ^m ₀（ｓ）は、第１のステップにおいて
出力シンボルを見いだす確率である。発明者らは、ｐ^m _k
（ｓ）が以下のように推定され得ることを決定した。

【０１２５】

【数２３】

【０１２６】ただし、Ａ_T-k+1,jは、方程式（１４）〜
（１９）によって定義されるα_i,jの上限であり、以下
のように推定される。

【０１２７】

【数２４】

【０１２８】ここで、Ｒ_rは、ｋ−１ステップにおける
状態ｒにたどり着くためにとられ得る経路の数であり、
以下のように評価される。

【０１２９】

【数２５】

【０１３０】表４は、Ａおよびｐ^m _k（ｓ）を計算するた
めの疑似コード例を一覧している。

【０１３１】

【表４】

【０１３２】ツリー用格納スペースの削減上記のように、アルファベット内のシンボルの数および
文書出力シーケンス長が増大するにつれて、（図１に示
されている）ツリー１０の大きさが指数的に増大する。
別のツリー構造例を説明するが、これは格納複雑性の点
で図１のツリー１０を改良したものである。

【０１３３】図４（ａ）から４（ｃ）を参照すると、第
２の例示的なツリー３００が示されている。ツリー３０
０において、剪定関数は、挿入時間を剪定するためだけ
ではなく、ツリーによって占められたスペース量を剪定
するためにも用いられる。モデルＨ_mがツリーに挿入さ
れると仮定する。剪定関数（上記の関数Φ、ψあるいは
ｐのいずれか）が与えられると２次元マトリクスＰ^mが
計算され、このとき、各エントリＰ^m［ｉ］［ｏ］はＨ_m
が実行のステップｉでシンボルｏを生成する確率に対応
する。Ｐ^mの大きさはｎ×Ｔであり、従って、アルファ
ベットおよび出力シーケンスの大きさが増大するに従っ
て指数的に増大しない。Ｐ^m［ｉ］［ｏ］から、新しい
ベクトルＬ^mが生成され、このとき、Ｌ^m［ｉ］として表
されているＬ^m内の各エントリは、その実行のステップ
ｉにおいてＨ_mによって生成される確率が高いシンボル
のみを含む。換言すれば、Ｌ^mの各エントリは、以下の
ような出力シンボルのリストである。

【０１３４】

【数２６】

【０１３５】例えば、ベクトルの例Ｌ¹、Ｌ²およびＬ³
を表５に一覧する。ベクトルＬ¹、Ｌ²およびＬ³は、Ｈ
ＭＭＨ₁、Ｈ₂およびＨ₃にそれぞれ対応する。

【０１３６】

【表５】

【０１３７】図４（ａ）〜４（ｃ）は、本実施態様によ
る、ベクトルＬ¹、Ｌ²およびＬ³から形成されるツリー
３００を示すブロック図である。簡略化のために、ツリ
ー３００の第４レベルにおけるノード対は、一つの楕円
内（例えば、楕円３０５）に示されている。２つのシン
ボル数を有する楕円は２つのノードを表していることが
理解される。例えば、図４（ａ）の楕円３０５は、数０
４および０５を有し、出力シンボル０４については第１
のノードを示し、出力シンボル０５については第２のノ
ードを示す。さらに、ツリー３００の第５レベルにおけ
る（文書へのポインタのリンクされたリストを含む）リ
ーフノードは、図４（ａ）〜４（ｃ）では簡潔にするた
めに省略される。

【０１３８】図４（ａ）、図４（ｂ）および４（ｃ）の
実施例では、アルファベットの大きさｎは１３個のシン
ボルであり、シーケンス長は４である。ノードが起こり
得る出力シーケンスの一部であるか否かにかかわらず全
てのノードがツリーに含まれるならば（すなわち、図１
の方法によれば）、ツリー３００はおおよそｎ^T+1＝１
３⁵＝３７１，２９３個のノードを有する（図４（ａ）
〜４（ｃ）に図示されていないリーフノードを含む）。
その代わりに、高確率シーケンス内のノードのみを含む
ことによって、ツリーの大きさは３４個（ルートおよび
リーフノードを含む）にまで削減される。マトリクスＰ
^m［ｉ］［ｏ］およびＬ^mを考慮したときでも、スペース
の削減量は大きさ（magnitude)の３桁以上になる。

【０１３９】ツリー３００は、ルートノード３０１を除
いて初めは空である。図４（ａ）は、Ｈ₁をツリー３０
０に挿入した結果を示している。ツリー３００内の各ノ
ードの論理出力数はアルファベットの大きさであるｎ未
満である。出力シンボルは、必要な場合のみ内部ノード
において付加される。図４（ｂ）および４（ｃ）は、Ｈ
²およびＨ³を挿入した後のツリー３００をそれぞれ示し
ている。ツリー３００は、少なくとも１つの文書を表す
可能性が最も高いと思われるシーケンス内のシンボルに
対応するノードを含むために必要となる場合に拡張され
るだけである。従って、ツリー３００は、いかなる文書
のポインタをも有さないリーフノードのポインタを格納
するスペースの浪費を防止する。

【０１４０】ツリー３００は、図１のツリー１０の利点
と図３で用いられる剪定関数ｆ^mの利点を両方有し、ス
ペースの複雑性の点では両者の性能を凌いでいる。ツリ
ー３００は、図１のツリー１０と同様の探索時間Ｏ
（Ｔ）を有し、図３を参照して上記した、挿入のための
同一の剪定戦略を用い、その結果、挿入時間が削減され
る。本発明は、例示的な実施態様を参照して記載され
ているが、それに限定されるものではない。むしろ、本
発明の真の精神および範囲から離れることなく、当業者
によって成される本発明の他の変形および実施例を含む
ように、添付の請求項が解釈されるべきである。

【０１４１】

【発明の効果】本発明のインデックス付け、および探索
方法によれば少なくとも以下の効果が得られる。(1)Ｈ
ＭＭによってモデル化された複数の手書きの電子文書の
検索の高速化が可能となる。(2)インデックス付けに必
要な時間を削減することが可能である。(3)インデック
スに必要な格納スペースが削減することが可能である。

【図面の簡単な説明】

【図１】本発明の情報ツリーの一例を示すブロック図で
ある。

【図２】図１の情報ツリー例に用いたＨＭＭの状態図で
ある。

【図３】図１の情報ツリー中の文書をインデックスする
プロシージャのフローチャートである。

【図４】（ａ）から（ｃ）はそれぞれ本発明の情報ツリ
ーのさらなる例を示すブロック図である。

【符号の説明】

１０情報ツリー１２ルートノード１０４挿入プロシージャ３００ツリー

Claims

【特許請求の範囲】

【請求項１】複数の手書き電子文書のインデックス付
け方法であって、該複数の手書き電子文書のそれぞれは
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、該複数の手書き電子文書のそれぞれは、対応す
る隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個のシンボルを含む共通アルファベットおよびＴ個のシ
ンボルの共通出力シーケンス長を有しており、ここでｎ
およびＴは整数であり、該方法は、（ａ）Ｔ個のレベルを有するインデックスを確立するス
テップであって、該レベルのうちのゼロとＴ−１との間
のレベルは最小確率値をそれぞれ有しており、該レベル
のそれぞれは少なくとも１つのノードを有しているステ
ップと、（ｂ）該インデックスの該レベルの１つにおける各ノー
ドに対して、（１）各該ＨＭＭを該１つの文書に用い
て、該ノード内に格納されているシンボルが該１つの文
書内の対応する出力信号を表す確率を決定するステップ
と、（２）ステップ（ｂ）（１）で決定された該確率が
該１つのレベルの最小確率値を超え、次のレベルが１番
目のレベルとＴ−１番目のレベルとの間にある場合、該
インデックスの該次のレベルにおいてノードを付加する
ステップと、（３）該ノードがステップ（ｂ）（２）で
付加された場合、該次のレベルにおいて該付加されたノ
ードに対してステップ（ｂ）を実行するステップと、
（４）該次のレベルがＴ番目のレベルであり、ステップ
（ｂ）（１）で決定された該確率が該Ｔ−１番目のレベ
ルの該最小確率値よりも大である場合、該インデックス
の該Ｔ番目のレベルにおけるノードに格納されているポ
インタのリストに、該１つの文書へのポインタを付加す
るステップと、を行うことによって該文書の１つに該シ
ンボルをインデックス付けするステップと、（ｃ）該１つの文書以外の該複数の文書の各々にステッ
プ（ｂ）を繰り返すステップと、を包含する複数の手書
き電子文書のインデックス付け方法。
【請求項２】複数の手書き電子文書のインデックス付
け方法であって、各手書きの電子文書が出力シーケンス
中に順序づけられた複数の出力シンボルを含み、各文書
が隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個の出力シンボルを含む共通アルファベットおよびＴ個
のシンボルの共通出力シーケンス長を有しており、ここ
でｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、該ゼロ番目のレベル
とＴ−１番目のレベルとの間の各ノードはｎ個のポイン
タを有し、それぞれは異なる出力シンボルに対応し、か
つ、各ノードの異なるサブツリーを識別し、該ゼロ番目
のレベルと該Ｔ−１番目のレベルとの間の該ポインタは
ポインタのシーケンスを形成し、各該ポインタのシーケ
ンスは該ルートノードから各々異なる該リーフノードの
１つまで続いている、情報ツリーを確立するステップ
と、（ｂ）該リーフノードの１つにおける該複数の文書の部
分集合を識別するポインタの各リストを格納するステッ
プであって、（１）文書に対して各々ＨＭＭを用いて、
該ルートノードから該１つのリーフノードまで続く各該
ポインタのシーケンスが該文書の１つの該各出力シーケ
ンスを表す確率を該１つのリーフノードに対して決定す
るステップと、（２）該確率がしきい値よりも大である
場合、該１つのリーフノードの該ポインタのリストに、
該１つの文書へのポインタを付加するステップと、
（３）各該複数の文書のそれぞれに対してステップ
（１）および（２）を繰り返すステップと、を含むステ
ップと、（ｃ）該１つのリーフノード以外の各該リーフノードに
対してステップ（ｂ）を繰り返すステップと、を包含す
る複数の手書き電子文書のインデックス付け方法。
【請求項３】ゼロとＴ−１の間の各レベルは最小確率
値を有し、ステップ（ｂ）（１）は、（ｉ）前記ルートノードからｊ番目のノードに続く前記
ポインタのシーケンスの部分集合が、前記１つの文書に
おける初めのｊ＋１個のシンボルを表す確率を決定する
ステップと（ここでｊは０とＴ−１との間の整数）、（ｉｉ）ｊ−１番目のレベルに対してステップ（ｉ）で
決定された前記確率が該ｊ−１番目のレベルの各該最小
確率値を超える間、１とＴ−１との間のｊの各値に対し
てステップ（ｉ）を繰り返すステップと、を包含する請
求項２に記載の方法。
【請求項４】複数の手書き電子文書のインデックス付
け方法であって、各手書きの電子文書が出力シーケンス
中に順序づけられた複数の出力シンボルを含み、各文書
が隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個の出力シンボルを含む共通アルファベットおよびＴ個
のシンボルの共通出力シーケンス長を有しており、ここ
でｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを表し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
のツリーの各レベルは異なる最小確率値を有し、該ゼロ
番目のレベルと該Ｔ−１番目のレベルとの間の各ノード
はｎ個のポインタを有し、それぞれは該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
Ｔ−１番目との間のレベルのポインタは出力シンボルの
シーケンスを表すポインタのシーケンスを形成し、各該
ポインタのシーケンスは該ルートノードから各々異なる
該リーフノードの１つに続き、各リーフノードは異なる
出力シンボルのシーケンスと関連づけられている、情報
ツリーを確立するステップと、（ｂ）該文書の１つに対して、該ツリーに情報を格納す
るステップであり、該ステップは、（１）該レベルの１
つの該ノードの各部分集合に対して、（ｉ）該ルートノードから該１つのノードへ続く該ポイ
ンタのシーケンスの一つのサブシーケンスが該１つの文
書において該出力シンボルの対応する部分集合を表す確
率を決定するステップと、（ｉｉ）ステップ（ｂ）（１）（ｉ）で決定された該確
率が該１つのレベルの該最小確率値を超え、かつ、次の
レベルが該１番目のレベルと該Ｔ−１番目のレベルとの
間にある場合、該次のレベルにおけるノードに対してス
テップ（ｂ）を呼び出すステップと、（ｉｉｉ）該次のレベルが該Ｔ番目のレベルであり、か
つ、該確率が該しきい値よりも大である場合、該ポイン
タのシーケンスの１つと関連づけられた該リーフノード
の該ポインタのリストに、該１つの文書へのポインタを
付加するステップと、を含むステップと、（ｃ）該１つの文書以外の該複数の文書の各々に対して
ステップ（ｂ）を繰り返すステップと、を包含する複数
の手書き電子文書のインデックス付け方法。
【請求項５】前記ステップ（ｂ）（１）は、（ｉｖ）前記確率が前記レベルのうちの１つのレベルの
前記各最小確率値よりも小さい場合、前記ステップ
（ｂ）（２）の繰り返しを中断するステップをさらに包
含する、請求項４に記載の方法。
【請求項６】前記方法は、（ｄ）Ｔ個の入力シンボルの集合を与えるステップと、（ｅ）該Ｔ個の入力シンボルに対応するポインタのシー
ケンスの１つを選択するステップと、（ｆ）探索によって見いだされる際に、該選択されたポ
インタのシーケンスが続く前記リーフノードの前記リス
トにおける前記複数の文書の部分集合を識別するステッ
プと、をさらに包含する、請求項４に記載の複数の手書
き電子文書のインデックス付けおよび探索方法。
【請求項７】複数の手書き電子文書のインデックス付
け方法であって、各手書きの電子文書が出力シーケンス
中に順序づけられた複数の出力シンボルを含み、各文書
が隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個の出力シンボルを含む共通アルファベットおよびＴ個
のシンボルの共通出力シーケンス長を有しており、ここ
でｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードであり、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
の各レベルは異なる最小確率値を有し、該ゼロ番目のレ
ベルと該Ｔ−１番目のレベルとの間の各ノードはｎ個の
ポインタを有し、それぞれはアルファベット内の各々異
なるシンボルと関連づけられ、かつ、該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
Ｔ−１番目との間のレベルのポインタは、出力シンボル
のシーケンスを表すポインタのシーケンスを形成し、各
該ポインタのシーケンスは該ルートノードから各々異な
る該リーフノードの１つに続き、各リーフノードは出力
シンボルの各々異なるシーケンスと関連づけられてい
る、情報ツリーを確立するステップと、（ｂ）プロシージャを実行するステップであり、該ステ
ップは、（１）該レベルの１つの該ノードの各々の部分
集合の１つに対して、（ｉ）該ルートノードからある１つのノードへ続く該ポ
インタのシーケンスの１つ内の該ポインタの１つが該文
書の１つのあるレベルにおける該出力シンボルを表す確
率を決定するステップと、（ｉｉ）ステップ（ｂ）（１）（ｉ）で決定された確率
が該１つのレベルの該最小確率値を超え、かつ、次のレ
ベルが１番目のレベルと該Ｔ−１番目のレベルとの間に
ある場合、該次のレベルにおけるノードに対して該プロ
シージャを実行するステップと、（ｉｉｉ）該次のレベルがＴ番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタのシーケ
ンスの該１つと関連づけられた該リーフノードの該ポイ
ンタのリストに、該１つの文書へのポインタを付加する
ステップと、を行うことを含むステップと、（ｃ）該１つの文書以外の各該複数の文書に対してステ
ップ（ｂ）を繰り返すステップと、を包含する複数の手
書き電子文書のインデックス付け方法。
【請求項８】前記ステップ（ｂ）（１）は、（ｉｖ）前記確率が前記レベルのうちの一つの前記各最
小確率値よりも小である場合、前記一つのノードがルー
トノードであるサブツリー内にあるどのノードに対して
も前記ステップ（ｂ）（２）の繰り返しを中断するステ
ップをさらに包含する、請求項７に記載の方法。
【請求項９】前記方法は、（ｄ）Ｔ個の入力シンボルの集合を与えるステップと、（ｅ）該Ｔ個の入力シンボルに対応するポインタのシー
ケンスのうちの１つを選択するステップと、（ｆ）該選択されたポインタのシーケンスが続く該リー
フノードに格納された該ポインタのリストを取り出すス
テップと、（ｇ）探索によって見いだされる際に、該取り出された
リストにおける該ポインタが指す前記複数の文書の部分
集合を識別するステップと、をさらに包含する、請求項
７に記載の複数の手書き電子文書のインデックス付けお
よび探索方法。
【請求項１０】複数の手書き電子文書のインデックス
付け方法であって、各手書きの電子文書が出力シーケン
ス中に順序づけられた複数の出力シンボルを含み、各文
書が隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個の出力シンボルを含む共通アルファベットおよびＴ個
のシンボルの共通出力シーケンス長を有しており、ここ
でｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルと該Ｔ−１番目のレベルとの間の各ノードはｎ個
のポインタを有し、各ポインタは各該ノードの異なるサ
ブツリーを識別し、該Ｔ番目のレベルにおける各該ノー
ドは各文書を識別するポインタの各リストを有してい
る、情報ツリーを確立するステップと、（ｂ）各該レベルに対してしきい値を確立するステップ
と、（ｃ）該文書の一つに対する該ＨＭＭが、アルファベッ
トのｋ番目の出力シンボルを該１つの文書のｊ番目の出
力シンボルを表すものとして識別する確率を計算するス
テップと（ここで、ｋは０とｎ−１との間の整数、ｊは
０とＴ−１との間の整数）、（ｄ）ステップ（ｃ）で計算された該確率が該ｊ番目の
レベルの該しきい値よりも大である場合、該ｊ番目のレ
ベルにおける該ノードの１つのｋ番目のポインタを該１
つのノードの該サブツリーの１つを指すように設定し、
該１つのサブツリーは該Ｔ番目のレベルにおけるノード
の部分集合を含むステップと、（ｅ）ｊを１でインクリメントするステップと、（ｆ）（１）ｊがＴ未満であり、かつ、（２）ステップ
（ｃ）で計算される該確率が該ｊ番目のレベルの該しき
い値よりも大である間、各レベルｊに対してステップ
（ｃ）から（ｅ）を繰り返し、それによってポインタの
シーケンスを形成するステップと、（ｇ）ｋの各値に対してステップ（ｃ）〜（ｆ）を繰り
返すステップと、（ｈ）該１つの文書において通常１からＴ−１まで番号
を付けられた出力信号の各々をポインタのシーケンスが
識別する確率が該Ｔ番目のレベルの該しきい値よりも大
である場合、該Ｔ番目のレベルにおける該リストの一つ
の中の文書を識別するステップと、（ｉ）該複数の文書の各々に対してステップ（ｃ）〜
（ｇ）を繰り返すステップと、を包含する複数の手書き
電子文書のインデックス付け方法。
【請求項１１】複数の手書き電子文書のインデックス
付け方法であって、各手書きの電子文書が出力シーケン
ス中に順序づけられた複数の出力シンボルを含み、各文
書が隠れマルコフモデル（Hidden Markov Model: ＨＭ
Ｍ）によってモデル化され、該隠れマルコフモデルはｎ
個の出力シンボルを含む共通アルファベットおよびＴ個
のシンボルの共通出力シーケンス長を有しており、ここ
でｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からＴ番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該Ｔ番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとＴ−１との間
の各レベルは最小確率値を有する、該情報ツリーを確立
するステップと、（ｂ）各々異なる数のポインタを該ゼロ番目のレベルと
該Ｔ−１番目のレベルの間の各ノードに付加するステッ
プであって、該ポインタの数は０とｎの間であり、各ポ
インタは該ツリーの次のレベルにおいて各々異なるノー
ドを識別し、該ゼロ番目のレベルと該Ｔ−１番目のレベ
ルの間のポインタはシンボルのシーケンスを表すポイン
タのシーケンスを形成し、各ポインタのシーケンスは該
ルートノードから各々異なる該リーフノードの１つに続
き、各リーフノードは各々異なるシンボルのシーケンス
と関連づけられているステップであり、（１）該レベル
の１つにおける該ノードの各々に対して、（ｉ）該ルートノードから該ノードへ続くポインタのシ
ーケンスの１つの部分集合が該文書の１つにおいて該出
力シンボルの部分集合を表す確率を決定するステップ
と、（ｉｉ）ステップ（ｂ）（１）（ｉ）において決定され
た確率が該１つのレベルの該最小確率値を超え、次のレ
ベルが該１番目のレベルと該Ｔ−１番目のレベルとの間
にある場合、該次のレベルにおいてノードを付加するス
テップと、（ｉｉｉ）該ノードが付加された場合、該次のレベルに
おいて付加されたノードに対してプロシージャを実行す
るステップと、（ｉｖ）該次のレベルが該Ｔ番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタの該１つ
のシーケンスと関連づけられた該リーフノードのポイン
タの該リストにおいて該１つの文書にポインタを付加す
るステップを行うステップと、（ｃ）該１つの文書以外の各該複数の文書に対してステ
ップ（ｂ）を繰り返すステップと、を包含する複数の手
書き電子文書のインデックス付け方法。
【請求項１２】複数の手書き電子文書のインデックス
付けおよび探索方法であって、各手書きの電子文書が出
力シーケンス中に順序づけられた複数の出力シンボルを
含み、それぞれが隠れマルコフモデル（Hidden Markov
Model: ＨＭＭ）によってモデル化され、該隠れマルコ
フモデルはｎ個のシンボルを含む共通アルファベットお
よびＴ個のシンボルの共通出力シーケンス長を有してお
り、ここでｎおよびＴは整数であり、該方法は、（ａ）メモリに格納され、リンクされたノードのＴ＋１
個のレベルを有する情報ツリーであって、該レベルは通
常ゼロ番目からＴ番目まで番号を付けられ、該ゼロ番目
のレベルと該Ｔ−１番目のレベルとの間の各ノードはｎ
個のポインタを有し、各ポインタは各該ノードの異なる
サブツリーを識別し、該Ｔ番目のレベルにおける各該ノ
ードは各文書を識別するポインタの各リストを有してい
る、該情報ツリーを確立するステップと、（ｂ）各レベルに対してしきい値をそれぞれ確立するス
テップと、（ｃ）該文書の１つに対する該ＨＭＭがアルファベット
のｋ番目のシンボルを、該１つの文書のｊ番目の出力シ
ンボルを表すものとして識別する確率を計算するステッ
プと（ここでｋは０とｎ−１との間の整数、ｊは０とＴ
−１との間の整数）、（ｄ）ステップ（ｃ）において計算された確率が該ｊ番
目のレベルの該しきい値よりも大である場合、該ｊ番目
のレベルにおける該ノードの１つのｋ番目のポインタを
該１つのノードの該サブツリーの１つを指すように設定
し、該１つのサブツリーは該Ｔ番目のレベルにおけるノ
ードの部分集合を含むステップと、（ｅ）ｊを１でインクリメントするステップと、（ｆ）（１）ｊがＴ未満であり、（２）ステップ（ｃ）
で計算される該確率が該ｊ番目のレベルの該しきい値よ
りも大である場合、各レベルｊに対してステップ（ｃ）から（ｅ）を繰り返し、それによってポインタの
シーケンスを形成するステップと、（ｇ）ｋの各値に対してステップ（ｃ）〜（ｆ）を繰り
返すステップと、（ｈ）該１つの文書における通常１番目からＴ−１番目
まで番号を付けられた各出力信号を識別するポインタの
シーケンスの確率が該Ｔ番目のレベルの該しきい値より
も大である場合、該Ｔ番目のレベルにおける該リストの
１つの中の文書を識別するステップと、（ｉ）該複数の文書の各々に対してステップ（ｃ）〜
（ｇ）を繰り返すステップと、（ｊ）Ｔ個の入力シンボルの集合を与えるステップと、（ｋ）第１のレベルにおける該ノードの１つを選択する
ステップと、（ｌ）ゼロとＴ−１の間のｊの各値に対して、（１）ｋ
_jがゼロとｎ−１の間の整数であるとき、該選択された
ノードのｋ_j番目の出力シンボルが該ｊ番目の入力シン
ボルと一致するように、ｊ番目の入力シンボルに対する
各インデックスｋ_jを識別するステップと、（２）ステ
ップ（ｌ）（１）において選択された該ノードの該ｋ_j
番目のポインタが指す、ｊ＋１レベルにおけるノードを
選択するステップと、を繰り返すステップと、（ｍ）該探索によって見いだされる際に該Ｔ番目のレベ
ルにおいて該選択されたノードが指す該複数の文書の該
部分集合を選択するステップと、を包含する複数の手書
き電子文書のインデックス付けおよび探索方法。