JPH07319924A - 手書き電子文書のインデックス付けおよび探索方法 - Google Patents

手書き電子文書のインデックス付けおよび探索方法

Info

Publication number
JPH07319924A
JPH07319924A JP7124120A JP12412095A JPH07319924A JP H07319924 A JPH07319924 A JP H07319924A JP 7124120 A JP7124120 A JP 7124120A JP 12412095 A JP12412095 A JP 12412095A JP H07319924 A JPH07319924 A JP H07319924A
Authority
JP
Japan
Prior art keywords
level
node
pointers
document
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7124120A
Other languages
English (en)
Inventor
Baabara Danieru
バーバラ ダニエル
Arefu Waritsudo
アレフ ワリッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH07319924A publication Critical patent/JPH07319924A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2276Character recognition characterised by the type of writing of cursive writing using stroke segmentation with probabilistic networks, e.g. hidden Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 HMMによってモデル化された複数の手書き
の電子文書の検索の高速化を図るためのインデックス付
け方法と探索方法を提供し、かつインデックス付けに必
要な時間とスペースを削減する方法を提供することにあ
る。 【構成】 本発明のインデックス付け方法は、n個のシ
ンボルを含み、シーケンス長Tを有するHMMによって
モデル化された文書に対して、(1)0からT−1レベル
の各レベルは最小確率値を有するインデックスを確立す
るステップと、(2)各ノードに対して、格納されている
シンボルが文書の出力信号を表す確率を決定するステッ
プと、(3)決定された確率と、そのレベルでの最小確率
値とを比較するステップと、(4)文書へのポインタをT
レベルのノードのポインタリストに追加するステップと
を有しており、それぞれの文書に対してこれらのステッ
プを繰り返すことによってインデックス付けが実現され
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベース中の文書
を探索する方法一般に関し、特に、手書きの電子文書を
インデックス付けし、探索するための方法に関する。
【0002】
【従来の技術】コンピュータにおいて、ペン型インター
フェースの導入とともに、電子絵画および手書きの文書
が普通に用いられるようになってきている。最近の製品
においてキーボードは、全てのデータ入力が実現できる
ペンによっておきかえられている。
【0003】D.LoprestiおよびA.Tomk
insは、論文「絵文字名(Pictrographic Naming)」、
INTERCHI、1993年4月、補会報(絵文字名(pic
tographic name)の使用に関する教示について援用)に
おいて、文書名の許容範囲を、任意の手書きの絵を含む
ように拡張することを提案している。文書を作成したと
き、または初めて記憶媒体に記憶するときに、作者は、
文字による名前を打つ代わりに、絵文字名を描く。後に
文書の1つを検索するときには、絵文字名をメニューま
たは「ブラウザ」に表示し、使用者は所望の絵文字名を
選択する。データベースが約8から12以上の文書を含
むときには、検索中に全ての絵文字名を表示することは
現実的ではなくなる。
【0004】後で文書の1つを検索するための別の方法
では、ペン型のインターフェースを用いて絵文字名をも
う1度描く。手書きの絵は毎回全く同じには描かれない
ので、任意の手書きの絵(すなわち入力シーケンス)が
どの文書(すなわち出力シーケンス)を表しているかを
決定するためには、パターン認識技術が必要となる。
【0005】手書きの絵の使用によって文書を識別する
ために提案された技術の1つは、隠れマルコフモデル
(HMM:Hidden Markov Model)を用いて入力シーケ
ンスに最も似た絵文字名を有する文書候補のリストを与
えるものである。このリストから、ペンを用いて1つの
ファイルが選択される。HMMによれば、絵および手書
き文書マッチングのための強力なツールが提供される。
数人の研究者が、HMMを用いて手書きおよび手書きさ
れた文書をモデル化してきた。
【0006】Rabiner L.R.の「音声認識に
おける隠れマルコフモデルおよび選ばれたアプリケーシ
ョンに関するチュートリアル(A Tutorial on Hidden Ma
rkovModels and selected Applications in Speech Rec
ognition)」IEEE会報、77(2):257−285、1989年2
月を、HMMのパターン認識への使用に関する教示に関
して援用する。
【0007】形式的には、HMMは、観察され得ない
(隠れた)推計的(stochastic)プロセスであって観察さ
れたシンボルのシーケンスを生成する1群の推計的プロ
セスによって明らかにされるような推計的プロセスを含
んだ2重に推計的なプロセスである。数学的には、HM
Mは集合<σ、Q、a、b>である。
【0008】上記式において、 1)σは出力シンボルの(有限の)アルファベット文字
である。シンボルは、典型的には文字の部分集合であ
る。
【0009】2)Qは状態の集合であり、N個の状態モ
デルに対し、Q={0、...、N−1}である。
【0010】3)aは状態間の遷移を支配する確率分布
である。状態iからjへ遷移する確率は、aijによって
表される。遷移確率aijは、0から1の間であって、下
記の式(1)を満たす実数である。
【0011】
【数1】
【0012】この分布は状態の初期分布すなわち最初の
状態をiとしたとき、確率aiを含む。
【0013】4)bは、各状態における出力シンボルの
分布を支配する出力確率分布bi(s)である。すなわ
ち、bi(s)は状態iの間にシンボルs∈σを生成す
る確率である。これら確率は、以下の法則に従う。
【0014】
【数2】
【0015】
【数3】
【0016】通常、HMMが用いられる場合、遷移確率
(a)および状態集合(Q)は、モデルを1連のサンプ
ルに最適に適合させることによって計算される(これは
モデルを「訓練すること(training)」として知られてい
る)。各サンプルは、出力シンボル(ポイント)シーケ
ンスからなり、この出力シンボル(ポイント)シーケン
スを用いることによってモデルのパラメータが調整され
得る。しかし、手書き文書認識のようなアプリケーショ
ンの場合、モデルは1つのサンプル(インデックスされ
る文書の出力シンボルのシーケンス)を用いて記述され
る。よって非常にしばしば、モデルの構造は、それを訓
練するために用いるサンプルの欠如を補うために「固
定」されている。すなわち、モデルが一旦インデックス
に対して選択されると、そのモデルは前記インデックス
に対して常に用いられる。このモデルはインデックスの
生成後に動的に変化されることはない。例えば、「左か
ら右(left-to-right)」HMMを用いることが、可能で
ある。この「左から右」HMMとは、現状態に留まるこ
と、またはシーケンス中の次の状態にジャンプすること
のみが可能なモデルのことである。
【0017】
【発明が解決しようとする課題】手書き文書問題に関し
ては、データベース中の各絵または文書は、HMMによ
ってモデル化される。従って、入力パターンが与えられ
たとき、認識プロセスは、データベース中の各HMMを
実行しかつ最も高い確率で入力パターンを生成するHM
Mを選択することを包含する。これは非常に時間を浪費
する。HMMを用いることの主な障害は、実行速度、特
に大型データベースの場合における実行速度である。1
つの文書を検索するためにデータベース中の各文書に対
してリアルタイムにHMMを実行することは、1文書の
検索プロセスにおいて容認できない遅れをもたらし、こ
の方法による絵文字名の使用を非実用的なものにする。
【0018】本発明は、複数の電子的に手書きされた文
書をインデックス付けするための方法に関する。
【0019】本発明はこのような現状に鑑みてなされた
ものであり、その目的とするところは、HMMによって
モデル化された複数の手書きの電子文書の検索の高速化
を図るためにインデックス付けし、探索する方法を提供
することにある。
【0020】本発明の他の目的は、インデックス付けに
必要な時間を削減可能な、複数の手書きの電子文書をイ
ンデックス付けする方法を提供することにある。
【0021】本発明のさらに他の目的は、インデックス
に必要な格納スペースを削減可能な、複数の手書きの電
子文書にインデックス付けする方法を提供することにあ
る。
【0022】
【課題を解決するための手段】本発明による複数の手書
き電子文書のインデックス付け方法は、該複数の手書き
電子文書のそれぞれは出力シーケンス中に順序づけられ
た複数の出力シンボルを含み、該複数の手書き電子文書
のそれぞれは、対応する隠れマルコフモデル(Hidden M
arkov Model: HMM)によってモデル化され、該隠れ
マルコフモデルはn個のシンボルを含む共通アルファベ
ットおよびT個のシンボルの共通出力シーケンス長を有
しており、ここでnおよびTは整数であり、該方法は、 (a)T個のレベルを有するインデックスを確立するス
テップであって、該レベルのうちのゼロとT−1との間
のレベルは最小確率値をそれぞれ有しており、該レベル
のそれぞれは少なくとも1つのノードを有しているステ
ップと、 (b)該インデックスの該レベルの1つにおける各ノー
ドに対して、(1)各該HMMを該1つの文書に用い
て、該ノード内に格納されているシンボルが該1つの文
書内の対応する出力信号を表す確率を決定するステップ
と、(2)ステップ(b)(1)で決定された該確率が
該1つのレベルの最小確率値を超え、次のレベルが1番
目のレベルとT−1番目のレベルとの間にある場合、該
インデックスの該次のレベルにおいてノードを付加する
ステップと、(3)該ノードがステップ(b)(2)で
付加された場合、該次のレベルにおいて該付加されたノ
ードに対してステップ(b)を実行するステップと、
(4)該次のレベルがT番目のレベルであり、ステップ
(b)(1)で決定された該確率が該T−1番目のレベ
ルの該最小確率値よりも大である場合、該インデックス
の該T番目のレベルにおけるノードに格納されているポ
インタのリストに、該1つの文書へのポインタを付加す
るステップと、を行うことによって該文書の1つに該シ
ンボルをインデックス付けするステップと、 (c)該1つの文書以外の該複数の文書の各々にステッ
プ(b)を繰り返すステップと、を包含しており、その
ことにより上記目的が達成される。
【0023】本発明による別の複数の手書き電子文書の
インデックス付け方法は、各手書きの電子文書が出力シ
ーケンス中に順序づけられた複数の出力シンボルを含
み、各文書が隠れマルコフモデル(Hidden Markov Mode
l: HMM)によってモデル化され、該隠れマルコフモ
デルはn個の出力シンボルを含む共通アルファベットお
よびT個のシンボルの共通出力シーケンス長を有してお
り、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からT番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該T番目のレベルにおけ
る各ノードはリーフノードであり、該ゼロ番目のレベル
とT−1番目のレベルとの間の各ノードはn個のポイン
タを有し、それぞれは異なる出力シンボルに対応し、か
つ、各ノードの異なるサブツリーを識別し、該ゼロ番目
のレベルと該T−1番目のレベルとの間の該ポインタは
ポインタのシーケンスを形成し、各該ポインタのシーケ
ンスは該ルートノードから各々異なる該リーフノードの
1つまで続いている、情報ツリーを確立するステップ
と、 (b)該リーフノードの1つにおける該複数の文書の部
分集合を識別するポインタの各リストを格納するステッ
プであって、(1)文書に対して各々HMMを用いて、
該ルートノードから該1つのリーフノードまで続く各該
ポインタのシーケンスが該文書の1つの該各出力シーケ
ンスを表す確率を該1つのリーフノードに対して決定す
るステップと、(2)該確率がしきい値よりも大である
場合、該1つのリーフノードの該ポインタのリストに、
該1つの文書へのポインタを付加するステップと、
(3)各該複数の文書のそれぞれに対してステップ
(1)および(2)を繰り返すステップと、を含むステ
ップと、 (c)該1つのリーフノード以外の各該リーフノードに
対してステップ(b)を繰り返すステップと、を包含し
ておりそのことにより上記目的が達成される。
【0024】また、ゼロとT−1の間の各レベルは最小
確率値を有し、ステップ(b)(1)は、 (i)前記ルートノードからj番目のノードに続く前記
ポインタのシーケンスの部分集合が、前記1つの文書に
おける初めのj+1個のシンボルを表す確率を決定する
ステップと(ここでjは0とT−1との間の整数)、 (ii)j−1番目のレベルに対してステップ(i)で
決定された前記確率が該j−1番目のレベルの各該最小
確率値を超える間、1とT−1との間のjの各値に対し
てステップ(i)を繰り返すステップと、を包含してい
てもよい。
【0025】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル(Hidden Markov
Model: HMM)によってモデル化され、該隠れマルコ
フモデルはn個の出力シンボルを含む共通アルファベッ
トおよびT個のシンボルの共通出力シーケンス長を有し
ており、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からT番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを表し、該T番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとT−1との間
のツリーの各レベルは異なる最小確率値を有し、該ゼロ
番目のレベルと該T−1番目のレベルとの間の各ノード
はn個のポインタを有し、それぞれは該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
T−1番目との間のレベルのポインタは出力シンボルの
シーケンスを表すポインタのシーケンスを形成し、各該
ポインタのシーケンスは該ルートノードから各々異なる
該リーフノードの1つに続き、各リーフノードは異なる
出力シンボルのシーケンスと関連づけられている、情報
ツリーを確立するステップと、 (b)該文書の1つに対して、該ツリーに情報を格納す
るステップであり、該ステップは、(1)該レベルの1
つの該ノードの各部分集合に対して、 (i)該ルートノードから該1つのノードへ続く該ポイ
ンタのシーケンスの一つのサブシーケンスが該1つの文
書において該出力シンボルの対応する部分集合を表す確
率を決定するステップと、 (ii)ステップ(b)(1)(i)で決定された該確
率が該1つのレベルの該最小確率値を超え、かつ、次の
レベルが該1番目のレベルと該T−1番目のレベルとの
間にある場合、該次のレベルにおけるノードに対してス
テップ(b)を呼び出すステップと、 (iii)該次のレベルが該T番目のレベルであり、か
つ、該確率が該しきい値よりも大である場合、該ポイン
タのシーケンスの1つと関連づけられた該リーフノード
の該ポインタのリストに、該1つの文書へのポインタを
付加するステップと、を含むステップと、 (c)該1つの文書以外の該複数の文書の各々に対して
ステップ(b)を繰り返すステップと、を包含してお
り、そのことにより上記目的が達成される。
【0026】好ましくは、前記ステップ(b)(1)
は、 (iv)前記確率が前記レベルのうちの1つのレベルの
前記各最小確率値よりも小さい場合、前記ステップ
(b)(2)の繰り返しを中断するステップをさらに包
含している。
【0027】好ましくは、前記方法は、 (d)T個の入力シンボルの集合を与えるステップと、 (e)該T個の入力シンボルに対応するポインタのシー
ケンスの1つを選択するステップと、 (f)探索によって見いだされる際に、該選択されたポ
インタのシーケンスが続く前記リーフノードの前記リス
トにおける前記複数の文書の部分集合を識別するステッ
プと、をさらに包含している。
【0028】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル(Hidden Markov
Model: HMM)によってモデル化され、該隠れマルコ
フモデルはn個の出力シンボルを含む共通アルファベッ
トおよびT個のシンボルの共通出力シーケンス長を有し
ており、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からT番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードであり、該T番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとT−1との間
の各レベルは異なる最小確率値を有し、該ゼロ番目のレ
ベルと該T−1番目のレベルとの間の各ノードはn個の
ポインタを有し、それぞれはアルファベット内の各々異
なるシンボルと関連づけられ、かつ、該ツリーの次のレ
ベルにおいて各々異なるノードを識別し、該ゼロ番目と
T−1番目との間のレベルのポインタは、出力シンボル
のシーケンスを表すポインタのシーケンスを形成し、各
該ポインタのシーケンスは該ルートノードから各々異な
る該リーフノードの1つに続き、各リーフノードは出力
シンボルの各々異なるシーケンスと関連づけられてい
る、情報ツリーを確立するステップと、 (b)プロシージャを実行するステップであり、該ステ
ップは、(1)該レベルの1つの該ノードの各々の部分
集合の1つに対して、 (i)該ルートノードからある1つのノードへ続く該ポ
インタのシーケンスの1つ内の該ポインタの1つが該文
書の1つのあるレベルにおける該出力シンボルを表す確
率を決定するステップと、 (ii)ステップ(b)(1)(i)で決定された確率
が該1つのレベルの該最小確率値を超え、かつ、次のレ
ベルが1番目のレベルと該T−1番目のレベルとの間に
ある場合、該次のレベルにおけるノードに対して該プロ
シージャを実行するステップと、 (iii)該次のレベルがT番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタのシーケ
ンスの該1つと関連づけられた該リーフノードの該ポイ
ンタのリストに、該1つの文書へのポインタを付加する
ステップと、を行うことを含むステップと、 (c)該1つの文書以外の各該複数の文書に対してステ
ップ(b)を繰り返すステップと、を包含しておりその
ことにより上記目的が達成される。
【0029】好ましくは、前記ステップ(b)(1)
は、 (iv)前記確率が前記レベルのうちの一つの前記各最
小確率値よりも小である場合、前記一つのノードがルー
トノードであるサブツリー内にあるどのノードに対して
も前記ステップ(b)(2)の繰り返しを中断するステ
ップをさらに包含している。
【0030】好ましくは、前記方法は、 (d)T個の入力シンボルの集合を与えるステップと、 (e)該T個の入力シンボルに対応するポインタのシー
ケンスのうちの1つを選択するステップと、 (f)該選択されたポインタのシーケンスが続く該リー
フノードに格納された該ポインタのリストを取り出すス
テップと、 (g)探索によって見いだされる際に、該取り出された
リストにおける該ポインタが指す前記複数の文書の部分
集合を識別するステップと、をさらに包含している。
【0031】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル(Hidden Markov
Model: HMM)によってモデル化され、該隠れマルコ
フモデルはn個の出力シンボルを含む共通アルファベッ
トおよびT個のシンボルの共通出力シーケンス長を有し
ており、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からT番目までの番号を付けられ、該ゼロ番目の
レベルと該T−1番目のレベルとの間の各ノードはn個
のポインタを有し、各ポインタは各該ノードの異なるサ
ブツリーを識別し、該T番目のレベルにおける各該ノー
ドは各文書を識別するポインタの各リストを有してい
る、情報ツリーを確立するステップと、 (b)各該レベルに対してしきい値を確立するステップ
と、 (c)該文書の一つに対する該HMMが、アルファベッ
トのk番目の出力シンボルを該1つの文書のj番目の出
力シンボルを表すものとして識別する確率を計算するス
テップと(ここで、kは0とn−1との間の整数、jは
0とT−1との間の整数)、 (d)ステップ(c)で計算された該確率が該j番目の
レベルの該しきい値よりも大である場合、該j番目のレ
ベルにおける該ノードの1つのk番目のポインタを該1
つのノードの該サブツリーの1つを指すように設定し、
該1つのサブツリーは該T番目のレベルにおけるノード
の部分集合を含むステップと、 (e)jを1でインクリメントするステップと、 (f)(1)jがT未満であり、かつ、(2)ステップ
(c)で計算される該確率が該j番目のレベルの該しき
い値よりも大である間、各レベルjに対してステップ
(c)から(e)を繰り返し、それによってポインタの
シーケンスを形成するステップと、 (g)kの各値に対してステップ(c)〜(f)を繰り
返すステップと、 (h)該1つの文書において通常1からT−1まで番号
を付けられた出力信号の各々をポインタのシーケンスが
識別する確率が該T番目のレベルの該しきい値よりも大
である場合、該T番目のレベルにおける該リストの一つ
の中の文書を識別するステップと、 (i)該複数の文書の各々に対してステップ(c)〜
(g)を繰り返すステップと、を本願しておりそのこと
により上記目的が達成される。
【0032】本発明によるさらに別の複数の手書き電子
文書のインデックス付け方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、各文書が隠れマルコフモデル(Hidden Markov
Model: HMM)によってモデル化され、該隠れマルコ
フモデルはn個の出力シンボルを含む共通アルファベッ
トおよびT個のシンボルの共通出力シーケンス長を有し
ており、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
レベルを有する情報ツリーであって、該レベルは通常ゼ
ロ番目からT番目までの番号を付けられ、該ゼロ番目の
レベルはルートノードを有し、該T番目のレベルにおけ
る各ノードはリーフノードであり、ゼロとT−1との間
の各レベルは最小確率値を有する、該情報ツリーを確立
するステップと、 (b)各々異なる数のポインタを該ゼロ番目のレベルと
該T−1番目のレベルの間の各ノードに付加するステッ
プであって、該ポインタの数は0とnの間であり、各ポ
インタは該ツリーの次のレベルにおいて各々異なるノー
ドを識別し、該ゼロ番目のレベルと該T−1番目のレベ
ルの間のポインタはシンボルのシーケンスを表すポイン
タのシーケンスを形成し、各ポインタのシーケンスは該
ルートノードから各々異なる該リーフノードの1つに続
き、各リーフノードは各々異なるシンボルのシーケンス
と関連づけられているステップであり、(1)該レベル
の1つにおける該ノードの各々に対して、 (i)該ルートノードから該ノードへ続くポインタのシ
ーケンスの1つの部分集合が該文書の1つにおいて該出
力シンボルの部分集合を表す確率を決定するステップ
と、 (ii)ステップ(b)(1)(i)において決定され
た確率が該1つのレベルの該最小確率値を超え、次のレ
ベルが該1番目のレベルと該T−1番目のレベルとの間
にある場合、該次のレベルにおいてノードを付加するス
テップと、 (iii)該ノードが付加された場合、該次のレベルに
おいて付加されたノードに対してプロシージャを実行す
るステップと、 (iv)該次のレベルが該T番目のレベルであり、該確
率が該しきい値よりも大である場合、ポインタの該1つ
のシーケンスと関連づけられた該リーフノードのポイン
タの該リストにおいて該1つの文書にポインタを付加す
るステップを行うステップと、 (c)該1つの文書以外の各該複数の文書に対してステ
ップ(b)を繰り返すステップと、を包含しておりその
ことにより上記目的が達成される。
【0033】本発明による複数の手書き電子文書のイン
デックス付けおよび探索方法は、各手書きの電子文書が
出力シーケンス中に順序づけられた複数の出力シンボル
を含み、それぞれが隠れマルコフモデル(Hidden Marko
v Model: HMM)によってモデル化され、該隠れマル
コフモデルはn個のシンボルを含む共通アルファベット
およびT個のシンボルの共通出力シーケンス長を有して
おり、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
個のレベルを有する情報ツリーであって、該レベルは通
常ゼロ番目からT番目まで番号を付けられ、該ゼロ番目
のレベルと該T−1番目のレベルとの間の各ノードはn
個のポインタを有し、各ポインタは各該ノードの異なる
サブツリーを識別し、該T番目のレベルにおける各該ノ
ードは各文書を識別するポインタの各リストを有してい
る、該情報ツリーを確立するステップと、 (b)各レベルに対してしきい値をそれぞれ確立するス
テップと、 (c)該文書の1つに対する該HMMがアルファベット
のk番目のシンボルを、該1つの文書のj番目の出力シ
ンボルを表すものとして識別する確率を計算するステッ
プと(ここでkは0とn−1との間の整数、jは0とT
−1との間の整数)、 (d)ステップ(c)において計算された確率が該j番
目のレベルの該しきい値よりも大である場合、該j番目
のレベルにおける該ノードの1つのk番目のポインタを
該1つのノードの該サブツリーの1つを指すように設定
し、該1つのサブツリーは該T番目のレベルにおけるノ
ードの部分集合を含むステップと、 (e)jを1でインクリメントするステップと、 (f)(1)jがT未満であり、(2)ステップ(c)
で計算される該確率が該j番目のレベルの該しきい値よ
りも大である場合、各レベルjに対してステップ(c)
から(e)を繰り返し、それによってポインタのシーケ
ンスを形成するステップと、 (g)kの各値に対してステップ(c)〜(f)を繰り
返すステップと、 (h)該1つの文書における通常1番目からT−1番目
まで番号を付けられた各出力信号を識別するポインタの
シーケンスの確率が該T番目のレベルの該しきい値より
も大である場合、該T番目のレベルにおける該リストの
1つの中の文書を識別するステップと、 (i)該複数の文書の各々に対してステップ(c)〜
(g)を繰り返すステップと、 (j)T個の入力シンボルの集合を与えるステップと、 (k)第1のレベルにおける該ノードの1つを選択する
ステップと、 (l)ゼロとT−1の間のjの各値に対して、(1)k
jがゼロとn−1の間の整数であるとき、該選択された
ノードのkj番目の出力シンボルが該j番目の入力シン
ボルと一致するように、j番目の入力シンボルに対する
各インデックスkjを識別するステップと、(2)ステ
ップ(l)(1)において選択された該ノードの該kj
番目のポインタが指す、j+1レベルにおけるノードを
選択するステップと、を繰り返すステップと、 (m)該探索によって見いだされる際に該T番目のレベ
ルにおいて該選択されたノードが指す該複数の文書の該
部分集合を選択するステップと、を包含しており、その
ことにより上記目的が達成される。
【0034】
【作用】各文書は、出力シーケンス順に並べられた複数
の出力シンボルを含む。各文書は、各HMMによってモ
デル化される。HMMは、n個の出力シンボルを含む通
常のアルファベットを有し、T個のシンボルからなる通
常の出力シーケンス長を有する。ここで、nおよびTは
ともに整数である。
【0035】また、情報ツリーが確立される(establish
ed)。各ツリーは、T+1個のレベルのリンクされたノ
ードをメモリに格納した形で有している。T+1個のレ
ベルはゼロ番目からT番目まで順にナンバリングされて
いる。ゼロ番目のレベルはルートノードを有している。
T番目のレベルの各ノードはリーフノードである。ゼロ
番目のレベルとT−1番目のレベルまでの各ノードはn
個のポインタを有している。n個のポインタの各々は、
次のレベルのツリーのそれぞれ異なるノードを表してい
る。ゼロ番目とT−1番目の間のレベルのポインタはポ
インタシーケンスを形成する。各ポインタシーケンス
は、ルートノードからそれぞれ異なる1つのリーフノー
ドに続く。各リーフノードは、それぞれ異なる出力シン
ボルシーケンスに関連づけられている。
【0036】1つのレベル中のノードの各部分集合のそ
れぞれに、プロシージャが実行される。プロシージャは
以下のステップを有する。
【0037】(i)ルートノードから任意のノードまで
続くポインタシーケンス群のうちの1つの部分集合が、
インデックス付けされる文書の1つ中の出力シンボルの
部分集合を表している確率を決定することと、(ii)
決定された確率が、そのレベルにおける最小確率値を超
え、かつ次のレベルが1番目のレベルとT−1番目のレ
ベルとの間であるならば、次のレベルに対してプロシー
ジャを呼び出すことと、(iii)もし次のレベルがT
番目のレベルであり、かつ確率がしきい値よりも大であ
れば、リーフノードのポインタのリスト中でそのポイン
タシーケンスに関連づけられた文書にポインタを付加す
ること。
【0038】このプロシージャを、データベース中のイ
ンデックス付けすべき各文書に対し繰り返す。
【0039】発明の別の局面においては、文書はT個の
入力シンボル集合を用いて探索される。T個の入力シン
ボルに対応するポインタシーケンスが選択される。リー
フノードのリスト中の複数の文書中の,選ばれたポイン
タシーケンスが示している部分集合が、探索によって発
見されたものであると識別される。
【0040】
【実施例】図1を参照して説明を行う。本発明は、複数
の電子的に手書きされた例えばD1〜D10のような文書
をインデックスする方法に関する。簡略化のため、図1
は、アルファベットが2つのシンボル(0および1)し
か有さず、かつシーケンス長が3シンボルであるインデ
ックスを示している。本発明によれば、各文書の特徴
は、インデックス時における前処理段階においてHMM
を用いて分析され、インデックスに格納される。
【0041】HMM分析の結果は、後に文書検索操作中
において、類似の特徴を有する入力シーケンスを認識す
るために用いられる。文書が検索される度毎にHMMを
実行する必要はない。検索中において、各特徴は、イン
デックス中に格納されたシーケンスと単純に比較され、
予め実行されていたHMMの結果が、入力シンボルシー
ケンスによって表されている確率が高い文書を識別す
る。このように、入力シーケンスが検知されるとき、マ
ッチする出力シーケンスを識別するための解釈を直接行
うわけではなく、格納されたHMMを用いることによっ
て、予め認識された出力シーケンスに対して比較を行
う。
【0042】文書は、レポジトリまたはデータベースに
格納される。各文書D1〜D10は、出力シーケンス中に
順序づけられた複数のシンボルを含む。文書がデータベ
ースに加えられたときは、文書から固定の整数(T)個
のシンボルがインデックス付けのために用いられる。こ
れらのT個のシンボルは、絵文字名を形成していても良
く、または文書自体のテキスト中の最初のT個のシンボ
ルであっても良い。実施例においては、出力シーケンス
長Tを文書名におけるシンボル数とする。
【0043】各文書D1〜D10は、各HMMによってモ
デル化される。HMMは、n個の出力シンボルを含む通
常のアルファベットを有し、T個のシンボルからなる通
常の出力シーケンス長を有する。ここで、nは整数であ
る。
【0044】以下、文書中の出力シンボルとは、文書名
中の出力シンボルを示す。
【0045】インデックスは、ツリー10として構築さ
れる。ツリー10は、T+1個のレベルを有する(ただ
しTは、出力シーケンスのステップ数、またはレポジト
リもしくはデータベース中の文書に関連づけられたHM
Mにおける出力シーケンス長である)。ツリー10のル
ートは、レベル0におけるノード12であり、rによっ
て示される。ツリーの各レベルは文書中の各連続シンボ
ルに対応する。ツリー10の各レベルは、検索の精度を
制御するしきい値に関連づけられている。
【0046】ツリー10の各内部ノード12、22、2
4および31〜34(ルートノード12を含む)は、n
個の集合であり、n個の集合中の各エントリは、出力ア
ルファベットσのそれぞれ異なるシンボルに対応し、サ
ブツリーへのポインタを有している。ν[k]は、ノー
ドν上のk番目のエントリを示す。ただし、kは0から
nの間の整数である(図1に示す例ではn=2)。
【0047】T−1番目における各内部ノード31〜3
4は、リンクされたポインタのリストを含んでいるT番
目のレベル中のリーフノード41−48を指している。
例えば、リンクされたリスト41は、ポインタ41a〜
41cを含んでいる。リンクされたリスト41−48
は、レポジトリ中に文書を含んでいるファイルD1〜D
10へのポインタを格納している。
【0048】ツリーの各ブランチ内の連続するポインタ
は、ポインタのシーケンスを形成する。例えば、図1
に、入力シーケンス0、1、0に対するポインタのシー
ケンス50を示す。すなわち、最初の入力シンボル0が
与えられると、ノード12のゼロ番目のポインタ12a
はノード22を指す。次の入力1が与えられると、ノー
ド22の1番目のポインタ22kはノード32を指す。
次の入力0が与えられると、ノード32のゼロ番目のポ
インタ32aはリーフノード43を指す。
【0049】当業者であれば、可能な入力シーケンスと
リーフノードの間に1対1の対応が成り立っていること
が理解できるであろう。表1は、図1に示される入力シ
ーケンスおよび対応するリーフノードをリストしたもの
である(参照符号によって示す)。
【0050】
【表1】
【0051】文書を挿入するために、T個の出力シンボ
ル集合が文書から抽出される。図1の例においては、3
つのシンボル(T=3)が抽出され、各シンボルはゼロ
または1である。
【0052】n個のアルファベットおよびシーケンス長
Tに対し、nT個の可能な出力シーケンスが存在する。
よって、(図1に示す)ツリーは、各可能な出力シーケ
ンスに対し1つずつ、計nT個のリーフノードを有して
いる。発明の第1の実施例においては、挿入されている
文書に対するHMMは、前処理(挿入)段階においてn
T回実行される(各HMMは全ての可能なシーケンスに
対して異なる回数ずつ実行される)。もし任意の出力シ
ーケンスが文書の出力シーケンスを示している確率がし
きい値よりも高いとHMMが決定すると、その文書への
ポインタが、その出力シーケンスに対応するポインタシ
ーケンスによって識別されるリンクされたリストに、付
加される。この決定は、各リーフノードに対して行われ
る。
【0053】例えば、ツリー10が与えられるとき、文
書D1に対するHMM(HMM1と呼ぶ)は、8回実行さ
れる(表1に示す出力シーケンスの各々に対し1回ず
つ)。HMM1が所与の出力シーケンスに対して実行さ
れるとき、HMM1は、その出力シーケンスが文書D1
の出力シーケンス中のT個のシンボルを示している確率
を決定する。図1に示すように、前記出力シーケンスを
示している確率を所望の値有している(すなわち確率が
しきい値より高い)のは、出力シーケンスの2つのみ
(0、0、0および1、1、0)である。従って、文書
1へのポインタ41aおよび47bがリーフノード4
1および47のリンクされたリストのそれぞれに付加さ
れる。
【0054】リンクされたリストは、その他のHMM
(HMM2、...、HMM10と呼ぶ)を、可能な出力
シーケンスに1回ずつ8回実行することによって完成さ
れる。その後、各出力シーケンスが文書の出力シーケン
スに等しい確率が所望のしきい値を超える各リーフノー
ド41〜48のリンクされたリストに、各文書D2〜D1
0に対するポインタが、付加される。
【0055】一旦文書が以上のように処理されかつイン
デックスされれば、1つの文書または1群の文書の検索
を非常に素早く行うことができる。文書を検索するため
には、使用者は入力デバイスを用いて絵文字名を描き、
入力されたシンボルのシーケンスが検知される。表1に
示した1対1の対応を用いて、ツリーをトラバース(tra
verse)することにより(ルートノード12からリーフノ
ード41〜48へのポインタ経路を通って)、入力シー
ケンスに対応するリーフノード41〜48が発見され
る。
【0056】また、ポインタを格納してツリーをトラバ
ースする代わりに、リーフノード41〜48の位置を入
力シーケンスの関数として計算しても良い(ツリーは全
てのノードが含まれる完全なツリーであるため)。一旦
リーフノードが発見されれば、リーフノードのリンクさ
れたリストに含まれる文書のリストが使用者に提供され
る。
【0057】好ましくは、探索によって発見された文書
の絵文字名は、グラフィカルユーザーインターフェース
を用いることによりメニュー内に絵文字的に表示され
る。使用者は、所望の文書を表示されたリストから選択
する。図1に示す例において一旦使用者が絵文字名を描
くと、発明の実施例においては、最も近い1つないし4
つの名前を有する文書が選択するために表示される。こ
のようにして、もし使用者が入力シンボル0、1、0
(シーケンス50)を有する絵文字名を描いた場合、シ
ステムは文書D3およびD4の絵文字名を表示する。使
用者は、10個の文書から選択しなければならないとい
う手間から免れ、文書検索操作中にHMMを実行するこ
とにともなう遅延が避けられる。
【0058】以上説明した第1のの実施例は、各文書名
中のアルファベットのサイズおよびシンボル数が比較的
短い場合に効果がある。例えば、図1に示すインデック
スでは、アルファベット中に2シンボルしかなく、また
シーケンス長が3シンボルであり、ツリー中のノード総
数は15である。
【0059】しかし、もしアルファベットのサイズまた
は出力シーケンス長が大きくなると、インデックスのサ
イズおよびそれを生成するために必要とする時間が指数
的に増加する。例えば、50個のシンボルが出力シーケ
ンス中に存在し、アルファベットが250個のシーケン
スを含んでいるとすると、インデックスは約10120
個のノードを含んでいる。この場合、多くのデータベー
スに対して上記第1の実施例は非実用的となる。
【0060】インデックスを生成するために必要とする
時間を減少するために、図3を用いて以下に説明するよ
うに、本発明の第2の方法によれば、単に確率を計算
し、かつツリーの中の1つ以上の文書を指しているリー
フノードを有している可能性の高いブランチのためのイ
ンデックスエントリを格納するための方法が提供され
る。第2の実施例も、図1と同様のインデックスを用い
ることが可能である。この方法を図3のフローチャート
を用いて詳細に説明する。
【0061】本発明の更なる局面によれば、ツリー10
は、各文書の、あるレベルにおける文書の出力シーケン
スを表している確率が少なくともしきい値以上である入
力シンボルを示している各レベルのノードのみを包含し
ていてよい。その結果、ツリー10のサイズが相当小さ
くなる。本発明のこの局面を、図4(a)から図4
(c)を用いて詳細に説明する。
【0062】文書を挿入するために、T個の出力シンボ
ル集合がその文書から抽出される。図1に示す概略図に
おいては2つのシンボルしか示していないが、手書き文
書のためのアルファベット例は、16個のシンボルを有
する。手書きの絵はポイントに分割され、各ポイントは
シンボルによって示される。本シンボルアルファベット
例においては、ポイント毎につき4つの特徴が抽出され
る。すなわち、方向、速度、方向の変化、および速度の
変化である。各特徴は、4つの可能な値の集合から導か
れる。その理由は、1つのポイントの特徴ベクタ(シン
ボル)は4ペアのビットを用いて示されるからである。
本シンボルアルファベット例においては、σ中の出力シ
ンボルの各々は、8ビットのベクタ値を用いて表現され
る。他の同等のシンボルアルファベットを用いてもよい
よ考えられる。当業者であれば、ツリーの各ノードがこ
のアルファベット例のために、16個のエントリを有す
ることがことが理解されるであろう。図を簡潔にするた
め、ツリー全体は示していない。
【0063】個々のシンボルは、ペン型インターフェー
ス等の従来技術を用いて検知されるとする。本実施例に
おいて、いったん個々のシンボルが検知されると、「左
から右」HMMがシンボルを分析するために用いられ
る。「左から右」HMMとは、現状態に留まることまた
はシーケンス中の次の状態にジャンプすることのみが可
能なモデルである。
【0064】このようなHMMの1例を図2に示す。こ
のモデルは、0から4までナンバリングされた5つの状
態を含んでいる。このHMM例において、状態iから状
態i+1にジャンプする確率pは、0 ≦ i ≦ n−
1 の時、0.5である。一方、同じ状態に留まる確率
(1− pi)は0.5である。最後の状態に留まる確率
nは、一旦到達すれば、1.0である。選択されたH
MMがインデックスの一生を通じて固定であり、動的に
変化しなければ、他のHMMも使用され得ることが当業
者には理解されるであろう。
【0065】ツリーの各レベルL(0≦ L≦ T)に
は、それぞれ最小確率値εL(0 ≦εL ≦ 1 が割り
付けられる。
【0066】ツリー10中の各ノードq、レベルL、出
力アルファベット中の各シンボルoにおいて、Oq=O
[i1]O[i2]...O[iL]は、ツリーのルート
12からノードqへの経路中のシンボルシーケンスを表
している。そして、データベース中の全てのHMMに対
し(すなわち全ての文書に対し)計算可能である関連づ
けられた剪定関数(pruning function)fm(L、q、
q、o)が存在する。
【0067】図3を参照して、本発明の別の局面に特徴
づけられる実施例を示す。ステップ100、102、1
04、および122を有するループが実行される。ステ
ップ100は、このループが実行されるべき1つの文書
を選択する。ステップ102において、レベルは、挿入
プロシージャ104を開始する前にゼロ(ルートノー
ド)にリセットされる。データベース内の各文書D1
10に対し、ステップ104のプロシージャが実行され
る。
【0068】ステップ104の挿入プロシージャは、ス
テップ108においてkの値をゼロにセットすることに
よって開始する。kは、ツリー10の各レベルのゼロ番
目のノードにおいて0の値を有する整数のインデックス
である。ステップ110において、剪定関数計算が実行
される。与えられたレベルL、与えられたノードν、出
力シーケンスの部分集合O(ノードνとルートとの間の
経路の全てのノードを含む)、およびインデックスkの
任意の値の組み合わせに対し、剪定関数fm(L、ν、
Oν、k)はO中の各シンボルが文書Dmの正しい対応
する出力シンボルを表している確率を与える。
【0069】挿入プロシージャのステップ110におい
て、レベルLのノードνおよび出力シンボルkを処理す
るとき、もし条件fm(L、q、oν、k)≧εLが真
であれば、ステップ112において、ノードν[k]か
ら始まるサブツリーが調べられる。もし真でなければ、
挿入アルゴリズムは、決定ステップ110の「No」ブ
ランチをたどることによって、ノードν[k]から始ま
るサブツリーをスキップする。このことにより、確率計
算の数が減り、結果として、各文書をデータベースに挿
入するときにインデックスする時間が減少する。
【0070】もしステップ110の「Yes」ブランチ
がとられた場合は、ステップ112において、現ノード
のレベルがチェックされる。もし現ノードが中間ノード
であれば(すなわちL≦ T−1)、制御はステップ1
16に移り、ステップ104の挿入プロシージャが、現
ノードのk番目のエントリ(ポインタ)が指しているツ
リーのブランチに対し、再帰的に実行される。ステップ
104の再帰的実行の間、ステップ112のチェック
が、現レベルLがT番目のレベル(リーフノード)であ
ると決定したとき、文書Dmへのポインタがそのリーフ
ノードに格納されたポインタリストに付加される。
【0071】ステップ118および120において、一
旦Dmに対するインデックス処理が現サブツリーにおい
て完了すると、ステップ110〜ステップ120をkの
各値(すなわち任意のレベルの各ノード)について繰り
返すことによって残りのサブツリーの全てが調べられ
る。kの値がnになった時、この文書の処理は完了し、
ステップ122において制御をステップ100に渡すこ
とによって他の文書を処理することが可能になる。
【0072】例えば、図1を再び参照し、文書D7をデ
ータベースに挿入しようとしているとする。入力装置の
シンボル検知部分(symbol detection facility)から、
シンボルストリング0、1、1が検知される。処理は、
ルートノード12から開始する。ステップ110おい
て、ノード12のゼロ番目のエントリ12a(ノード2
2を指している)に対し、関数fmが、ゼロ番目のレベ
ルの最小確率ε0よりも大きい確率値を返す。従って、
エントリ12aが指しているブランチが調べられる。
ステップ116において、ノード22のゼロ番目のエン
トリ22aに対し、関数fmが、1番目のレベルの最小
確率ε1よりも小さい確率値を返す。その結果、エント
リ22aが指しているブランチは調べられない。ノード
31に対しては、確率計算は全くなされない。次に、ノ
ード22の1番目のエントリ22k(ノード32を指
す)に対し、関数fmが部分シーケンス0、1について
評価され、ε1よりも大きい確率値を返す。このように
して、エントリ22kを指すポインタが調べられる。
【0073】ノード32において関数fmを評価した結
果、確率は、エントリ32aについて評価したときのレ
ベル2に対する最小確率値(ε2)よりも小さく、ま
た、エントリ32kについて評価したときの最小確率ε
2よりも大きい。従って、文書D7へのポインタは、エ
ントリ32kが指しているリスト44中に格納される。
【0074】次に、関数fmが、ノード12の1番目の
エントリ12kについて評価される。関数はε0よりも
小さい確率値を返し、その結果、エントリ12kが指す
ブランチは、評価されない。
【0075】このようにして、図3のプロシージャを用
いることにより、文書D7に対する確率計算は、ノード
31、24、33、および34においては行われない。
しかし、挿入遅延(insertion delay:文書をレポジト
リに付加するときの前処理時間)は減少するが、図3の
方法によって生成されるインデックスは、n=2かつT
=3であるツリーに対して、図1に示したものと同量の
メモリを使用する。本発明の別の局面によれば、インデ
ックスによって占められる空間も減少させることが可能
である。
【0076】本発明の更なる局面によれば、あるレベル
における出力シーケンスを表している確率値が少なくと
もεLであるような全ての各レベルの入力シンボルを識
別する各文書について、アレイを維持してもよい。各文
書の各レベルにおける確率の高いシンボルを識別するア
レイを維持することによって、ツリー10のサイズを相
当減少することができる。
【0077】図1の文書D1の例を参照し、もし文書D1
がデータベース中の唯一の文書であれば、この文書はリ
ーフノード41および47の両方に関連づけられている
ため、ツリーはノード12、22、24、31、34、
41、および47のみを含んでいる。このアレイは、レ
ベルゼロのノード12、レベル1のノード22および2
4、ならびにレベル2のノード41および47を識別す
る。ノード32、33、42〜46、および48はツリ
ーには含まれない。アルファベットのサイズまたは文書
名の長さが大きいときは、本発明のこの局面によれば、
ツリーサイズは大幅に減少される。
【0078】表2は、図3の方法を実行する際の疑似コ
ード例を示している。
【0079】
【表2】
【0080】表2の挿入プロシージャ(insertion proce
dure)の間、レベルlのノードνおよび出力シンボルk
を処理する際に(ステップ226)、もし条件(f
m(l、ν、Oν、k)≧ ε1)が真であれば、ステッ
プ228〜230において、サブツリーν[k]が調べ
られる。そうでない場合、ステップ228〜234が実
行されず、挿入アルゴリズムはサブツリー全体をスキッ
プする。これによって、各文書をデータベースに挿入す
るために必要な時間が減少する。
【0081】表3は、文書を検索する際にインデックス
をトラバースするための疑似コード例を示している。入
力文書Dに類似した文書の集合を選択するために、T個
の出力シンボル集合O={O[i]、0 ≦ i ≦
T}および {0 ≦ O[i]≦ n−1}が入力シー
ケンスから抽出され、トラバースプロシージャ(Procedu
re traverse:表3参照)が実行される。または、リー
フノードのアドレスは、出力シンボル集合Oを計算し、
それに関連づけられたk個のHMMに、直接アクセスし
てもよい。
【0082】
【表3】
【0083】図1を用いて上記に説明したインデックス
10は、剪定関数fm(l,q,Oq,o)が提供される
限り有効である。インデックスの「性能」は、剪定関数
がどのくらい有効であるかに影響される。インデックス
の性能は、その方法が正しい絵文字名を最初に選択する
か、または、使用者が正しい名前を選択するためのリス
ト中の数個の名前の中に、正しい名前が含まれているか
否かによって測られる。
【0084】剪定関数 fm(l、q、Oq、o)を計算するために、文書の基本
的なデータベースによって以下の条件が満たされると仮
定する。
【0085】(1)データベース内のすべての文書は、
左から右HMMによってモデル化され、各HMMはN個
の状態を有している。これらのHMMの遷移確率は以下
のようになり得る。
【0086】
【数4】
【0087】
【数5】
【0088】
【数6】
【0089】データベース内のすべての文書について、
長さTの出力シンボルのシーケンスが抽出される。イン
デックスが用いられるすべての入力は、HMMのアルフ
ァベット(Σ)から取られたT出力シンボルのシーケン
スの形態で与えられる。
【0090】剪定関数fmのいくつかのバリエーション
を用いてもよい。第1の剪定関数例は、以下のように生
成され得る。
【0091】HMM Hmがその実行のステップi(0
≦i≦T−1、および0≦j≦N−1)において状態j
にある確率にφm i,jを定義する。φm i,jが出力シーケン
スOには依存しないことに注目されたい。そして、HM
M Hmが実行のステップiにおいてシンボルoを出力
する確率Φm i(o)を定義する。Φm i(o)はφm i,j
用いて以下のように計算され得る。
【0092】
【数7】
【0093】
【数8】
【0094】このとき、式(4)〜(6)に基づき、
【0095】
【数9】
【0096】
【数10】
【0097】および
【0098】
【数11】
【0099】ここで
【0100】
【数12】
【0101】式(4)〜(12)に基づき、φおよびΦ
を計算する過程は、ツリー10のブランチが処理される
過程には依存しない。この過程は、HMMモデル
(Hm)のみに依存する。その結果、ツリーにHMMモ
デルHmを挿入すると、Φm[i][j]が、j番目の出
力シンボルがHMM Hmを実行するi番目のステップ
において現れる確率に対応するように、T×Nの大きさ
を有するマトリクスΦm[][]が構築される。すなわ
ち、
【0102】
【数13】
【0103】モデルHmをツリー10に挿入している
間、図3の方法によってたどった(descended)経路の数
を剪定(prune)するために、マトリクスΦm[i][j]
がアクセスされる。
【0104】第2の例示的な剪定関数は、出力シンボル
間の依存性を利用する。例えば、HMMの実行のステッ
プiにおいて出力シンボルが現れる確率を計算する代わ
りに、HMMの初めのi個のステップを実行した後に、
シーケンスO[0]O[1]...O[i]が現れる確
率を計算してもよい。これによって、新しいHMMが挿
入されるツリー内の経路に依存する第2の例示的な剪定
関数が導かれる。
【0105】この方法は、シーケンスOq=O[0]O
[1]、...、O[T−1](ツリー10のルート1
2からノードqまでの経路内のシンボルのシーケンスを
示している)がHmによって生成される確率が高い(あ
るいは、与えられたしきい値を超えている)とき、リー
フノードqに属するリンクされたリストにHMM Hm
のインデックスmを挿入する。これは、確率:Prob
[O[0]O[1]、...、O[T−1]|Hm]に
対応する。挿入時間および前処理時間を節約するため
に、ツリー10の(長さTの)可能な限り全てのパター
ンについてこの確率を計算すべきではない。その結果、
ツリーをたどると、以下の剪定関数が与えられる。従っ
て、サブツリー全体が剪定される。
【0106】剪定関数の第2の実施態様を用いるため
に、iステップを実行し、状態jで終了した後、シーケ
ンスO[0]O[1]...O[i]がHMMによって
生成される確率にαm i、jを定義する。すなわち、
【0107】
【数14】
【0108】HMMモデルHmがツリー10に挿入され
た時点で、ツリー10をたどっていくと、シーケンスO
[0]O[1]、...、O[i]を中断せずに構成し
ながらαが動的に計算される。ノードqでツリー10の
レベルjまでツリーが深さ優先の順位でたどられる仮定
する。シーケンスOq=O[0]O[1]、...、O
[i]は、ル−トからqに降順していく間に出会うシン
ボルに対応する。この場合、αは以下のように計算され
得る。
【0109】
【数15】
【0110】
【数16】
【0111】
【数17】
【0112】
【数18】
【0113】
【数19】
【0114】第1の剪定関数例と第2の剪定関数例との
間の相違点はαは計算のステップiまでに生成された出
力シーケンスに依存するが、φは依存しないことであ
る。さらに、Φは一つの出力シンボルにのみ依存し、α
のようにはシンボルのシーケンスに依存しない。αを計
算する再帰的過程は、φ計算の代わりにα計算が用いら
れることを除いて、φを計算するために用いられた再帰
的過程と同一である。
【0115】全ての経路についてαを計算する時間を削
減する方法の一つとして、再帰的なステップの中間結果
のスタックを保持することがある。サブツリーのトラバ
ースが終了すると、スタックはサブツリーのルートレベ
ル(すなわち、ツリーのルートに最も近い、サブツリー
内のノード)までポップアップされ、ツリー10のルー
トから計算を開始する代わりに、そこから再帰が開始さ
れる。モデルHmを挿入するためにツリー10が降順さ
れる際、ノードqを処理するときには、処理はノードq
の親内のα(α's)から開始する。再帰的処理の1ステ
ップは、q内の各シンボルについてαを計算するために
与えられる。その結果得られたn計算は、スタックに保
管される(qにはn個のシンボルがある)。
【0116】qより下のサブツリーの一つを降順する
間、例えば、ノードuにおいて、ノードqについて計算
されたα(α's)がαを計算するための再帰式数式の付
加的な1ステップで用いられ、ノードuにおける対応す
るα(α's)が得られる。このように、α(α's)を計
算するためのオーバヘッドが最小になる、なぜなら、ツ
リー10内の各ノードについて、再帰的数式の1ステッ
プがノード内の各シンボルに対してαを計算するために
採用されるからである。プロシージャ全体は、ノードご
とに1度しか行われない。つまり、1つのノードに対す
るα(α's)は1度を超えては評価されない。
【0117】挿入時間にアクセスされたサブツリーを剪
定するために、αが新しい関数ψm iを計算するために用
いられる。この新しい関数ψm iは、シンボルO[i]が
計算のステップiで現れる確率である(すなわち、ψm i
は、HMMの状態に関する情報には依存していない)。
これは、すべての可能な状態jに関してαm i、jを合計す
ることによって達成され得る。従って、
【0118】
【数20】
【0119】
【数21】
【0120】ψは、ノード内の各シンボルに対して計算
され、しきい値と比較される。シンボルに対応するサブ
ツリーは、ψのその対応する値がしきい値を超える場合
にのみアクセスされる。換言すれば、各ノードに対する
剪定関数は、
【0121】
【数22】
【0122】によって定義される。
【0123】ψに対する計算は正確であり、この為に、
各入力パターンおよび挿入アルゴリスムによってアクセ
スされる各ツリー経路について評価を行うのは計算上不
経済である。第3の例示的な方法が示されるが、この方
法は剪定関数ψの近似であり、方程式(20)〜(2
2)に示されている。剪定関数ψは近似をとられ、その
結果、剪定関数ψはノードqのレベルにのみ依存し、q
に至るツリー経路全体には依存しない。
【0124】HMM Hmを実行するk番目の段階にお
ける出力シンボルsをモデルが予測する、計算された確
率(あるいはその推定)になるようにpm k(s)を定義
する。従って、pm 0(s)は、第1のステップにおいて
出力シンボルを見いだす確率である。発明者らは、pm k
(s)が以下のように推定され得ることを決定した。
【0125】
【数23】
【0126】ただし、AT-k+1,jは、方程式(14)〜
(19)によって定義されるαi,jの上限であり、以下
のように推定される。
【0127】
【数24】
【0128】ここで、Rrは、k−1ステップにおける
状態rにたどり着くためにとられ得る経路の数であり、
以下のように評価される。
【0129】
【数25】
【0130】表4は、Aおよびpm k(s)を計算するた
めの疑似コード例を一覧している。
【0131】
【表4】
【0132】ツリー用格納スペースの削減 上記のように、アルファベット内のシンボルの数および
文書出力シーケンス長が増大するにつれて、(図1に示
されている)ツリー10の大きさが指数的に増大する。
別のツリー構造例を説明するが、これは格納複雑性の点
で図1のツリー10を改良したものである。
【0133】図4(a)から4(c)を参照すると、第
2の例示的なツリー300が示されている。ツリー30
0において、剪定関数は、挿入時間を剪定するためだけ
ではなく、ツリーによって占められたスペース量を剪定
するためにも用いられる。モデルHmがツリーに挿入さ
れると仮定する。剪定関数(上記の関数Φ、ψあるいは
pのいずれか)が与えられると2次元マトリクスPm
計算され、このとき、各エントリPm[i][o]はHm
が実行のステップiでシンボルoを生成する確率に対応
する。Pmの大きさはn×Tであり、従って、アルファ
ベットおよび出力シーケンスの大きさが増大するに従っ
て指数的に増大しない。Pm[i][o]から、新しい
ベクトルLmが生成され、このとき、Lm[i]として表
されているLm内の各エントリは、その実行のステップ
iにおいてHmによって生成される確率が高いシンボル
のみを含む。換言すれば、Lmの各エントリは、以下の
ような出力シンボルのリストである。
【0134】
【数26】
【0135】例えば、ベクトルの例L1、L2およびL3
を表5に一覧する。ベクトルL1、L2およびL3は、H
MM H1、H2およびH3にそれぞれ対応する。
【0136】
【表5】
【0137】図4(a)〜4(c)は、本実施態様によ
る、ベクトルL1、L2およびL3から形成されるツリー
300を示すブロック図である。簡略化のために、ツリ
ー300の第4レベルにおけるノード対は、一つの楕円
内(例えば、楕円305)に示されている。2つのシン
ボル数を有する楕円は2つのノードを表していることが
理解される。例えば、図4(a)の楕円305は、数0
4および05を有し、出力シンボル04については第1
のノードを示し、出力シンボル05については第2のノ
ードを示す。さらに、ツリー300の第5レベルにおけ
る(文書へのポインタのリンクされたリストを含む)リ
ーフノードは、図4(a)〜4(c)では簡潔にするた
めに省略される。
【0138】図4(a)、図4(b)および4(c)の
実施例では、アルファベットの大きさnは13個のシン
ボルであり、シーケンス長は4である。ノードが起こり
得る出力シーケンスの一部であるか否かにかかわらず全
てのノードがツリーに含まれるならば(すなわち、図1
の方法によれば)、ツリー300はおおよそnT+1=1
5=371,293個のノードを有する(図4(a)
〜4(c)に図示されていないリーフノードを含む)。
その代わりに、高確率シーケンス内のノードのみを含む
ことによって、ツリーの大きさは34個(ルートおよび
リーフノードを含む)にまで削減される。マトリクスP
m[i][o]およびLmを考慮したときでも、スペース
の削減量は大きさ(magnitude)の3桁以上になる。
【0139】ツリー300は、ルートノード301を除
いて初めは空である。図4(a)は、H1をツリー30
0に挿入した結果を示している。ツリー300内の各ノ
ードの論理出力数はアルファベットの大きさであるn未
満である。出力シンボルは、必要な場合のみ内部ノード
において付加される。図4(b)および4(c)は、H
2およびH3を挿入した後のツリー300をそれぞれ示し
ている。ツリー300は、少なくとも1つの文書を表す
可能性が最も高いと思われるシーケンス内のシンボルに
対応するノードを含むために必要となる場合に拡張され
るだけである。従って、ツリー300は、いかなる文書
のポインタをも有さないリーフノードのポインタを格納
するスペースの浪費を防止する。
【0140】ツリー300は、図1のツリー10の利点
と図3で用いられる剪定関数fmの利点を両方有し、ス
ペースの複雑性の点では両者の性能を凌いでいる。ツリ
ー300は、図1のツリー10と同様の探索時間O
(T)を有し、図3を参照して上記した、挿入のための
同一の剪定戦略を用い、その結果、挿入時間が削減され
る。 本発明は、例示的な実施態様を参照して記載され
ているが、それに限定されるものではない。むしろ、本
発明の真の精神および範囲から離れることなく、当業者
によって成される本発明の他の変形および実施例を含む
ように、添付の請求項が解釈されるべきである。
【0141】
【発明の効果】本発明のインデックス付け、および探索
方法によれば少なくとも以下の効果が得られる。(1)H
MMによってモデル化された複数の手書きの電子文書の
検索の高速化が可能となる。(2)インデックス付けに必
要な時間を削減することが可能である。(3)インデック
スに必要な格納スペースが削減することが可能である。
【図面の簡単な説明】
【図1】本発明の情報ツリーの一例を示すブロック図で
ある。
【図2】図1の情報ツリー例に用いたHMMの状態図で
ある。
【図3】図1の情報ツリー中の文書をインデックスする
プロシージャのフローチャートである。
【図4】(a)から(c)はそれぞれ本発明の情報ツリ
ーのさらなる例を示すブロック図である。
【符号の説明】
10 情報ツリー 12 ルートノード 104 挿入プロシージャ 300 ツリー

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の手書き電子文書のインデックス付
    け方法であって、該複数の手書き電子文書のそれぞれは
    出力シーケンス中に順序づけられた複数の出力シンボル
    を含み、該複数の手書き電子文書のそれぞれは、対応す
    る隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個のシンボルを含む共通アルファベットおよびT個のシ
    ンボルの共通出力シーケンス長を有しており、ここでn
    およびTは整数であり、該方法は、 (a)T個のレベルを有するインデックスを確立するス
    テップであって、該レベルのうちのゼロとT−1との間
    のレベルは最小確率値をそれぞれ有しており、該レベル
    のそれぞれは少なくとも1つのノードを有しているステ
    ップと、 (b)該インデックスの該レベルの1つにおける各ノー
    ドに対して、(1)各該HMMを該1つの文書に用い
    て、該ノード内に格納されているシンボルが該1つの文
    書内の対応する出力信号を表す確率を決定するステップ
    と、(2)ステップ(b)(1)で決定された該確率が
    該1つのレベルの最小確率値を超え、次のレベルが1番
    目のレベルとT−1番目のレベルとの間にある場合、該
    インデックスの該次のレベルにおいてノードを付加する
    ステップと、(3)該ノードがステップ(b)(2)で
    付加された場合、該次のレベルにおいて該付加されたノ
    ードに対してステップ(b)を実行するステップと、
    (4)該次のレベルがT番目のレベルであり、ステップ
    (b)(1)で決定された該確率が該T−1番目のレベ
    ルの該最小確率値よりも大である場合、該インデックス
    の該T番目のレベルにおけるノードに格納されているポ
    インタのリストに、該1つの文書へのポインタを付加す
    るステップと、を行うことによって該文書の1つに該シ
    ンボルをインデックス付けするステップと、 (c)該1つの文書以外の該複数の文書の各々にステッ
    プ(b)を繰り返すステップと、を包含する複数の手書
    き電子文書のインデックス付け方法。
  2. 【請求項2】 複数の手書き電子文書のインデックス付
    け方法であって、各手書きの電子文書が出力シーケンス
    中に順序づけられた複数の出力シンボルを含み、各文書
    が隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個の出力シンボルを含む共通アルファベットおよびT個
    のシンボルの共通出力シーケンス長を有しており、ここ
    でnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    レベルを有する情報ツリーであって、該レベルは通常ゼ
    ロ番目からT番目までの番号を付けられ、該ゼロ番目の
    レベルはルートノードを有し、該T番目のレベルにおけ
    る各ノードはリーフノードであり、該ゼロ番目のレベル
    とT−1番目のレベルとの間の各ノードはn個のポイン
    タを有し、それぞれは異なる出力シンボルに対応し、か
    つ、各ノードの異なるサブツリーを識別し、該ゼロ番目
    のレベルと該T−1番目のレベルとの間の該ポインタは
    ポインタのシーケンスを形成し、各該ポインタのシーケ
    ンスは該ルートノードから各々異なる該リーフノードの
    1つまで続いている、情報ツリーを確立するステップ
    と、 (b)該リーフノードの1つにおける該複数の文書の部
    分集合を識別するポインタの各リストを格納するステッ
    プであって、(1)文書に対して各々HMMを用いて、
    該ルートノードから該1つのリーフノードまで続く各該
    ポインタのシーケンスが該文書の1つの該各出力シーケ
    ンスを表す確率を該1つのリーフノードに対して決定す
    るステップと、(2)該確率がしきい値よりも大である
    場合、該1つのリーフノードの該ポインタのリストに、
    該1つの文書へのポインタを付加するステップと、
    (3)各該複数の文書のそれぞれに対してステップ
    (1)および(2)を繰り返すステップと、を含むステ
    ップと、 (c)該1つのリーフノード以外の各該リーフノードに
    対してステップ(b)を繰り返すステップと、を包含す
    る複数の手書き電子文書のインデックス付け方法。
  3. 【請求項3】 ゼロとT−1の間の各レベルは最小確率
    値を有し、ステップ(b)(1)は、 (i)前記ルートノードからj番目のノードに続く前記
    ポインタのシーケンスの部分集合が、前記1つの文書に
    おける初めのj+1個のシンボルを表す確率を決定する
    ステップと(ここでjは0とT−1との間の整数)、 (ii)j−1番目のレベルに対してステップ(i)で
    決定された前記確率が該j−1番目のレベルの各該最小
    確率値を超える間、1とT−1との間のjの各値に対し
    てステップ(i)を繰り返すステップと、を包含する請
    求項2に記載の方法。
  4. 【請求項4】 複数の手書き電子文書のインデックス付
    け方法であって、各手書きの電子文書が出力シーケンス
    中に順序づけられた複数の出力シンボルを含み、各文書
    が隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個の出力シンボルを含む共通アルファベットおよびT個
    のシンボルの共通出力シーケンス長を有しており、ここ
    でnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    レベルを有する情報ツリーであって、該レベルは通常ゼ
    ロ番目からT番目までの番号を付けられ、該ゼロ番目の
    レベルはルートノードを表し、該T番目のレベルにおけ
    る各ノードはリーフノードであり、ゼロとT−1との間
    のツリーの各レベルは異なる最小確率値を有し、該ゼロ
    番目のレベルと該T−1番目のレベルとの間の各ノード
    はn個のポインタを有し、それぞれは該ツリーの次のレ
    ベルにおいて各々異なるノードを識別し、該ゼロ番目と
    T−1番目との間のレベルのポインタは出力シンボルの
    シーケンスを表すポインタのシーケンスを形成し、各該
    ポインタのシーケンスは該ルートノードから各々異なる
    該リーフノードの1つに続き、各リーフノードは異なる
    出力シンボルのシーケンスと関連づけられている、情報
    ツリーを確立するステップと、 (b)該文書の1つに対して、該ツリーに情報を格納す
    るステップであり、該ステップは、(1)該レベルの1
    つの該ノードの各部分集合に対して、 (i)該ルートノードから該1つのノードへ続く該ポイ
    ンタのシーケンスの一つのサブシーケンスが該1つの文
    書において該出力シンボルの対応する部分集合を表す確
    率を決定するステップと、 (ii)ステップ(b)(1)(i)で決定された該確
    率が該1つのレベルの該最小確率値を超え、かつ、次の
    レベルが該1番目のレベルと該T−1番目のレベルとの
    間にある場合、該次のレベルにおけるノードに対してス
    テップ(b)を呼び出すステップと、 (iii)該次のレベルが該T番目のレベルであり、か
    つ、該確率が該しきい値よりも大である場合、該ポイン
    タのシーケンスの1つと関連づけられた該リーフノード
    の該ポインタのリストに、該1つの文書へのポインタを
    付加するステップと、を含むステップと、 (c)該1つの文書以外の該複数の文書の各々に対して
    ステップ(b)を繰り返すステップと、を包含する複数
    の手書き電子文書のインデックス付け方法。
  5. 【請求項5】 前記ステップ(b)(1)は、 (iv)前記確率が前記レベルのうちの1つのレベルの
    前記各最小確率値よりも小さい場合、前記ステップ
    (b)(2)の繰り返しを中断するステップをさらに包
    含する、請求項4に記載の方法。
  6. 【請求項6】 前記方法は、 (d)T個の入力シンボルの集合を与えるステップと、 (e)該T個の入力シンボルに対応するポインタのシー
    ケンスの1つを選択するステップと、 (f)探索によって見いだされる際に、該選択されたポ
    インタのシーケンスが続く前記リーフノードの前記リス
    トにおける前記複数の文書の部分集合を識別するステッ
    プと、をさらに包含する、請求項4に記載の複数の手書
    き電子文書のインデックス付けおよび探索方法。
  7. 【請求項7】 複数の手書き電子文書のインデックス付
    け方法であって、各手書きの電子文書が出力シーケンス
    中に順序づけられた複数の出力シンボルを含み、各文書
    が隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個の出力シンボルを含む共通アルファベットおよびT個
    のシンボルの共通出力シーケンス長を有しており、ここ
    でnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    レベルを有する情報ツリーであって、該レベルは通常ゼ
    ロ番目からT番目までの番号を付けられ、該ゼロ番目の
    レベルはルートノードであり、該T番目のレベルにおけ
    る各ノードはリーフノードであり、ゼロとT−1との間
    の各レベルは異なる最小確率値を有し、該ゼロ番目のレ
    ベルと該T−1番目のレベルとの間の各ノードはn個の
    ポインタを有し、それぞれはアルファベット内の各々異
    なるシンボルと関連づけられ、かつ、該ツリーの次のレ
    ベルにおいて各々異なるノードを識別し、該ゼロ番目と
    T−1番目との間のレベルのポインタは、出力シンボル
    のシーケンスを表すポインタのシーケンスを形成し、各
    該ポインタのシーケンスは該ルートノードから各々異な
    る該リーフノードの1つに続き、各リーフノードは出力
    シンボルの各々異なるシーケンスと関連づけられてい
    る、情報ツリーを確立するステップと、 (b)プロシージャを実行するステップであり、該ステ
    ップは、(1)該レベルの1つの該ノードの各々の部分
    集合の1つに対して、 (i)該ルートノードからある1つのノードへ続く該ポ
    インタのシーケンスの1つ内の該ポインタの1つが該文
    書の1つのあるレベルにおける該出力シンボルを表す確
    率を決定するステップと、 (ii)ステップ(b)(1)(i)で決定された確率
    が該1つのレベルの該最小確率値を超え、かつ、次のレ
    ベルが1番目のレベルと該T−1番目のレベルとの間に
    ある場合、該次のレベルにおけるノードに対して該プロ
    シージャを実行するステップと、 (iii)該次のレベルがT番目のレベルであり、該確
    率が該しきい値よりも大である場合、ポインタのシーケ
    ンスの該1つと関連づけられた該リーフノードの該ポイ
    ンタのリストに、該1つの文書へのポインタを付加する
    ステップと、を行うことを含むステップと、 (c)該1つの文書以外の各該複数の文書に対してステ
    ップ(b)を繰り返すステップと、を包含する複数の手
    書き電子文書のインデックス付け方法。
  8. 【請求項8】 前記ステップ(b)(1)は、 (iv)前記確率が前記レベルのうちの一つの前記各最
    小確率値よりも小である場合、前記一つのノードがルー
    トノードであるサブツリー内にあるどのノードに対して
    も前記ステップ(b)(2)の繰り返しを中断するステ
    ップをさらに包含する、請求項7に記載の方法。
  9. 【請求項9】 前記方法は、 (d)T個の入力シンボルの集合を与えるステップと、 (e)該T個の入力シンボルに対応するポインタのシー
    ケンスのうちの1つを選択するステップと、 (f)該選択されたポインタのシーケンスが続く該リー
    フノードに格納された該ポインタのリストを取り出すス
    テップと、 (g)探索によって見いだされる際に、該取り出された
    リストにおける該ポインタが指す前記複数の文書の部分
    集合を識別するステップと、をさらに包含する、請求項
    7に記載の複数の手書き電子文書のインデックス付けお
    よび探索方法。
  10. 【請求項10】 複数の手書き電子文書のインデックス
    付け方法であって、各手書きの電子文書が出力シーケン
    ス中に順序づけられた複数の出力シンボルを含み、各文
    書が隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個の出力シンボルを含む共通アルファベットおよびT個
    のシンボルの共通出力シーケンス長を有しており、ここ
    でnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    レベルを有する情報ツリーであって、該レベルは通常ゼ
    ロ番目からT番目までの番号を付けられ、該ゼロ番目の
    レベルと該T−1番目のレベルとの間の各ノードはn個
    のポインタを有し、各ポインタは各該ノードの異なるサ
    ブツリーを識別し、該T番目のレベルにおける各該ノー
    ドは各文書を識別するポインタの各リストを有してい
    る、情報ツリーを確立するステップと、 (b)各該レベルに対してしきい値を確立するステップ
    と、 (c)該文書の一つに対する該HMMが、アルファベッ
    トのk番目の出力シンボルを該1つの文書のj番目の出
    力シンボルを表すものとして識別する確率を計算するス
    テップと(ここで、kは0とn−1との間の整数、jは
    0とT−1との間の整数)、 (d)ステップ(c)で計算された該確率が該j番目の
    レベルの該しきい値よりも大である場合、該j番目のレ
    ベルにおける該ノードの1つのk番目のポインタを該1
    つのノードの該サブツリーの1つを指すように設定し、
    該1つのサブツリーは該T番目のレベルにおけるノード
    の部分集合を含むステップと、 (e)jを1でインクリメントするステップと、 (f)(1)jがT未満であり、かつ、(2)ステップ
    (c)で計算される該確率が該j番目のレベルの該しき
    い値よりも大である間、各レベルjに対してステップ
    (c)から(e)を繰り返し、それによってポインタの
    シーケンスを形成するステップと、 (g)kの各値に対してステップ(c)〜(f)を繰り
    返すステップと、 (h)該1つの文書において通常1からT−1まで番号
    を付けられた出力信号の各々をポインタのシーケンスが
    識別する確率が該T番目のレベルの該しきい値よりも大
    である場合、該T番目のレベルにおける該リストの一つ
    の中の文書を識別するステップと、 (i)該複数の文書の各々に対してステップ(c)〜
    (g)を繰り返すステップと、を包含する複数の手書き
    電子文書のインデックス付け方法。
  11. 【請求項11】 複数の手書き電子文書のインデックス
    付け方法であって、各手書きの電子文書が出力シーケン
    ス中に順序づけられた複数の出力シンボルを含み、各文
    書が隠れマルコフモデル(Hidden Markov Model: HM
    M)によってモデル化され、該隠れマルコフモデルはn
    個の出力シンボルを含む共通アルファベットおよびT個
    のシンボルの共通出力シーケンス長を有しており、ここ
    でnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    レベルを有する情報ツリーであって、該レベルは通常ゼ
    ロ番目からT番目までの番号を付けられ、該ゼロ番目の
    レベルはルートノードを有し、該T番目のレベルにおけ
    る各ノードはリーフノードであり、ゼロとT−1との間
    の各レベルは最小確率値を有する、該情報ツリーを確立
    するステップと、 (b)各々異なる数のポインタを該ゼロ番目のレベルと
    該T−1番目のレベルの間の各ノードに付加するステッ
    プであって、該ポインタの数は0とnの間であり、各ポ
    インタは該ツリーの次のレベルにおいて各々異なるノー
    ドを識別し、該ゼロ番目のレベルと該T−1番目のレベ
    ルの間のポインタはシンボルのシーケンスを表すポイン
    タのシーケンスを形成し、各ポインタのシーケンスは該
    ルートノードから各々異なる該リーフノードの1つに続
    き、各リーフノードは各々異なるシンボルのシーケンス
    と関連づけられているステップであり、(1)該レベル
    の1つにおける該ノードの各々に対して、 (i)該ルートノードから該ノードへ続くポインタのシ
    ーケンスの1つの部分集合が該文書の1つにおいて該出
    力シンボルの部分集合を表す確率を決定するステップ
    と、 (ii)ステップ(b)(1)(i)において決定され
    た確率が該1つのレベルの該最小確率値を超え、次のレ
    ベルが該1番目のレベルと該T−1番目のレベルとの間
    にある場合、該次のレベルにおいてノードを付加するス
    テップと、 (iii)該ノードが付加された場合、該次のレベルに
    おいて付加されたノードに対してプロシージャを実行す
    るステップと、 (iv)該次のレベルが該T番目のレベルであり、該確
    率が該しきい値よりも大である場合、ポインタの該1つ
    のシーケンスと関連づけられた該リーフノードのポイン
    タの該リストにおいて該1つの文書にポインタを付加す
    るステップを行うステップと、 (c)該1つの文書以外の各該複数の文書に対してステ
    ップ(b)を繰り返すステップと、を包含する複数の手
    書き電子文書のインデックス付け方法。
  12. 【請求項12】 複数の手書き電子文書のインデックス
    付けおよび探索方法であって、各手書きの電子文書が出
    力シーケンス中に順序づけられた複数の出力シンボルを
    含み、それぞれが隠れマルコフモデル(Hidden Markov
    Model: HMM)によってモデル化され、該隠れマルコ
    フモデルはn個のシンボルを含む共通アルファベットお
    よびT個のシンボルの共通出力シーケンス長を有してお
    り、ここでnおよびTは整数であり、該方法は、 (a)メモリに格納され、リンクされたノードのT+1
    個のレベルを有する情報ツリーであって、該レベルは通
    常ゼロ番目からT番目まで番号を付けられ、該ゼロ番目
    のレベルと該T−1番目のレベルとの間の各ノードはn
    個のポインタを有し、各ポインタは各該ノードの異なる
    サブツリーを識別し、該T番目のレベルにおける各該ノ
    ードは各文書を識別するポインタの各リストを有してい
    る、該情報ツリーを確立するステップと、 (b)各レベルに対してしきい値をそれぞれ確立するス
    テップと、 (c)該文書の1つに対する該HMMがアルファベット
    のk番目のシンボルを、該1つの文書のj番目の出力シ
    ンボルを表すものとして識別する確率を計算するステッ
    プと(ここでkは0とn−1との間の整数、jは0とT
    −1との間の整数)、 (d)ステップ(c)において計算された確率が該j番
    目のレベルの該しきい値よりも大である場合、該j番目
    のレベルにおける該ノードの1つのk番目のポインタを
    該1つのノードの該サブツリーの1つを指すように設定
    し、該1つのサブツリーは該T番目のレベルにおけるノ
    ードの部分集合を含むステップと、 (e)jを1でインクリメントするステップと、 (f)(1)jがT未満であり、(2)ステップ(c)
    で計算される該確率が該j番目のレベルの該しきい値よ
    りも大である場合、各レベルjに対してステップ (c)から(e)を繰り返し、それによってポインタの
    シーケンスを形成するステップと、 (g)kの各値に対してステップ(c)〜(f)を繰り
    返すステップと、 (h)該1つの文書における通常1番目からT−1番目
    まで番号を付けられた各出力信号を識別するポインタの
    シーケンスの確率が該T番目のレベルの該しきい値より
    も大である場合、該T番目のレベルにおける該リストの
    1つの中の文書を識別するステップと、 (i)該複数の文書の各々に対してステップ(c)〜
    (g)を繰り返すステップと、 (j)T個の入力シンボルの集合を与えるステップと、 (k)第1のレベルにおける該ノードの1つを選択する
    ステップと、 (l)ゼロとT−1の間のjの各値に対して、(1)k
    jがゼロとn−1の間の整数であるとき、該選択された
    ノードのkj番目の出力シンボルが該j番目の入力シン
    ボルと一致するように、j番目の入力シンボルに対する
    各インデックスkjを識別するステップと、(2)ステ
    ップ(l)(1)において選択された該ノードの該kj
    番目のポインタが指す、j+1レベルにおけるノードを
    選択するステップと、を繰り返すステップと、 (m)該探索によって見いだされる際に該T番目のレベ
    ルにおいて該選択されたノードが指す該複数の文書の該
    部分集合を選択するステップと、を包含する複数の手書
    き電子文書のインデックス付けおよび探索方法。
JP7124120A 1994-05-24 1995-05-23 手書き電子文書のインデックス付けおよび探索方法 Withdrawn JPH07319924A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US24839294A 1994-05-24 1994-05-24
US08/248,392 1994-05-24

Publications (1)

Publication Number Publication Date
JPH07319924A true JPH07319924A (ja) 1995-12-08

Family

ID=22938906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7124120A Withdrawn JPH07319924A (ja) 1994-05-24 1995-05-23 手書き電子文書のインデックス付けおよび探索方法

Country Status (2)

Country Link
US (1) US5553284A (ja)
JP (1) JPH07319924A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130962A (en) * 1997-06-06 2000-10-10 Matsushita Electric Industrial Co., Ltd. Information retrieval apparatus for enabling information retrieval with ambiguous retrieval key

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
US5649023A (en) * 1994-05-24 1997-07-15 Panasonic Technologies, Inc. Method and apparatus for indexing a plurality of handwritten objects
US5812882A (en) * 1994-10-18 1998-09-22 Lanier Worldwide, Inc. Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments
US6546406B1 (en) 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
US5832474A (en) * 1996-02-26 1998-11-03 Matsushita Electric Industrial Co., Ltd. Document search and retrieval system with partial match searching of user-drawn annotations
US6167409A (en) * 1996-03-01 2000-12-26 Enigma Information Systems Ltd. Computer system and method for customizing context information sent with document fragments across a computer network
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
US5842202A (en) * 1996-11-27 1998-11-24 Massachusetts Institute Of Technology Systems and methods for data quality management
US6415278B1 (en) * 1997-11-14 2002-07-02 Adobe Systems Incorporated Retrieving documents transitively linked to an initial document
US6789080B1 (en) * 1997-11-14 2004-09-07 Adobe Systems Incorporated Retrieving documents transitively linked to an initial document
JPH11306238A (ja) * 1998-03-30 1999-11-05 Internatl Business Mach Corp <Ibm> 確率積分システム
KR100688121B1 (ko) * 1998-08-11 2007-03-09 가부시키가이샤 터보 데이터 라보라토리 표형식 데이터의 검색,집계,소트방법 및 장치
US6662180B1 (en) * 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US20010053252A1 (en) * 2000-06-13 2001-12-20 Stuart Creque Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
JP4592171B2 (ja) * 2000-10-20 2010-12-01 シャープ株式会社 検索情報生成装置
GB2406678B (en) * 2000-11-30 2005-05-18 Coppereye Ltd Database
US6816856B2 (en) 2001-06-04 2004-11-09 Hewlett-Packard Development Company, L.P. System for and method of data compression in a valueless digital tree representing a bitset
FI114582B (fi) * 2002-11-29 2004-11-15 Nokia Corp Ennakoiva todennäköisyysjärjestely tiedostojen lataamiseksi liityntärajapinnan yli
US20110040740A1 (en) * 2009-08-15 2011-02-17 Alex Nugent Search engine utilizing flow networks
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3588823A (en) * 1968-03-28 1971-06-28 Ibm Mutual information derived tree structure in an adaptive pattern recognition system
US4028673A (en) * 1975-10-31 1977-06-07 The United States Of America As Represented By The Secretary Of The Army Crosswind measurements through pattern recognition techniques
US4419740A (en) * 1979-12-17 1983-12-06 The Gerber Scientific Instrument Company Method for storing and retrieving data
JPS59165161A (ja) * 1983-03-11 1984-09-18 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン ワード・プロセッシング・システムにおけるデータ・セットのボリューム回復方法
US4553206A (en) * 1983-10-03 1985-11-12 Wang Laboratories, Inc. Image storage and retrieval
JPS60136892A (ja) * 1983-12-26 1985-07-20 Hitachi Ltd オンライン手書き図形認識装置
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
US5226091A (en) * 1985-11-05 1993-07-06 Howell David N L Method and apparatus for capturing information in drawing or writing
US5014327A (en) * 1987-06-15 1991-05-07 Digital Equipment Corporation Parallel associative memory having improved selection and decision mechanisms for recognizing and sorting relevant patterns
GB8716194D0 (en) * 1987-07-09 1987-08-12 British Telecomm Speech recognition
JPH0664631B2 (ja) * 1987-09-09 1994-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識装置
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
US4975975A (en) * 1988-05-26 1990-12-04 Gtx Corporation Hierarchical parametric apparatus and method for recognizing drawn characters
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5123057A (en) * 1989-07-28 1992-06-16 Massachusetts Institute Of Technology Model based pattern recognition
US5202986A (en) * 1989-09-28 1993-04-13 Bull Hn Information Systems Inc. Prefix search tree partial key branching
US5136687A (en) * 1989-10-10 1992-08-04 Edelman Gerald M Categorization automata employing neuronal group selection with reentry
US5105470A (en) * 1990-03-12 1992-04-14 International Business Machines Corporation Method and system for recognizing characters
US5151950A (en) * 1990-10-31 1992-09-29 Go Corporation Method for recognizing handwritten characters using shape and context analysis
EP0498978A1 (en) * 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130962A (en) * 1997-06-06 2000-10-10 Matsushita Electric Industrial Co., Ltd. Information retrieval apparatus for enabling information retrieval with ambiguous retrieval key

Also Published As

Publication number Publication date
US5553284A (en) 1996-09-03

Similar Documents

Publication Publication Date Title
JPH07319924A (ja) 手書き電子文書のインデックス付けおよび探索方法
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
US5524240A (en) Method and apparatus for storage and retrieval of handwritten information
US5528701A (en) Trie based method for indexing handwritten databases
US5768423A (en) Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing
KR100286501B1 (ko) 래티스를 키로 하여 검색을 행하는 사전 검색 장치 및 방법
US7536297B2 (en) System and method for hybrid text mining for finding abbreviations and their definitions
US7542966B2 (en) Method and system for retrieving documents with spoken queries
JP4594551B2 (ja) 統合された確率的ランゲージ・モデルを用いたドキュメント画像復号化方法
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
KR940003700B1 (ko) 검색방법 및 그 장치
KR970007281B1 (ko) 문자인식방법 및 장치
CN111159990B (zh) 一种基于模式拓展的通用特殊词识别方法及***
JPH0782544B2 (ja) マルチテンプレートを用いるdpマツチング方法及び装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
WO2006130947A1 (en) A method of syntactic pattern recognition of sequences
CN110188131B (zh) 一种频繁模式挖掘方法及装置
US20030126138A1 (en) Computer-implemented column mapping system and method
JP3545007B2 (ja) データベース検索システム
JP3777456B2 (ja) 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP5252596B2 (ja) 文字認識装置、文字認識方法及びプログラム
CN111597400A (zh) 基于寻路算法的计算机检索***及方法
JP2020173802A (ja) 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体
JPH07210569A (ja) 情報検索方法および情報検索装置
CN115858797A (zh) 一种基于ocr技术生成中文近义词的方法及***

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020806