JPH0954814A

JPH0954814A - 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム

Info

Publication number: JPH0954814A
Application number: JP7218266A
Authority: JP
Inventors: John Bergs Christopher; ジョンバーグスクリストファー; Stewart Denker John; スチュワードデンカージョン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-08-04
Filing date: 1995-08-04
Publication date: 1997-02-25

Abstract

(57)【要約】【課題】入力記号表現の解釈の生成方法及びシステム
を提供する。【解決手段】システムは入力記号表現を示す取得入力
データセットを処理し、一連のセグメントを生成し、こ
のセグメントを用いて一連のコンセグメンテーションを
指定する。入力記号表現に関する各コンセグメンテーシ
ョンと可能解釈はデータ構造内に示される。データ構造
は、行と列に配列され有向弧にょり選択的に連結された
ノードの二次元アレーからなるグラフにより図示され
る。ノードを通り有向弧に沿って延びる各パスは入力記
号表現に関する一つのコンセグメンテーションと一つの
可能解釈を示す。グラフ内のノードの各行について、最
適に学習されたニューラル情報処理ネットワークの複合
体を用いて既知記号セットに関する一連のスコアが生成
される。記号シーケンス解釈に関する帰納的確率を計算
する。取得入力データセットの分析により各帰納的確率
を導出することにより高信頼性確率が入力記号表現の競
合解釈について生成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は新規な帰納的確率測
度及び最適に学習されたニューラル情報処理ネットワー
クを用いる、手書き文字のような入力記号表現を自動的
に解釈する方法及びシステムに関する。

【０００２】

【従来の技術】現在、様々な媒体に記録された適当に結
合されたアルファベット文字の列を正確に解釈（すなわ
ち、認識）できる装置の開発が市場で強く求められてい
る。例えば、米国の郵政省は、郵便の蓄積及び全国への
配達経路指定操作中に、郵便物に手書きされたＺＩＰコ
ード（すなわち、郵便番号）を正確に認識するために、
このような装置の一刻も早い開発を強く望んでいる。

【０００３】現在、多数の文字認識システムが様々な環
境下で使用するために開発されている。このような様々
なシステム及び関連技術は下記の技術文献に開示されて
いる。 (1) Y. Le Cun, B. Boser, J.S. Denker, D. Henderso
n, R.E. Howard, W. Hubbard, and L.D. Jackel, "Hand
writtten Digit Recognition with a Back-Propagation
Network", pp. 396-404 in Advances in Neural Infor
mation Processing2, David Touretzky, ed., Morgan K
aufman (1990),(2) J.S. Bridle, "Probabilistic Inte
rpretation of Feedforward Classification Network O
utputs, with Relationships to Satistical Pattern R
ecognition", in Neuro-Computing: Algorithms, Archi
tectures and apications, F. Fogelman and J. Heraul
t, ed., Springer-Verlag (1989),(3) J.S. Bridle, "T
raining Stochastic Model Recognition Algorithms as
Networks Can Lead To Maximum Mutual Information E
stimation of Parameters",in Advances in Neural Inf
ormation Processing 2, David Touretzky, ed., Morga
n Kaufman (1990),(4) O. Matan, J. Bromley, C.J.C.
Burges, J.S. Denker, L.D. Jackel, Y. LeCun, E.P.D.
Pednault, W.D. Satterfield, C.E. Stenard, and T.
J. Thompson, "Reading Handwritten Digit: A ZIP cod
e Recognition System", IEEE Computer 25(7)59-63 (J
uly 1992),(5) C.J.C. Burges, O. Matan, Y. Le Cun,
J.S. Denker, L.D. Jackel, C.E. Stenard, C.R. Nohl,
J.I. Ben, "Shortest Path Segmentation: A Method f
or Training a Neural Network to Recognize Characte
r Strings", IJCNN Conference proceedings 3,pp.165-
172 (June 1992),(6) C.J.C. Burges, O. Matan, J. Br
omley, C.E. Stenard, "Rapid Segmentation and Class
ification of Handwritten Postal Delivery Addresses
using Neural Network Technology", Interim Report,
Task Order Number 104230-90-C-2456, USPS Referenc
e Library, Washington D.C. (August 1991),(7) Edwin
P.D. Pednault, "A Hidden Markov Model For Resolvi
ng Segmentation and Interpretation Ambiguities in
Unconstrained Handwriting Recognition", Ball Labs
Technical Memorandum 11352-090929-01TM, (1992),
及び(8) Ofer Matan, C.J.C. Burges, Y. Le Cun, J.S.
Denker, "Multi-Digit Recognition Using a Space Di
splacement Neural Network", in Neural Information
Processing System 4, J.M. Moody, S.J. Hanson and
R.P. Lippman, eds.,Morgan Kaufman (1990)。

【０００４】前記の文献に記載された従来のシステムは
互いに区別できるが、これらのシステムが共通に共有す
る構造及び機能特徴により最も特徴付けられる。

【０００５】特に、従来技術の各システムは、システム
により解釈されるべき、場合により接続されている文字
列の少なくとも一つの画像Ｉを取得する。一般的に、所
定のアルファベットの場合、システムが選択しなければ
ならない“最良”解釈を含む可能解釈の数は、アルファ
ベット内の文字及び適用可能な形態的制約を用いて一緒
に数珠繋ぎにすることができる可能文字列の数に等し
い。ＺＩＰコード（郵便番号）認識用途では、各許容可
能解釈は、ＺＩＰコードの長さにより制約される。すな
わち、ＺＩＰコードは５又は９桁でなければならない。

【０００６】従来技術によれば、下線、空間ノイズなど
を除去するために、文字列の取得画像は一般的に、前処
理される。次いで、この前処理画像Ｉは、管理可能なサ
イズの副画像へ“カット”又は分割される。各隣接カッ
トラインの組の間の副画像は画像“セル”と呼ばれる。
或る場合には、２つのセル間の境界は、２つの文字間に
明確に含まれる“確定カット”であると決定される。一
方、他の場合には、カットは不明確と見做され、カット
が２つの文字間に含まれるか否かの決定は、更なる処理
が行われるまで、延期される。

【０００７】次いで、画像“セグメント”を生成するた
めに、隣接画像セルは結合される。その後、前処理画像
の殆ど全ての画素を包含する許容可能な画像“コンセグ
メンテーション”を生成するために、画像セグメントは
左から右へ、一緒に数珠繋ぎにされる。特に、許可可能
な画像“コンセグメンテーション”のモデルを構成する
ために、非環式（鎖状）有向グラフが使用される。一般
的に、このモデルは、各画像セグメントに有向非環式グ
ラフ内のノードを付随させることにより構成される。

【０００８】次いで、グラフ内のノードは有向弧と接続
される。一般的に、ノードが示す画像セグメントが許容
可能な画像コンセグメンテーション内で合法的に隣接し
ている場合にのみ、グラフ内の２つのノードは接続され
る。

【０００９】グラフが完全に構成されると、グラフ内を
通る各パスは前処理画像の画像コンセグメンテーション
に対応し、また、全ての可能画像コンセグメンテーショ
ンはグラフ内を通る特定のパスに対応する。グラフが構
成された後、再帰的剪定（枝刈り）技法を使用し、グラ
フから、前処理画像を通る明確なカットラインに出会う
画像セグメントに対応するノードを除去する。

【００１０】グラフが剪定された後、剪定グラフ内に残
っているノードに付随する各画像セグメントは、分類及
びスコアリングのために、ニューラルネットワーク認識
器に送られる。このような分類及びスコアリングに基づ
き、剪定グラフ内の各ノードは、付随画像セグメントに
割当てられた認識器スコアから導出される“スコア”が
割当てられる。

【００１１】一般的に、各認識器スコアは、認識器スコ
アを正規化することからなる計算手順により、確率に変
換される。その後、パススコア（すなわち、結合確率）
は剪定グラフを通る各パスについて計算される。この計
算は、例えば、パスに沿ってノードに割当てられた“ス
コア”を単に乗算することにより行われる。この多文字
認識（ＭＣＲ）方式により、剪定グラフを通る最高スコ
アリングパスは、取得画像に関する“最良”画像コンセ
グメンテーション及び文字列解釈に対応する。

【００１２】これらの技術に関する詳細な説明は、１９
９１年１２月３１日に出願された米国特許出願第０７／
８１６４１４号明細書及び同第０７／８１６４１５号明
細書に開示されている。

【００１３】従来の方法は市販及び実験用文字認識シス
テムの設計には有用であるが、このようなシステムの性
能は、特に、要求度の高いリアルタイム用途では理想的
なものではない。特に、従来のＭＣＲシステムは一般的
に、所定の解釈をサポートする一つのコンセグメンテー
ションだけを識別することにより動作する。この方法
は、唯一の“最良”コンセグメンテーションが存在する
という概念を前提にしている。

【００１４】このような従来の方法では、この一つの
“最良”コンセグメンテーションのスコアは、認識プロ
セス中に考究される唯一のスコアである。従って、従来
のＭＣＲシステムは、正しい画像コンセグメンテーショ
ンが既知であると不正確に仮定することと同等である方
法を使用する。この仮定に依拠して、容認コード又はア
ルファベットにおける特定の文字に関する確率を計算す
るために、個々の文字スコアが正規化される。

【００１５】これは、セグメンテーションアルゴリズム
が画像の特定セグメントについて行われた方法に関する
有用な情報を回復不能に廃棄してしまう。このような仮
定に基づく従来のＭＣＲシステムは、しばしば、“最尤
シーケンス推定”（ＭＬＳＥ）マシーンと呼ばれる。

【００１６】画像の解釈の選択に加えて、従来の幾つか
のＭＣＲシステムは、しばしば、選択された解釈が正し
い確率の何らかの表示を与えることを意味するスコアを
提供する。多くの用途では、ＭＣＲシステムのこの結果
を他の情報源と結合することを容易にするため、正確な
確率として解釈できるスコアを有することが望ましい。
しかし、従来のＭＣＲシステムは“最良”解釈の選択を
強調する傾向があったが、正確なスコアリングは強調し
ていない。従って、スコアはしばしば数桁程度の相当大
きな組織的エラーを包含する。

【００１７】従って、様々な媒体で表示される記号シー
ケンスを解釈するための優れた方法及びシステムの開発
が強く望まれている。

【００１８】

【発明が解決しようとする課題】従って、本発明の一般
的目的は、例えば、印刷又は筆記体書込技術により媒体
に表示又は記録された文字列のような入力記号表現を解
釈する優れた方法及びシステムを提供することである。

【００１９】本発明の別の目的は、最良文字列解釈の選
択に、帰納的確率を使用する自動化文字列解釈の方法及
びシステムを提供することである。

【００２０】本発明の別の目的は、各帰納的確率が、先
験的情報と既知例の画素画像と結合することにより帰納
的に導出される、自動化文字列解釈の方法及びシステム
を提供することである。

【００２１】本発明の別の目的は、任意の長さの文字列
を解釈することができ、しかも、自動文章解釈システム
などと容易に併用することができる、自動文字列解釈の
方法及びシステムを提供することである。

【００２２】本発明の別の目的は、正しい文字列解釈の
スコアを最大にするために最適に学習されたニューラル
計算ネットワークの複合体により行われる単一のアダプ
ティブ学習プロセスに、画像コンセグメンテーション及
び文字列解釈に結合させる、多文字認識の方法を提供す
ることである。

【００２３】本発明の別の目的は、特別に変更された非
環式有向グラフに基づく新規なデータ構造を使用し、グ
ラフ内を通る各パスは画像コンセグメンテーション及び
文字列解釈の双方を示すシステムを提供することであ
る。

【００２４】本発明の別の目的は、画像の被選択可能解
釈に、スコア（特に、この被選択解釈の確率の正確な推
定値として解釈できるスコア）を割当てることである。

【００２５】本発明の別の目的は、特定の文字列解釈の
各々に割当てられた帰納的確率が比率として定義され、
この比率の分子部分は、同じ文字列解釈を示すグラフ内
を通る全てのパスに沿ってパススコアを加算することに
より計算され、比率の分母部分は、同じ文字数の可能文
字列解釈を全て示すグラフ内を通る全てのパスに沿って
パススコアを加算することにより計算されるシステムを
提供することである。

【００２６】本発明の別の目的は、携帯型デバイスとし
て実現させることができる、多文字手書認識システムを
提供することである。

【００２７】本発明の別の目的は、文字列解釈の方法を
提供することであり、該方法は、どの文字列解釈が最良
パススコアを有するか識別するためにヴィテルビ(Viter
bi)アルゴリズムを使用し、次いで、ヴィテルビアルゴ
リズムにより識別された文字列解釈を示す全パススコア
の正確な和を計算するために順方向アルゴリズムを使用
し、そして、全ての可能文字列解釈を示すグラフ内を通
る全てのパススコアを加算することにより、前記の正確
に計算された和に関する正規化定数を計算するために順
方向アルゴリズムを使用することからなる。

【００２８】本発明の別の目的は、文字列解釈の方法を
提供することであり、該方法は、最良のパススコアセッ
トを有する多数の競合文字列解釈を識別するためにビー
ムサーチアルゴリズムを使用し、ヴィテルビアルゴリズ
ムにより識別された競合文字列解釈を示す全パススコア
の正確な和を、各文字列解釈について計算するために順
方向アルゴリズムを使用し、そして、その後、全ての可
能文字列解釈を示すグラフ内を通る全てのパススコアを
加算することにより、各競合文字列解釈について、単一
の正規化定数を計算するために順方向アルゴリズムを使
用することからなる。

【００２９】本発明の別の目的は、１つ以上の学習セッ
ション中にニューラルネットワークのパラメータを最適
に調整することによりシステムを学習させるために、グ
ラフ及びニューラル情報処理ネットワークの複合体の両
方を使用することからなる、操作の学習モードを有する
入力記号表現解釈システムを提供することである。

【００３０】本発明の別の目的は、正しいと知られてい
る文字列解釈の帰納的確率が増大し、正しくないと知ら
れている解釈の帰納的確率が低下する方向に、ニューラ
ルネットワーク内の各調整可能パラメータを調整するた
めに、ニューラルネットワーク学習中に感度分析が使用
されるシステムを提供することである。

【００３１】本発明の別の目的は、ニューラルネットワ
ークの各調整可能なパラメータに対して為された増分変
化に応答するシステムの全体的変化により生成されたこ
れらのスコアを高感度に計算するために、操作の学習モ
ード中に、バウム−ウエルチ(Baum-Welch)アルゴリズム
を使用することからなる、入力記号表現解釈システムを
提供することである。

【００３２】

【課題を解決するための手段】前記課題を解決するため
に、本発明は、印刷又は筆記体書込技術を用いて、媒体
に表現された入力記号表現の解釈を生成する方法及びシ
ステムを提供する。

【００３３】一般的に、本発明のシステムは入力記号表
現を示す入力データセットを取得する。取得された入力
データセットは一連のセグメントに分割される。次い
で、この一連のセグメントは、一連のセグメンテーショ
ンを指定するために使用される。その後、本発明のシス
テムは、入力記号表現の各コンセグメンテーション及び
各可能解釈を暗黙的に示すために、新規なデータ構造を
使用する。

【００３４】データ構造は、行と列に配列され、有向弧
により選択的に連結されたノードの２次元アレーからな
る有向非環式（鎖状）グラフとして示すことができる。
ノード内を通り、有向弧に沿って延びる各パスは、入力
記号表現の一つのコンセグメンテーションと一つの可能
解釈を示す。入力記号表現の全てのコンセグメンテーシ
ョンと全ての可能解釈は、グラフ内を通して延びる一連
のパスにより暗に示される。

【００３５】グラフ内の各ノード行の場合、例えば、最
適に学習されたニューラル情報処理ネットワークを用い
て、既知の記号セットについて一連のスコアが生成され
る。グラフに関連して、これらのスコアに、グラフ内を
通る各パスに関するパススコアを暗黙的に割当てる。こ
れらのパススコアを用いて、本発明のシステムは最良の
記号シーケンス解釈を識別し、これらに関する帰納的確
率を計算する。

【００３６】殆ど全ての取得入力データセットを分析し
て各帰納的確率を導出することにより、各記号シーケン
ス解釈に関する高信頼性確率を生成する。本発明の原理
は、任意の長さの走り書き的に書き込まれた文字列など
のような殆ど全ての記号表現シーケンスについて実施で
きる。本発明のシステムは、自動文章解釈システムと共
に使用するのにも容易に適合させることができる。

【００３７】本発明のシステムは、グラフ内を通る最高
スコアリングパスを有する文字列解釈を決定する。この
解釈が信頼できるか否か決定するために、本発明のシス
テムは、出力として、この文字列解釈の帰納的確率も生
成する。この確率は分母部分に対する分子部分の比率と
して計算される。分子部分は、所定の文字列解釈を示す
グラフ内を通る全てのパスのパススコアの和に等しい。

【００３８】分母部分は、全ての可能文字列解釈を示す
グラフ内を通る全てのパスのパススコアの和に等しい。
確率が所定の閾値未満である場合、ユーザは、この解釈
は信頼できることを保証できず、その結果、ユーザは、
更なる動作の前に、他のステップに取りかからなければ
ならないことを告知される。

【００３９】本発明の別の実施例では、本発明のシステ
ムは、最高の一連のパススコアを有するグラフ内を通る
一連のパスを最初に発見する。この一連のパス内の各パ
スについて、本発明のシステムは、対応する文字列解釈
を識別し、そして、この解釈（同じ寄与を有する他のパ
スからの寄与を含む）の帰納的確率の数値を求める。本
発明のシステムは、発見された一連のパスにより示され
る可能文字列解釈群を識別する。

【００４０】次いで、可能文字列解釈群の帰納的確率を
計算する。どちらの可能文字列解釈が最大帰納的確率を
有するか決定するために、本発明のシステムは、計算さ
れた帰納的確率群を分析する。この分析に基づき、本発
明のシステムは、出力として、(i)高帰納的確率を有す
る一つ以上の文字列解釈及び(ii)各文字列解釈の帰納的
確率の正確な推定値を生成する。

【００４１】各競合文字列解釈に関する帰納的確率は、
分母部分に対する分子部分の比率として計算される。分
子部分は、競合文字列解釈を示すグラフ内を通る全ての
パスに関するパススコアの和に等しい。分母部分は、全
ての可能文字列解釈を示すグラフ内を通る全てのパスに
関するパススコアの和に等しい。

【００４２】本発明の記号シーケンス解釈システムを最
適に学習させる新規な方法及びシステムも提供される。
これは、動作の独特な学習モードをシステムに付与する
ことにより行われる。

【００４３】この動作の学習モードでは、本発明のシス
テムは、既知の入力記号表現を示す多数の学習画像を処
理する。各被処理学習画像について、本発明のシステム
は、各ニューラルネットワークの機能を特徴付ける調整
可能なパラメータ群を増分的に調整する。各増分調整の
方向は、正しいと知られている文字列解釈に関する平均
確率が増大し、一方、正しくないと知られている記号シ
ーケンス解釈に関する平均確率が低下するような方向で
ある。

【００４４】本発明のシステム及び方法は、例えば、当
業者に周知な、紙、プラスチック又は織物のような電気
的に受動的な媒体又は感圧式書込面及び“タッチスクリ
ーン”書込／表示面のような電気的に能動的な媒体への
図形記録を含めて、実質的に任意の方法で表示された文
字列を解釈するために使用される。

【００４５】

【発明の実施の形態】図１は多数の統合システム構成部
品からなる記号シーケンス解釈（すなわち、“認識”）
システム１のブロック図である。特に、このシステムは
プログラムメモリ記憶装置３に記憶されたプログラムに
より制御される１個以上の処理ユニット２（例えば、マ
イクロプロセッサ）を有する。プログラムメモリ記憶装
置３はオペレーティングシステムプログラム、アプリケ
ーションプログラム及び本発明の様々な画像処理ルーチ
ンなども記憶する。本発明のデータ構造に付随するデー
タを記憶するためのデータ記憶メモリ４も有する。

【００４６】一般的に、このシステムは、記号の表示シ
ーケンスを示す入力データセットを取得するための入力
データセット取得デバイス５を有する。このデバイス
は、図２に示されるような、記録媒体６に記録されるア
ルファベット文字の可能な接続列の濃度階調又は着色画
像を取得するための画像検出器として実現される。

【００４７】文字列は、紙、プラスチック、木、繊維な
どのような電気的に受動的な記録面又は、感圧デジタル
化表面又は当業者に周知な“タッチスクリーン”ＬＣＤ
書込及び表示表面のような電気的に能動的な記録面に記
録することができる。文字列は、常用の印刷又は筆記体
（すなわち、手書き）書込技術を用いて表現することが
できる。

【００４８】本発明のシステムは、解釈すべき文字列の
取得画像をバッファするための、ランダムアクセスデー
タ記憶メモリ（例えば、ＶＲＡＭ）７を有する。大容量
データ記憶メモリ８がこれら画像の長期間記憶用に設け
られている。

【００４９】本発明のシステムは、可視ディスプレイス
クリーン又は画面（ＬＣＤ）を有する可視ディスプレイ
ユニット９，キーボード又はその他のデータ入力デバイ
ス１０，ディスプレイ画面上に可視的に表示された図形
アイコンを指摘、ドラッギング及び選択するするための
デバイス１１，入力／出力デバイス１２，及びシステム
１により供給された情報を使用する１個以上の外部ホス
トシステム１４をインターフェースするためのシステム
インターフェース１３も包含する。

【００５０】システム構成部品２，３，４，７及び８は
手元の特定用途に適したコンパクトなハウジング内に収
納されている。その他の構成部品はそれぞれのハウジン
グ内に収納されている。これら各構成部品は、１本以上
のシステムバス１５を介してプロセッサ２に付随して動
作することができる。ＺＩＰコード（いわゆる、郵便番
号）認識用途では、本発明のシステムは、常用の郵便蓄
積及び経路指定装置１４により適当にインターフェース
される。

【００５１】図２に示されるように、文字列解釈システ
ム１は、図形的に記録された文字の列の取得画像Ｉに包
含される画素情報の分析に基づき、図形的に記録された
“文字の列”（Ｃｉにより示される）の解釈に到達する
ために、多数の機能を果たす。これらの画像処理ステー
ジは、他の関連図面を参照しながら、下記で順に説明す
る。

【００５２】一般的に、本発明のシステム及び方法は任
意の長さの機械印刷又は手書文字列に適用できる。従っ
て、本発明は手書認識用途で有用である。この場合、手
書きする筆者は、様々な種類の書込画面に１つ以上の文
字を書き込むことができ、あるいは、自動認識用に一つ
以上の文章を書き込むことができる。

【００５３】図１４及び図１７に示された実施例は手書
きＺＩＰコードの解釈（すなわち、分類）の問題を検討
するものであり、この場合、文字列長さは５又は９桁で
ある。しかし、本発明の方法及びシステムは、当業者に
公知の自動文章認識システムの長い文脈のような、任意
の長さの文字列（すなわち、単語群）を解釈するために
も使用できる。

【００５４】図２において、ブロックＡ〜Ｉは、本発明
の文字列解釈処理中に行われる様々なステージを模式的
に示す。図２におけるブロックＡに示されるように、処
理の第１ステージは、文字列の画像Ｉを取得することで
ある。一般的に、システム１により取得される各画像Ｉ
は画素のマトリックスからなる。

【００５５】画像マトリックス中の各画素は画像内の画
素位置における画像の強度を示す濃度階調輝度を有す
る。更に、画素の飽和を示すこともできる。各取得画像
はフレームバッファ７に記憶される。ブロックＢにより
示されるように、処理の第２ステージは、記憶画像Ｉの
“前処理”である。プロセッサ２により行われる適当な
画像前処理操作は、“所望領域”の位置決め，下線の除
去，画像のデスランティング(deslanting)及びデスキュ
ーイング(deskewing)，小さい点（すなわち、微小な接
続成分）と侵入ストロークの除去，及び標準サイズへの
画像の正規化（例えば、画像のアスペクト比が変更され
ないように選択された幅と共に、２０画素高さに正規化
する）などである。

【００５６】画像正規化は、前処理画像Ｉ’が、更なる
画像正規化を必要とすることなく、システムのその後の
ステージに送ることができるようにするために行われ
る。正規化処理中に行われる再サンプリングは、原画像
が白黒であったとしても、効果的な濃度階調画像を生じ
る。その後、正規化画像の上部及び下部輪郭を使用し、
水平及び垂直画像両方向における文字のロングテールを
クリップする。前記の画像前処理操作に関する更に詳細
な説明は、１９９１年１２月３１日に出願された米国特
許出願第０７／８１６４１４号明細書に開示されてい
る。

【００５７】ブロックＣで示される認識処理の次のステ
ージは、前処理画像Ｉ’を“セル”と呼ばれる副画像へ
切り出すことである。画像セルを生成する目的は、この
画像セルを結合し、ブロックＤで示される画像セグメン
ト生成ステージ中に画像“セグメント”Ｓ_iを生成でき
るようにするためである。

【００５８】本発明によれば、画像セルは先ず、大きな
“結合成分”の存在を検出するために、前処理画像に対
して“結合成分分析”を行うことにより生成される。そ
の後、これらの大きな結合成分含有副画像に対して“ス
マート”波動カットライン作図処理を行う。結合成分分
析及びスマート波動カットライン作図副処理の両方と
も、付属ＲＡＭ４を用いてプログラム化プロセッサ２に
より行われる。

【００５９】更に詳細には、結合成分分析は、一緒に結
合された文字成分（すなわち、画素群）の存在を決定す
るために、前処理画像からなる画素の強度を分析する。
結合成分分析は、垂直及び水平画像方向に沿って、所定
の範囲内の強度値を有し、一緒に結合される大きな文字
成分を生成するために現れ、１個以上の文字に付随する
と思われる、画素クラスタをサーチする。結合文字成分
は例えば、図４〜図８に示された２番目及び３番目のＺ
ＩＰコード画像などである。

【００６０】大きな結合成分を包含する副画像内に２個
以上の文字が包含されることがある。１個以下の文字が
画像セルの画素により示されるようにするため、カット
ラインをこのような副画像を通して引くことが重要であ
る。これは、被識別大結合成分中に“波動”カットライ
ンを生成することにより行われる。

【００６１】一般的に、このカットライン生成処理によ
り、単に文字を示す画素群中にカットラインを引くだけ
で、大結合成分により示される文字を２個以上の画像セ
ルに細分ことができる。隣接画像セルを結合し画像セグ
メントを構成する方法の数は、この認識処理ステージ中
に生成される画像セルの数と共に急速に増大する。

【００６２】本発明のシステムは、一連の良好なカット
ラインを識別し、冗長なラインなどを除去する複雑なヒ
ューリスティック（発見的方法）を使用することによ
り、前処理画像を微小画像セルにカットすることを避け
る。この副処理の操作は、図４〜図８に示された前処理
画像に対して引かれ、かつ、選択的に除去されたカット
ラインにより例証される。

【００６３】この副処理の最後に、残りのカットライン
の各隣接対間の画素は画像“セル”を画成する。画像セ
ル生成処理中に生成された画像セルは図９の表に示され
る。この表に示されるように、各画像セルはセル番号
（例えば、０，１，２，３，４等）により識別される。
認識処理のこのステージ中のカットライン自動生成に関
する更に詳細な説明は、米国特許出願第０７／８１６４
１４号明細書に開示されている。

【００６４】図２のブロックＤに示されるように、処理
の次のステージは、隣接する（すなわち、連続的な）画
像セルを左から右の順序で結合し、図１０の表に示され
るような一連の画像“セグメント”を生成する。この表
に示されるように、各画像セグメントはその構成画像セ
ルに割当てられた番号（例えば、０，０１，１，２，２
３等）を結合することにより識別される。理想的には、
各画像セグメントは一つだけの文字を示す画素を包含す
る。しかし、いつもこのように上手くいくわけではな
い。

【００６５】画像セグメントの最終セットが正しい画像
セグメントを包含することが重要である。複雑な発見的
方法を使用し、画像セルの個数及びどの画像セルを結合
して画像セグメントを構成すべきか決定する。一般的
に、発見的方法は、“明確な限界のある”カット、“相
互接続成分”カット、“内部接続成分”カットなどの用
語で表現される。これらの発見的方法のパラメータ及び
調整ファクタは経験的に決定される。

【００６６】各画像セグメントは一連の画像画素からな
る。この画像画素は、システムに包含される割当てニュ
ーラル情報処理ネットワークにより分析される。下記で
詳細に説明するように、各ニューラルネットワークの機
能は、割当てられた各画像セグメントの一連の画素を分
析すること、及び、画素セットが実際に示されるか又は
可能性として分類される可能な数字文字（すなわち、記
号）の各々に関するスコアを出力として生成することで
ある。

【００６７】ブロックＥで示される処理の次のステージ
は、一連の許容しうる（すなわち、合法な）画像“コン
セグメンテーション”を生成するために、連続的画像
“セグメント”を左から右へ一緒に数珠繋ぎにすること
である。このような各画像コンセグメンテーションは、
前処理画像Ｉ’内の全ての画素を説明しなければならな
い。

【００６８】できるだけ少数のコンセグメンテーション
を検討することが望ましい。これでも確実に、正しいコ
ンセグメンテーションが生成画像セルから構成された一
連の全画像コンセグメンテーション中に包含される。図
１１の表において、５文字のＺＩＰコード例に関する合
法画像コンセグメンテーションが３例示されている。ブ
ロックＥで示されるように、コンセグメンテーションは
図１２の“有向非環式割当グラフ”により生成される。

【００６９】このグラフの構造は、これら画像コンセグ
メンテーションの各々が５個の画像セグメントからなる
ことを保証する。入力画像Ｉの空間構造の実体を獲得す
るために、画像セグメントを一緒に数珠繋ぎにすること
ができる方法を支配する規則が存在する。例えば、或る
セグメントの右端を次の画像セグメントの左端に接触し
なければならない。（すなわち、一束の画素をスキップ
する、及び／又は、誤った空間順序で画素を結合するこ
とは許されない。）

【００７０】しかし、所望により、これら制約の幾つか
は、適当な条件下で緩和させることができる。連続的な
画像セグメントＳ_iを一緒に数珠繋ぎにすることに関す
る更に詳細な説明は、米国特許出願第０７／８１６４１
５号明細書に開示されている。所望により、被選択画像
コンセグメンテーションをブロックＦで明快に表示する
ことができる。

【００７１】本発明の有向非環式（鎖状）グラフは、前
処理画像Ｉ’の可能な画像コンセグメンテーション群
｛Ｓ｝と、アルファベット文字により可能にされるか又
は被記録文字列が表示された言語又はコードのシンタッ
クスにより制約される文字列解釈（すなわち、分類）群
｛Ｃ｝の両方を同時にモデル化する新規な手段も提供す
る。

【００７２】図１２に関連して詳細に説明されるよう
に、“有向非環式グラフ”として表現できるこのデータ
構造は、画像コンセグメンテーション及び文字列解釈問
題の両方を“グラフ内の最適パス”問題として統一的な
方法で公式化するために、本発明のシステムにより使用
される。直感的に、この問題公式化は形状的アピールを
有する。

【００７３】アライメントグラフ、このグラフを実現す
るデータ構造及びこのグラフを使用する方法について以
下詳細に説明する。その後、このグラフを使用する方法
を、図２のブロックＢで示される画像セグメント分析ス
テージ、ブロックＨで示されるパススコア及び確率計算
ステージ及びブロックＩで示される文字列解釈ステージ
において詳細に説明する。

【００７４】図１２に示されるように、本発明のグラフ
はノードの二次元アレーからなる。このグラフは高レベ
ルの記述において、格子又はトレリスダイアグラムと呼
ばれる従来のグラフに類似する。本発明のアライメント
グラフは、多数の重要なモデル化機能を行うデータ構造
により実現される。このデータ構造はプログラム業界で
周知の方法により、プログラム化プロセッサ２により作
成、変更及び管理される。

【００７５】アライメントグラフにおける各ノードは個
別的なデータ構造として実現される。これは“主データ
構造”の副構造である。各ノードに関するデータ構造は
多数の“ローカル”情報欄を有する。この情報欄は次の
ような情報事項を記憶することができ、かつ、特別の標
識が付されている。ユニークなノード識別子（すなわ
ち、ノードの列／行アドレスを識別するコード），付随
画像セグメントの画素を示すことができる可能数字文字
の各々に関する算定スコア，付随画像セグメントの画素
を示すことができる可能数字文字の各々に関する算定
“非正規化”スコア，先祖ノードのノード識別子，及び
子孫ノードのノード識別子。

【００７６】この方法の各ステージで生成された情報を
記憶するために、主データ構造は多数の“グローバル”
情報欄を有する。この情報欄は次のような情報事項を記
憶することができ、かつ、特別の標識が付されている。
どの特定の画像セグメントがアライメントグラフ内の各
特定行のノードにより示されるか識別する一連のコー
ド，各画像セグメントがメモリ内に記憶される場所を識
別する一連のアドレス，及び被選択パスと、同じ文字列
解釈を示すアライメントグラフ中の一連のパスに沿った
スコアの和。

【００７７】アライメントグラフ内の列の数は、可能文
字列解釈内の文字の桁数（例えば、図３のＺＩＰコード
では５桁）に等しい。また、アライメントグラフ内の行
の数は、本発明の方法の画像セグメント生成ステージ中
に構築される画像セグメントの数に等しい。例えば、ア
ライメントグラフのサイズは一般的に、解釈（すなわ
ち、分析及び分類）のために取得される各画像Ｉに関す
る行サイズを変える。

【００７８】従って、各取得画像Ｉの場合、プログラム
化プロセッサ２は型通りに、取得画像に対して特別に作
製された図１２に示されるタイプのグラフを生成する。
このような各アライメントグラフは、ＲＡＭ４に記憶さ
れるものに対応するデータ構造を生成することにより物
理的に実現される。

【００７９】画像Ｉ及びその可能文字列解釈に関する画
像コンセグメンテーションに関する情報は、この情報に
ついて特別に生成されたデータ構造の情報欄に記憶され
る。最後に、この被編成情報は、解釈の候補群｛Ｃ｝か
ら最有望文字列解釈Ｃを選択するために、プログラム化
プロセッサ２により使用される。

【００８０】図１２に示されるように、本発明のアライ
メントグラフは多数の精密な構造特徴を有する。グラフ
の主要部分は行と列を有する。各列は文字列解釈Ｃ内の
一つの文字位置に対応する。この事例は５文字のＺＩＰ
コードに関するものなので、図示されるように、５列必
要である。各行は画像セグメントに対応する。この事例
は１１セグメントを有するので、図示されるように、１
１行必要である。

【００８１】或る列の或る行の各解釈には、一対のドッ
ト（・・）により示されるノードが存在する。左のド
ットはノードの“モーニング”部分を示し、右のドット
はノードの“イブニング”部分を示す。このような各ノ
ードは、その行インデックスと列インデックスにより特
定される。更に、最初の文字位置の前で、最も左側の画
像セグメントの左端に配置された特殊開始ノード１７が
存在する。同様に、最後の文字位置に右側で、最も左側
の画像セグメントの下側に配置された特殊終了ノード１
８が存在する。

【００８２】図１２に示されるように、各ノードのモー
ニング及びイブニング部分を接続する１０個の認識弧が
存在する。明瞭化のために、図１２には１０個の認識弧
の内３個しか図示されていない。解釈処理中に、各認識
弧１９は“ｒ−スコア”で標識化される。

【００８３】この“ｒ−スコア”は認識弧により示され
る文字に割当てられる。これらの認識弧は、ＺＩＰコー
ドを構成する数字文字に割当てられた非正規化ｒ−スコ
アを示す。しかし、単語及び文章認識用途では、これら
の認識弧は一般的に、所定のアルファベット又は語彙中
の記号に割当てられた非正規化スコアを示す。図１２に
示されるように、このようなノード間のノード子孫系統
及び先祖系統を示すために、或るノードの各イブニング
部分とその直ぐ隣のノードのモーニング部分との間に、
直線化グルー弧(glue-arc)１９も引かれる。

【００８４】認識弧と異なり、このグルー弧はニューラ
ルネットワークによりｒ−スコアは割当てられない。そ
の他の実施例では、複雑なグルー弧スコアを使用するこ
ともできるが、この実施例の場合、単純なシステムが使
用される。すなわち、許容弧にはスコア１．０が割当て
られ、かつ、保持される。しかし、非許容弧にはスコア
０．０が割当てられ、アライメントグラフから廃棄され
る。

【００８５】ノードのモーニング部分はここに進入する
２つ以上のグルー弧を有することもできる。同様に、ノ
ードのイブニング部分はここから出る２つ以上のグルー
弧を有することもできる。画像コンセグメンテーション
の構成にインポーズされる制約の結果として、ローカル
的には道理にかなうが、グローバル的には道理にかなわ
ないグルー弧がアライメントグラフ中に存在することも
ある。従って、解釈処理の計算効率を改善するために、
特定のグルー弧を除去又は剪定することができる。図２
のブロックＧに示される画像セグメント分析ステージに
進む前に、アライメントグラフに対して次ぎの“グルー
弧”剪定処理を行うことができる。

【００８６】グルー弧剪定処理の第１工程は、順方向コ
ーンのメンバーとしてすでにマークされたノードの子孫
を反復的にマークすることにより、開始ノードの子孫で
あるノードの“順方向コーン”を計算することである。
処理の第２工程は、逆方向コーンのメンバーとしてすで
にマークされたノードの先祖を反復的にマークすること
により、終了ノードの先祖であるノードの“逆方向コー
ン”を計算することである。

【００８７】処理の第３工程は、どのノードがこれら２
つのコーンの論理的共通部分に存在しないか決定し、次
いで、これらノードを“デッド”としてマークする。そ
の後、“デッド”とマークされたノードへ延びる又はこ
のノードから延びるグルー弧を許容グルー弧のリストか
ら削除（すなわち、剪定）する。これらコーンの共通部
分内の各ノードは“アライブ”と見做され、画像セグメ
ント分析ステージ中にその一連の認識弧に割当てられる
スコアを有する。

【００８８】このグローバルな制約を満たすことによ
り、合法的な先祖又は子孫を有しない、アライメントグ
ラフの右手上方コーナー及び左手下方コーナーに多数の
ノードが存在することとなる。この事実は、図１２に示
されるように、アライメントグラフのこれらの領域内に
入力グルー弧及び出力グルー弧が存在しないことにより
示される。更に、必要により、又は所望により、アライ
メントグラフは明確なカットの存在を用いることにより
剪定することもできる。

【００８９】グラフ内の各パスはコンセグメンテーショ
ン及び解釈の両方を示す。パス内のグルー弧はコンセグ
メンテーションを指定し、パス内の認識弧は解釈を指定
する。本発明の方法がどのようにして、可能文字列解釈
の全ての群又は競合する文字列解釈の少数群の何れかか
ら“正しい”文字列解釈を選択するのかを理解ために、
先ず最初に、“正しい”文字列解釈の最終的選択に先行
する幾つかのサブプロセスを理解しなければならない。

【００９０】第１のサブプロセスは、各ノードの認識弧
に割当てられた非正規化ｒ−スコアの計算に関する。第
２のサブプロセスは、同じ文字列解釈を示すアライメン
トグラフを通る全ての文字列パスに付随するｒ−スコア
の和の計算に関する。これらのサブプロセスについて以
下説明する。

【００９１】図１３に示されるように、解釈処理の画像
セグメント分析ステージは複雑なニューラル計算ネット
ワーク２１を使用する。各ｉ番目のニューラル計算ネッ
トワークの基本的機能は、グラフ内のｉ番目の行と同時
インデックス化された画像セグメントＳ_iの画素を分析
し、グラフ内のｉ番目の行内の各ノードにおける認識弧
に割当てられる一連の“スコア”（すなわち、ｒ−スコ
ア）を計算することである。

【００９２】一つのセグメントが存在すると、行当たり
の一つのニューラルネットワーク及び同じ行内の全ての
ノードは同じ１０個組のｒ−スコアを受信する。明確化
のために、各ノードについて、１０個の認識弧の内の３
個だけしか図１３には図示されていない。要するに、各
ニューラル計算ネットワークはその入力（一連の番号に
より示される一群の画素）を、ｒ−スコアと呼ばれる１
０個組の番号ｒ₀，ｒ₁，．．．ｒ₉にマップする。

【００９３】ネットワークのアーキテクチャは、これら
のｒ−スコアがポジティブであり、これらの解釈を非正
規化確率として容認することを保証する。ｒ₀が大きな
値であることは、入力セグメントが数字の“０”を示す
高い確率を示し、同様に、他の９個のｒ−スコアはそれ
ぞれ他の９個の数字に対応する。また、大きなｒ−スコ
アは、入力セグメントが画像の正しいコンセグメンテー
ションの一部である高い確率を反映する。

【００９４】逆に言えば、数字を半分にカットすること
によりセグメントが生成される場合（時々起こることが
ある）、このセグメントに関する１０個全てのｒ−スコ
アは、セグメントの望ましからざる特性の検出を示すた
めに、小さくなければならない。

【００９５】本発明によれば、各ニューラル計算ネット
ワークのマッピング機能は、成分を有する重みベクトル
Ｗ₁，Ｗ₂，．．．Ｗ_mとしてベクトル形で示すことがで
きる一連の調整可能パラメータを特徴とする。初めに、
各ニューラル計算ネットワークの一連の調整可能パラメ
ータを一連の初期値に調整する。

【００９６】しかし、下記で詳細に説明するように、図
２のブロックＪで示されるニューラルネットワークパラ
メータ調整ステージは、１つ以上の学習セッション中
に、各ニューラル計算ネットワークの入力／出力マッピ
ング機能を一連の学習データに順応させるように条件付
けするような方法で、これらのパラメータを増分的に調
整できるために設けられている。この学習データセット
は、国中の異なる人々により手書きされたＺＩＰコード
を有する数十万の有効化学習画像からなる。

【００９７】各ｉ番目のニューラル計算ネットワークか
ら生成されたｒ−スコアは、ｒ＝ｒ₁，ｒ₂，．．．，ｒ
_Nとしてベクトル形で表示され、アライメントグラフの
ｉ番目の行内の全てのノードにおける１０個の対応する
認識弧（すなわち、情報欄）に割当てられる。

【００９８】一般的に、各ニューラル計算ネットワーク
は、コンピュータプログラム、電気回路、又はニューラ
ル計算ネットワークの入力／出力マッピング機能を実現
できる微視的又は巨視的デバイスとして実現できる。し
かし、各ニューラル計算ネットワークは周知のLeNet
（登録商標）コンピュータプログラムを実行することに
より実現される。

【００９９】このLeNet（登録商標）コンピュータプロ
グラムは、Y.Le Cun et al., "Handwritten Digit Reco
gnition with a Back-Propagation Network", pp 396-4
04, Advances in Neural Information Processing 2,
(David Touretzky, Editor), Morgan Kaufman (1990)
に詳述されている。更に、ニューラル計算ネットワーク
の構成及び学習に関する詳細な説明は、John Denker et
al., "Automatic Learning , Rule Extraction, and G
eneralization", pp 877-922, Complex Systems,Vol.
1, October,1987に開示されている。

【０１００】アライメントグラフにおいて、同じ文字列
解釈を示す２個以上のパス（異なるコンセグメンテーシ
ョンを示す）が存在することもある。所定の解釈を示す
パスは“グループ”と見做さなければならない。所定の
解釈に割当てられたスコアはグループ内の全てのパスの
スコアの和に依存しなければならない。これは、このグ
ループ内の一つだけのパスに関するスコアを一般的に考
慮する従来の認識器と異なり、グループ内の他のパスの
寄与を無視する。

【０１０１】５個の数字を包含する画像の場合、一般的
に、１０⁵個の可能個別解釈が存在し、アライメントグ
ラフを通るパスの本数はこれよりも更に多いこともあ
る。従って、これらを明快に示したり、あるいは各確率
を個別的に検討することは実際的ではない。本発明のデ
ータ構造及びアルゴリズムにより、本発明のシステム
は、特定の重要なパスグループ（例えば、所定の解釈に
対応するパスグループ又は全てのパスグループ）を識別
し、また、このグループのスコア（すなわち、このグル
ープ内のパスのスコアの和）を効率的に評価することが
できる。

【０１０２】本発明のシステムは取得画像Ｉの画素を分
析し、確率が計算された候補解釈（すなわち、分類）を
示すグラフを通る全てのパスの和を計算する。和中の各
項目は、アライメントグラフ内の特定のパスからなる弧
に割当てられたスコアの積である。和が計算された後に
のみ、正規化が行われる。これを“列毎”正規化と呼
ぶ。

【０１０３】これに対し、確率を計算する従来の認識器
は、処理の比較的初期の段階でスコアを一般的に正規化
する。一般的に、或る意味では“文字毎”正規化と同等
である。これにより、コンセグメンテーションの品質に
関する価値ある情報を廃棄してしまう。下記に説明する
ニューラル計算ネットワーク学習プロセスは、ニューラ
ルネットワークの複合体を学習させ、セグメントの所定
の文字解釈が正しい確率ではなく、所定のコンセグメン
テーションが正しい確率に関する情報を包含するｒ−ス
コアを生成することが重要である。

【０１０４】本発明のシステム及び方法により生成され
た正規化スコアは、事後確率Ｐ（Ｃ／Ｉ）の推定値を示
す。これに対し、従来技術の多文字認識ＭＣＲシステム
で使用される最尤シーケンス推定確率は一般的に、Ｐ
（Ｉ／Ｃ）形の事前確率を使用する。これらの異なる確
率測度はその他の各所定の若干の追加情報に関連させる
ことができるので、多くの目的に受け入れられる。事後
確率の実際の利点は、本発明のシステム及び方法の内部
計算が、解釈とコンセグメンテーションの結合事後確率
Ｐ（Ｃ，Ｓ／Ｉ）の推定値に依存することである。

【０１０５】対応する事前（最尤）表示Ｐ（Ｉ／Ｃ，
Ｓ）は有用な事後形に容易に関連させることができな
い。なぜなら、一般的に、周辺確率Ｐ（Ｓ）を推定する
ことが容易ではないからである。その結果、従来の認識
器は最高スコアの解釈を識別するができるが、適正に正
規化されたスコアを割当てることができない。本発明の
正しく正規化されたスコアは、確率として非常に容易に
解釈することができ、従って、他のソースからの情報と
非常に容易に結合させることができる。

【０１０６】一般的に、図１４に示される手順の目標
は、図１３に図示されたアライメントグラフにより示さ
れる各競合文字列解釈に関する新規な事後確率Ｐ（Ｃ／
Ｉ）を計算することである。このような各確率は、分母
部分により割られる分子部分として表示される比率とし
て計算される。数学的に、本発明の確率測度は次式によ
り表される。

【０１０７】

【数１】

【０１０８】分子部分の最初の項

【数２】は、各パス（Ｓ_i’）の弧に沿ったｒ−スコアの一連の
乗法を示し、全分子部分

【数３】は、同じ文字列解釈を示す全てのパス（すなわち、コン
セグメンテーションＳ’）にわたるこのようなパススコ
ア積の加法を示す。

【０１０９】分母部分の最初の式、

【数４】は同じ文字列解釈を示す全てのパスにわたるパススコア
積の和を示し、全分母部分、

【数５】はアライメントグラフにより示される全文字列｛Ｃ｝に
わたる全パススコア積の加法を示す。

【０１１０】分母部分は全可能解釈からの寄与を包含す
るので、その値は取得画像Ｉのみにより左右され、特定
の解釈Ｃによっては左右されない。分母部分の目的は、
確率が適正に正規化されることを確保することである。
これにより、確率の一般的な原理により、Ｐ（Ｃ_i／
Ｉ）の和（すなわち、全Ｃ_i）は１に等しい。

【０１１１】特定の文字列解釈について分子部分が計算
されると、この文字列解釈に関する確率は、その計算分
母を共通分母で割ることにより得られる。“正しい”文
字列解釈に到達するために、例えば、一層大きな処理手
順に組み込むことにより、前記の確率計算手順を使用で
きる多数の様々な方法が存在する。この方法の一例を図
１４及び１５の流れ図に示す。更に別の方法を図１６及
び図１７の流れ図に示す。これらの２つの方法を以下詳
細に説明する。

【０１１２】本発明の最初の文字列解釈手順のステップ
を図１４及び図１５の流れ図に示す。ブロックＡに示さ
れるように、この手順の最初のステップは、グラフ内の
ｉ番目の行に沿った各ノードに関するｒ−スコアの組を
計算するために、図１３に示されたｉ番目のニューラル
計算ネットワークを使用することである。次いで、ブロ
ックＢに示されるように、手順は、最大パススコアを有
するアライメントグラフを通るパスを（グルー弧及び認
識弧を示す一連のコードとして）識別するために、周知
のヴィテルビ(Viterbi)アルゴリズムを使用する。

【０１１３】その後、プロセッサはこのパスに対応する
文字列解釈を識別する。この文字列パスに関するパスス
コアは、それ自体が信頼性のある測度ではない近似値に
しか過ぎないので、このスコアは廃棄される。このパス
により示された文字列解釈Ｃ _(V)を識別する情報（例え
ば、５文字のＺＩＰコードである３５７３３）だけが保
持される。

【０１１４】次いで、図１４のブロックＣに示されるよ
うに、手順は、被識別文字列解釈に関する確率測度の共
通分母部分Ｄ（Ｉ）を計算するために、周知の“順方向
アルゴリズム”を使用する。図１２のアライメントグラ
フを実現するために使用される主データ構造に、この数
字を記憶する。

【０１１５】順方向アルゴリズムを使用することによ
り、アライメントグラフにより示される全ての可能文字
列解釈に関する非正規化ｒ−スコアの（各パスに沿っ
た）積の（パス全体の）和の正確な値が得られる。グル
ー弧はその存在又は不在によってのみ、パススコアに寄
与する。スコアはグルー弧（同様に、認識弧）に割当て
ることができ、このような全てのスコアは各パスに沿っ
た積内にファクタとして包含される。

【０１１６】図１４のブロックＤに示されるように、前
記の共通分母部分Ｄ（Ｉ）を計算した後、ヴィテルビア
ルゴリズムにより既に識別された正しい文字列解釈Ｃ
_(V)の確率測度の分子部分Ｎ（Ｃ_(V)Ｉ）を計算するため
に、“順方向アルゴリズム”を使用する。その後、図１
２のアライメントグラフを実現するために使用される主
データ構造に、この数字を記憶する。

【０１１７】順方向アルゴリズムは、ヴィテルビアルゴ
リズムにより識別された被選択文字列解釈を識別するコ
ードを入力として受け入れ、この被選択文字列解釈Ｃ
_(V)の正確な分子値（すなわち、制限付き和）を出力と
して生成する。文字列解釈の算定分子部分は、文字列解
釈Ｃ_(V)を示すアライメントグラフを通る各パスに沿っ
た非正規化ｒ−スコアの積の（パス全体の）和に等し
い。この分子部分の計算中に、グルー弧は、分母部分の
計算中と同じ方法により処理される。

【０１１８】図１４のブロックＥに示されるように、分
母部分及び分子部分が計算された後、文字列解釈Ｃ_(V)
について改良された確率Ｐ（Ｃ_V／Ｉ）が計算される。
その後、この確率は主データ構造に記憶される。最後
に、図１５のブロックＦに示されるように、プロセッサ
は、ブロックＥにおける算定確率が閾値よりも大きいか
否か決定する。

【０１１９】大きい場合、プロセッサは、ヴィテルビア
ルゴリズムにより選択された文字列解釈が被分析画像Ｉ
に関する最高確率文字列解釈であることを確信する。そ
の後、ブロックＧにおいて、プロセッサはシステムから
出力として、(i)文字列解釈（例えば、３５７３３）及
び(ii)これに付随する算定確率の両方を生成する。郵便
物をどのように経路指定するか決定するための基礎とし
て、（他の情報と共に）これら２つの項目を一緒に使用
できる。

【０１２０】処理のこのステージにおいて、別の高スコ
ア解釈を識別するために、追加計算を行うことが好まし
い多数の理由が存在する。例えば、ブロックＦにおいて
Ｃ_(V ₎に割当てられた確率が０．５未満であっても、最
高確率解釈を確実に識別することが望ましいことがあ
る。この場合、一連の競合文字列解釈が識別され、この
組の各メンバーに関する確率が算定される。

【０１２１】また、本発明は、多数の解釈（及び確率）
が後の処理で使用される一層大きなシステムの一部とし
て使用することもできる。特に、取得画素画像に基づき
本発明により高確率が与えられた解釈、一層大きなシス
テムにおける後のステージにより除外することもでき
る。このため、別の解釈が必要である。この理由又はそ
の他の理由により、図１６及び図１７の流れ図に示され
た別の手順が使用される。

【０１２２】図１６のブロックＡに示されるように、こ
の手順の最初のステップは、グラフ内のｉ番目の行に沿
った各ノードの一連のｒ−スコアを計算するために、ｉ
番目の計算ネットワークも使用する。次いで、ブロック
Ｂに示されるように、この手順は、（グルー弧及び認識
弧を示す一連のコードとして）アライメントグラフを通
る比較的小さな組のパスを識別するために、ビームサー
チアルゴリズムを使用する。その後、このパスの組に対
応する競合文字列解釈｛Ｃ_j｝の組が識別される。

【０１２３】図１６のブロックＣに示されるように、プ
ロセッサは分母Ｄ（Ｉ）を計算するために周知の順方向
アルゴリズムを使用する。分母Ｄ（Ｉ）は競合解釈の組
｛Ｃｊ｝における各解釈Ｃ_jに関する確率Ｐ（Ｃ_jＩ）の
分母部分として役立つ。この数字は主データ構造に記憶
される。順方向アルゴリズムは、各パスに沿った弧の非
正規化ｒ−スコアの積の（パス全体の）和の正確な値を
与える。分母部分の場合、和は全ての可能解釈を概説す
る。

【０１２４】被識別解釈に関するスコアを計算するため
に、ブロックＤに示されるように、プロセッサは順方向
アルゴリズムを使用し、各競合文字列解釈Ｃ_jの確率の
分子部分Ｎ（Ｃ_j／Ｉ）を計算する。これらの数字は主
データ構造に記憶される。順方向アルゴリズムは、各パ
スに沿った弧の非正規化ｒ−スコアの積の（パス全体
の）和の正確な値を与える。

【０１２５】順方向アルゴリズムにより計算された和は
パス全体の和である。一つのパスはブロックＢにおける
ビームサーチアルゴリズムにより識別されるパスであ
る。実際、このパスは和における最大項を生成する。和
がその最大項により適切に近似されていると見做される
場合、分子を評価するために順方向アルゴリズムを行う
必要はない。ビームサーチアルゴリズムの結果は十分で
ある。これは“一項和”近似と呼ばれる。

【０１２６】しかし、この和は必ずしも、その最大項に
より適切に近似されるわけではない。従って、ビームサ
ーチアルゴリズムにより計算されたスコアを廃棄し、ビ
ームサーチアルゴリズムにより識別された解釈を保持
し、順方向アルゴリズムを用いて保持解釈のスコアを評
価することが好ましい。

【０１２７】全ての可能解釈について分子を計算するこ
とは一般的に不可能である。これが、ブロックＢにおい
て解釈の比較的小さな組を識別することが好ましい理由
である。この解釈は、その大きな“一項目”スコアのた
めに、大きな分子及びその事実によって大きな確率を有
するものと予想される。

【０１２８】前記の説明は、システムが学習された後の
システムの動作を説明するものである。次に、システム
の学習モードを説明する。

【０１２９】最適な性能を得るために、本発明の文字列
解釈システムには、一つ以上の学習セッション中にシス
テムを自動的に学習させることができる動作の自動学習
モードが付与されている。この動作モードは、図２のブ
ロックＪ及び図１３に図示されたシステムを参照しなが
ら下記に詳細に説明する。

【０１３０】図２のブロックＪ及び図１３に示されるよ
うに、本発明の文字列解釈システムはニューラルネット
ワークパラメータ調整モジュール２９を有する。このモ
ジュール２９は、図１３に示されたシステムのグラフ３
０及びニューラル計算ネットワーク２１の複合体の両方
と相互作用する。一般的に、本発明の学習プロセスは、
教師付き学習のコンセプトに基づく。

【０１３１】すなわち、学習セット内の各画像Ｉ^*につ
いて、初めから割当てられた解釈Ｃ^*が存在する。ニュ
ーラルネットワークパラメータ調整モジュールは、正し
い文字列解釈の予測（すなわち、平均）確率Ｐ（Ｃ^*／
Ｉ^*）が学習セット内の全ての画像Ｉ^*の処理中に増大
し、一方、各正しくない文字列解釈の予測確率Ｐ（Ｃ／
Ｉ）が学習プロセス中に低下することを確保するように
設計されている。

【０１３２】要するに、学習モードの目的、従って、ニ
ューラルネットワークパラメータ調整モジュールの目的
は、誤った解釈の平均確率を最小にする一方で、正しい
文字列解釈Ｃの確率を最大にすることを確保することで
ある。ログ関数はゼロ付近が急勾配なので、ｌｏｇ［Ｐ
（Ｃ／Ｉ）］は目的関数として選択される。

【０１３３】これにより、学習プロセスは低スコア画素
パターン（すなわち、画像セグメント）を強調する。こ
れらのパターンは最も問題のあるものであり、そのため
最も学習が必要なものなので、この強調は好ましいもの
である。選択された目的関数を実現するために、プロセ
ッサは下記の数６で示される、関数の勾配を使用する。

【０１３４】

【数６】

【０１３５】前記数６において、Ｗ＝Ｗ₁，
Ｗ₂，．．．，Ｗ_mはｍ次元のニューラルネットワーク重
みベクトルであり、ｒ_i=ｒ₁,ｒ₂,...,ｒ_nは、ｉ番目の
ニューラルネットワークからの出力として生成されるｉ
番目のｎ次元のｒ−スコアベクトルである。一般的に、
重みベクトルｗは１００００又はこれ以上の成分を有す
る。ｒ−スコアベクトルは数字認識用に正確に１０成分
を有する。前記の勾配式の右側のドット積は、ｒの成分
全体の和を意味する。

【０１３６】一般的に、各ニューラルネットワークにつ
いて、すなわち、アライメント格子内の各行について、
この形の勾配式が存在する。時には、同じ重みベクトル
ｗを用いて２個以上のネットワークを制御することが好
ましいこともある。この場合、ｗの勾配はこのような各
ネットワークからの寄与を包含する。図１３に示される
ように、重みベクトルはレジスタ３１に記憶される。レ
ジスタ３１は、システム内の各及び全てのニューラルネ
ットワークに同じ重みベクトルを与える。

【０１３７】ここに説明した多文字認識器の学習プロセ
スを始める前に、ニューラルネットワーク重みベクトル
を初期化しなければならない。幾つかの合理的な分布に
従うランダム値により初期化することもできるし、ある
いは、特に好適であると先験的に思われる選択値により
初期化することもできる。

【０１３８】多くの場合において、まるで単一文字認識
器として使用されるかのように、アライメントグラフか
らニューラルネットワークを一時的に分離し、これを手
で断片化された画像について前学習させることが好まし
い。得られた重みベクトル値は下記に説明する多文字認
識器学習プロセスのための出発点として役立つ。

【０１３９】勾配式の左側は、システム感度ベクトルと
呼ばれる。なぜなら、これは、重みベクトルｗの変化に
ついて全システムの出力の感度に関する情報を与える勾
配だからである。システム感度ベクトルの各成分は、重
みベクトルの対応成分に属する。

【０１４０】特に、システム感度ベクトルの所定の成分
がゼロよりも大きい場合、重みベクトルの対応成分の微
小な増加は、システムが当該画像Ｉに関する解釈Ｃに割
当てる確率Ｐ（ＣＩ）を増大させる。要するに、システ
ム感度ベクトルは、前記の目的関数を最適化するために
使用できる。

【０１４１】この学習プロセスの基礎となる原理を更に
深く理解するために、勾配関数を構成する数の特性の真
価を認めることが有用である。

【０１４２】前記の公式に従って、システム感度ベクト
ルは、公式の右側に示された２つの他の数のドット積
（ベクトル・マトリックス積）として計算される。この
ような第１の数はベクトル、∂ｌｏｇＰ／∂ｒである。
これは、その入力に対して与えられたｒ−スコア
ｒ₁．．．ｒ_nの変化についてグラフ出力の感度に関する
情報を与える。

【０１４３】これはグラフ感度ベクトルと見做すことが
できる。第２の数はＮ×Ｎマトリックス∂ｒ／∂Ｗであ
る。これは、全てのニューラルネットワークを制御する
重みベクトルの変化についてニューラルネットワーク出
力の感度に関する情報を与える。

【０１４４】前記の３種類の項目は次のように関数的に
相互関係にあるものと見做すこともできる。各学習画像
Ｉ^*の処理中に、評価されたニューラルネットワーク感
度マトリックスを使用し、評価されたシステム感度ベク
トルを生成するために、評価されたグラフ感度ベクトル
を変換する。次いで、評価されたシステム感度ベクトル
の個々の成分は重みベクトルの対応成分を調整し、その
結果、パラメータ調整モジュールの目的関数Ｐ（Ｃ^*／
Ｉ^*）が最適化される。

【０１４５】理論上は、システム感度ベクトルは、勾配
関数の右側の項目を数字的に評価し、次いで、特定され
た数学的演算を行うことにより得ることができる。しか
し、学習セッション中に、各画像／解釈対｛Ｉ^*，Ｃ^*｝
についてシステム感度ベクトルを操作的に評価する一層
簡単な方法が存在する。

【０１４６】図１９及び図２０の流れ図に関して下記に
説明するように、ニューラルネットワーク感度マトリッ
クスを明快に評価する必要無しに、コンピュータを使用
する効率的な方法でシステム感度ベクトルを評価するた
めに、周知の逆方向伝播("Back-Prop")アルゴリズムを
使用することができる。

【０１４７】本発明のシステムをその学習モードで動作
させる場合、図１９及び図２０の学習プロセスは、図２
のブロックｋに示されるように、学習セットデータベー
スにおける各画像Ｉ^*について行われる。各画像Ｉ^*は、
既知の文字列解釈Ｃ^*と連合される。一般的に、非常に
多量（例えば、何万）の画像／解釈対｛Ｉ^*，Ｃ^*｝を使
用し、特別な学習セッションの過程でシステムを学習さ
せる。

【０１４８】図のブロックＢに示されるように、各画像
Ｉ^*は、本発明の解釈プロセス中に行われる方法と概ね
同じ方法で前処理される。また、図２のブロックＣ〜Ｅ
に示されるように、画像セグメント及び画像コンセグメ
ンテーションは、それぞれ本発明の解釈プロセスの過程
で行われる方法と概ね同じ方法で、画像Ｉ^*について作
成される。

【０１４９】その後、図２のブロックＦに示されるよう
に、生成画像コンセグメンテーション及び画像Ｉ^*に付
随する可能文字列解釈についてグラフモデルが作成され
る。学習プロセスのこのステージにおいて、本発明の学
習方法は次の事実を開発する。

【０１５０】第１に、各確率Ｐ（Ｃ^*／Ｉ^*）は分子部分
Ｎ（Ｃ^*／Ｉ^*）と共通分母部分ＤＩを有する。第２に、
対数及び導関数の周知の特性を用いて、グラフ感度ベク
トル（すなわち、ｒ−スコア変数に関するｌｏｇ［Ｐ
（Ｃ^*／Ｉ^*）］の部分導関数）は次の数７により再表示
することができる。

【０１５１】

【数７】

【０１５２】等式の左側に目立って示される、グラフ感
度ベクトルは、下記に説明する図１９及び図２０に示さ
れる手順により容易に数値を求めることができる。

【０１５３】図１９のブロックＡに示されるように、プ
ロセッサは順方向伝播アルゴリズムを実行し、画像／解
釈対｛Ｉ^*，Ｃ^*｝に関する確率Ｐ（Ｃ^*／Ｉ^*）の分子部
分の数値を求め、そして、その分母部分の数値を求め
る。その後、この数値を記憶する。プロセスのこのステ
ップにおいて、順方向アルゴリズムは、画像／解釈対
｛Ｉ^*，Ｃ^*｝について作成されたグラフは、付随確率Ｐ
（Ｃ^*／Ｉ^*）の分子部分及び分母部分を数学的に表示す
るために使用される分析的（すなわち、代数学的）式を
暗黙的に示すという事実を開発する。

【０１５４】図１９のブロックＢにおいて、プロセッサ
は、変数ｒに関する確率Ｐ（Ｃ^*／Ｉ^*）の分子部分の部
分導関数の数値を求めるために、周知のバウム−ウエル
チ(Baum-Welch)アルゴリズムを実行する。ブロックＣに
おいて、プロセッサは順方向アルゴリズムを使用し、確
率Ｐ（Ｃ^*／Ｉ^*）の分母部分の値を計算する。

【０１５５】ブロックＤにおいて、プロセッサは、変数
に関する確率Ｐ（Ｃ^*／Ｉ^*）の分母部分の部分導関数の
数値を求めるために、周知のバウム−ウエルチ(Baum-We
lch)アルゴリズムを実行する。その後、図２０のブロッ
クＥにおいて、前記の数式に従ってグラフ感度ベクトル
の数値を求めるために、プロセッサは、数値が求められ
た分子部分及び分母部分及びその部分導関数を使用す
る。

【０１５６】画像／解釈対｛Ｉ^*，Ｃ^*｝に関するシステ
ム感度ベクトルの数値を効率的に求めるために、図２０
のブロックＦに示されるように、学習プロセスは、数値
の求められたグラフ感度ベクトルの対応成分に等しい各
ニューラルネットワークの出力層勾配ベクトルを設定す
る。

【０１５７】次いで、ブロックＧにおいて、プロセッサ
は逆方向伝播アルゴリズムを使用し、前記の数式に従っ
てシステム感度ベクトルの成分を計算する。所望の結果
を計算するために使用される逆方向伝播アルゴリズムの
プロセスの詳細な説明は、前掲のDenker et al., "Auto
matic Learning, Rule Extraction, and Generalizatio
n"に開示されている。

【０１５８】逆方向伝播アルゴリズムはニューラルネッ
トワーク感度マトリックスを明快に評価するためには使
用されず、むしろ、ニューラルネットワーク感度マトリ
ックスとグラフ感度ベクトルのベクトル・マトリックス
積の数値を求めるために使用される。

【０１５９】その結果は、全体的なシステム感度ベクト
ルの明快な評価である。これは、各ニューラルネットワ
ークの重みベクトルにおける成分の各々を更新する有効
な方向を示唆する。ブロックＨに示されるように、各画
像Ｉ^*を処理した後、プロセッサは、数値の求められた
システム感度ベクトルの個々の成分を使用し、重みベク
トルの個々の成分を更新する。好ましい更新手順を以下
説明する。

【０１６０】更新前、重みベクトルの各ｉ番目の成分は
Ｗ_iとして示され、更新後、各ｉ番目の成分はＷ_i’とし
て示される。各画像Ｉ^*を処理した後、重みベクトルは
下記の数８に従って更新される。

【０１６１】

【数８】

【０１６２】前記数８において、δ_iは“ステップサイ
ズ制御パラメータ”であり、Ｗ_i’は更新された重みベ
クトルを示し、∂ｌｏｇ（Ｃ^*／Ｉ^*）／∂Ｗ_iはＷ_iに関
するｌｏｇ（Ｉ^*／Ｃ^*）の部分導関数である。原則とし
て、重みベクトルの各成分について、多数の異なるステ
ップサイズ制御パラメータδ_iが存在するが、実際的に
は、これらは全て均等に設定することが好ましい。

【０１６３】一般的に、ステップサイズ制御パラメータ
の値は、(i)ニューラルネットワークに対する画素入力
について選択された正規化ファクタ、及び(ii)ニューラ
ルネットワークの中間値（すなわち、ニューラルネット
ワーク内の或る層から次の層までの出力）について選択
された正規化ファクタにより左右され、学習中に再推定
することができる。

【０１６４】要するに、ステップサイズ制御パラメータ
に関する適当な値を選択する場合、２つの主要な関心事
が存在する。この制御パラメータに関する選択値が小さ
すぎる場合、重みベクトルｗのその最適値への収束は非
常に緩慢に進行する。一方、この制御パラメータに関す
る選択値が大き過ぎる場合、学習プロセスは、ｗの最適
値を飛び越してしまう危険性が非常に高い。この重み空
間Ｗの現象は、“発振分岐”と呼ばれる。これはシステ
ム性能の全体的品質を低下させ易く、学習手順を完全に
崩壊させてしまう。

【０１６５】前記の学習プロセスは、学習セット内の各
画像／解釈対｛Ｉ^*，Ｃ^*｝について反復される。学習モ
ードにおけるシステムにより更に一層多数の学習データ
が処理されるにつれて、ニューラルネットワーク重みベ
クトルの個々の成分の値は、本発明の学習プロセスを支
配する目的関数を満たす最適値に向かって収束する。学
習プロセス中に、ビームサーチアルゴリズム又はヴィテ
ルビアルゴリズムを行う必要性は存在しない。

【０１６６】学習プロセスが申し分のない重みベクトル
を生成したら、システムは、学習データベースを更に参
照することなく、その認識及びスコアリングタスクを実
行できる。このことは、学習は“研究室(in the lab)”
で行うことができ、認識及びスコアリングは“現場(in
the field)”で行うことができることを意味する。

【０１６７】現場で得られた結果は、学習データベース
又は学習アルゴリズムを記憶するための設備を有するこ
とを必要としない。或る場合には、現場で得られた結果
が再学習又は増分学習を行うことができることが望まし
いこともある。このような場合には、選択された学習例
を記憶するための設備が必要になることもある。

【０１６８】特に、図１８に示されるような“パーソナ
ル”認識器の場合、システムを再学習させることにより
システムの性能を最大にし、この認識器が供給する具体
例に基づいて、シングルユーザ又は小さなユーザ群の特
異性を適応させることができる。

【０１６９】本発明の方法及びシステムが携帯用手書認
識装置で実現される場合、ユーザにより確認された、単
語、数字列などのビットマップ化画像は、このデバイス
内の不揮発性メモリ構造内に記憶させることが好まし
い。このメモリ構造の機能は、画像／解釈対｛Ｉ^*，
Ｃ^*｝に対応するビットマップ化及びＡＳＣＩＩフォー
マット化情報の両方を記憶することである。デバイスの
使用期間にわたって、学習データセットはこのような収
集情報から構築される。

【０１７０】学習データセットが十分なサイズのもので
ある場合、携帯用デバイスはその“学習モード”で動作
させることができる。各画像／解釈対｛Ｉ^*，Ｃ^*｝が再
処理された後、重みベクトルの個々の成分は、前記の目
的関数が行われるような方法で増分的に調整される。

【０１７１】本発明の多数の種類の追加実施例も容易に
構成させることできる。例えば、画像情報から導出され
る前処理画像の代わりに、システムへの入力は、ペンス
トローク情報から導出される前処理画像又はストローク
情報から導出されるリスト（画像形ではない）であるこ
ともできる。別の例では、入力は音声信号（例えば、会
話）から導出される前処理情報からなることもできる。

【０１７２】同様に、その他の形態の出力も実現でき
る。出力記号は数字だけでなく、アルファベット文字、
音素、単語全体、省略記号又はこれらの集団なども示す
ことができる。高雑音通信チャネルにより伝送される復
号化及びエラー訂正符号化記号のような用途を想像する
ことは容易である。

【０１７３】別の実施例では、ニューラルネットワーク
の複合体により行われる機能は、(1)入力を受信するこ
とができ、(2)一連のパラメータに従い、スコア又はス
コアのベクトルとして解釈されることができる出力を生
成することができ、(3)所定の導関数ベクトルに基づ
き、導関数ベクトルにより指定される方向に出力を変更
する方法にパラメータ群を調整できるデバイスにより実
行することができる。

【０１７４】“アライメントグラフ”により行われる機
能は、常用の動的プログラミング格子又は必要な方法で
一連の情報を処理するデバイスにより実行することがで
きる。この方法は特に、(1)シーケンスの一部である様
々な実体を記載するスコアを受信し、(2)様々な高スコ
アリングシーケンス及び対応する解釈を効率的に識別
し、(3)所定の解釈と一致する全てのシーケンスに関す
る全スコアを効率的に計算し、そして(4)入力スコアに
対するその結果の感度を効率的に計算することからな
る。

【０１７５】また、処理チェーン内のモジュールの個数
は２以上であることができる。各モジュールは、(i)感
度出力（先行モジュールが調整可能なパラメータを有す
る場合，(ii) 感度入力（このモジュール又は先行モジ
ュールが調整パラメータを有する場合），及び(iii)通
常のデータ入力及びデータ出力を有しなければならな
い。

【０１７６】ここに説明した確率は、ゼロ又は１の間の
数字によりプロセッサ及びメモリで示される必要はな
い。例えば、この確率を若干大きな負数とゼロとの間の
範囲内の対数確率として記憶し、そして、確率の級数及
び並列組合せを記載する計算ステップを適合させること
が好ましい。

【０１７７】本発明のシステム及び方法は入力記号表現
を解釈するために使用できる。このような入力記号表現
は各種様々な媒体｛例えば、紙、木、ガラスなどのよう
な電気的に受動的な（図形）記録媒体，感圧式書込面及
びタッチスクリーン式書込及び表示面のような電気的な
能動的な記録媒体，人間の音声及び機械生成音声のよう
な音声記録媒体，及び空気のような媒体（この場合、空
気中を波動するペンストロークは、例えば、ＲＦ位置セ
ンシング、光位置センシング、容量性位置センシングな
どの電気的に能動的な非接触方式により、符号化され
る）など｝に表示され、次いで、本発明のシステム及び
方法を用いて、伝送され、記憶され及び／又は認識され
る。このような用途では、記号のシーケンスを表面上に
図形的に表示する必要はなく、単に表示するだけでよ
い。

【０１７８】本発明のシステム及び方法は常用の音声認
識システムでも使用できる。このような用途は例えば、
入力データセットは、時間領域に示された被記録音声発
音（すなわち、音声信号）である。本発明によれば、被
記録音声発音は、それぞれ非常に短い持続時間の小さな
音声サンプル（例えば、音声セル）に分割される。各音
声セルは前処理され、そして速度セルに分割される。

【０１７９】その後、音声セルは結合され、“音声セグ
メント”を生成する。各セグメントは、音声発音中の少
なくとも一つの音素を示すスペクトル情報を包含する。
次いで、これらの音声セグメントを結合し、本発明の非
環式グラフを用いて示されるコンセグメンテーションを
生成する。その後、このコンセグメンテーション及び全
可能音素ストリング解釈群を用いて、本発明のシステム
及び方法は、最高スコアリング音素ストリング解釈に関
する帰納的確率を計算し始める。この音声認識プロセス
の細部は音声認識分野の当業者に自明である。

【０１８０】

【発明の効果】以上説明したように、本発明によれば、
印刷又は筆記体書込技術により媒体に表示又は記録され
た文字列のような入力記号表現を解釈する優れた方法及
びシステムが提供される。本発明によれば、最良文字列
解釈の選択に、帰納的確率を使用し、各帰納的確率が、
先験的情報と既知例の画素画像と結合することにより帰
納的に導出され、任意の長さの文字列を正確に解釈する
ことができる。

【図面の簡単な説明】

【図１】本発明の一例による文字列解釈システムを実現
するために使用される様々な構成部品を示すシステムブ
ロック図である。

【図２】本発明の文字列解釈システムのブロック図であ
る。

【図３】筆記体書込技術を用いた手書きＺＩＰコードの
前処理画像の図である。

【図４】図３におけるＺＩＰコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。

【図５】図３におけるＺＩＰコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。

【図６】図３におけるＺＩＰコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。

【図７】図３におけるＺＩＰコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。

【図８】図３におけるＺＩＰコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。

【図９】図４〜図８に示されたカットライン間に生成さ
れた画像“セル”（すなわち、副画像）の表図である。

【図１０】図４〜図９に示された隣接画像セルを結合す
ることにより生成された画像“セグメント”の表図であ
る。

【図１１】図１０に示された空間的に連続的な画像セグ
メントの結合組により生成された多数の合法的画像“コ
ンセグメンテーション”のうちの３種類のコンセグメン
テーションを示す表図である。

【図１２】画像セグメント、これから生成された可能画
像コンセグメンテーション、可能文字列解釈及び可能文
字列解釈に割当てられたスコアを図形的に示すために使
用される本発明の新規なデータ構造を図形的に示す模式
図である。

【図１３】１１個の画像セグメントに分析されたＺＩＰ
コード画像を認識するために適合的に構成された本発明
の文字列解釈システムの模式図である。

【図１４】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、下
記の図１５と一体的に組み合わされる。

【図１５】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、前
記の図１４と一体的に組み合わされる。

【図１６】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、下
記の図１７と一体的に組み合わされる。

【図１７】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、前
記の図１６と一体的に組み合わされる。

【図１８】本発明の文字列解釈システムの手持ちタイプ
の概要斜視図である。

【図１９】本発明の文字列解釈システムを学習させる方
法において行われるステップを例証する高レベル流れ図
であり、下記の図２０と一体的に組み合わされる。

【図２０】本発明の文字列解釈システムを学習させる方
法において行われるステップを例証する高レベル流れ図
であり、前記の図１９と一体的に組み合わされる。

【符号の説明】

１本発明の記号シーケンス解釈システム２プロセッサ３プログラム記憶メモリ４データ記憶メモリ５画像取得デバイス７フレームバッファ８大容量記憶メモリ９可視表示装置１０キーボード１１ポインティングデバイス（マウス）１２入力／出力デバイス１３システムインターフェース１４ホストシステム１５システムバス

フロントページの続き (72)発明者ジョンスチュワードデンカーアメリカ合衆国，07737 ニュージャージー，レオナルド，クースマンドライブ６

Claims

【特許請求の範囲】

【請求項１】入力記号表現を分析し、前記入力記号表
現の可能解釈をスコアリングするシステムであり、前記入力記号表現を示す入力データセットを分析し、前
記入力データセットを複数のセグメントに分割するセグ
メント生成手段と、ここで、前記各セグメントは指定可
能な境界を有し、所定の記号セット内の複数の記号のう
ちの何れか一つを示すであろうとして分類可能である，
前記複数のセグメント内の各セグメントを分析し、前記
所定の記号セット内の特定の記号に付随する前記セグメ
ントの各可能分類にスコアを割当てるセグメントスコア
リング手段と，前記入力記号表現に関する複数の可能解
釈及び複数の画像コンセグメンテーションを示す表示手
段、ここで、前記各可能解釈は前記記号の異なるシーケ
ンスからなり、前記各コンセグメンテーションは前記セ
グメントの異なるシーケンスからなる，前記セグメント
に割当てられたスコアに基づき、前記複数のコンセグメ
ンテーションにスコアを割当てるコンセグメンテーショ
ンスコアリング手段と，前記複数のセグメントに割当て
られたスコアに基づき、前記複数の可能解釈から１つ以
上の候補記号解釈を識別する候補解釈識別手段と，前記
複数のセグメントのうちの１つ以上に割当てられたスコ
アに基づき、前記１つ以上の候補解釈にスコアを割当て
る記号シーケンススコアリング手段と，前記１つ以上の
候補解釈に割当てられたスコアを評価する第１のスコア
評価手段と，前記複数の候補解釈に割当てられたスコア
を評価する第２のスコア評価手段と，前記複数の可能解
釈に関する評価スコアを用いて各候補解釈に関する正規
化スコアを生成する正規化スコア生成手段と，からなる
ことを特徴とする入力記号表現の分析及び入力記号表現
の可能解釈のスコアリングシステム。
【請求項２】前記入力データセットは図形的に示され
た記号シーケンスの取得画像に付随する一連の画素から
なり、前記セグメント生成手段は、前記画素群を分析
し、前記一連の画素を複数の画像セグメントに分割し、
これにより、前記各画像セグメントは指定された境界を
有し、そして、所定の文字セット内の前記複数の文字の
うちの１つ以上の何れかの文字を示すであろうとして分
類可能である請求項１のシステム。
【請求項３】前記セグメントスコアリング手段は前記
複数の画像セグメント内の各画像セグメントを分析し、
そして、前記画像セグメントの各可能分類にスコアを割
当て、前記各割当てスコアは前記所定の文字セット内の
特定の文字に付随される請求項２のシステム。
【請求項４】前記表示手段は複数の文字シーケンスと
複数の画像コンセグメンテーションを示し、前記各可能
文字シーケンスは前記文字シーケンスからなり、前記各
コンセグメンテーションは前記画像セグメントシーケン
スからなる請求項３のシステム。
【請求項５】前記コンセグメンテーションスコアリン
グ手段は前記画像セグメントに割当てられたスコアに基
づき、前記複数の画像コンセグメンテーションにスコア
を割当て、前記候補記号シーケンス識別手段は前記画像
セグメントに割当てられたスコアに基づき、１つ以上の
候補文字シーケンスを識別する請求項４のシステム。
【請求項６】前記記号シーケンススコアリング手段は
前記画像セグメントに割当てられたスコアに基づき、前
記１つ以上の候補文字シーケンスにスコアを割当て、前
記第１のスコア評価手段は前記１つ以上の候補文字シー
ケンスに割当てられたスコアを評価する請求項５のシス
テム。
【請求項７】前記第２のスコア評価手段は前記複数の
可能文字シーケンスに割当てられたスコアを評価し、前
記スコア正規化手段は前記複数の可能文字シーケンスに
関する評価スコアを用いて前記各候補文字シーケンスに
割当てられたスコアを正規化する請求項６のシステム。
【請求項８】前記表示手段は、列及び行に配列され、
かつ、有向弧により選択的に連結された２次元ノードア
レーからなるグラフにより表示可能なデータ構造からな
り、前記各ノード列は一つの文字位置により指し示さ
れ、前記各ノード行は前記取得画像の空間構造に対応す
る順序で１つの前記画像セグメントにより指し示され、
前記ノードを通り、かつ、前記有向弧に沿って延びる各
パスは１つの前記画像コンセグメンテーションと１つの
前記可能文字シーケンスを示し、概ね全ての前記画像コ
ンセグメンテーション及び概ね全ての前記可能文字シー
ケンスは前記グラフ内を延びる一連のパスにより示され
る請求項７のシステム。
【請求項９】前記各ノードは一連の認識弧を更に有
し、前記各認識弧は前記文字の一つを示し、前記割当て
スコアの一つに付随される請求項８のシステム。
【請求項１０】前記表示手段は前記複数の可能解釈及
び前記複数の画像コンセグメンテーションを示す請求項
１のシステム。
【請求項１１】前記表示手段は、列及び行に配列さ
れ、かつ、有向弧により選択的に連結された２次元ノー
ドアレーからなるグラフにより表示可能なデータ構造か
らなり、前記各ノード列は一つの記号位置により指し示
され、前記各ノード行は前記入力データセットのシーケ
ンシャル構造に概ね対応する順序で１つの前記セグメン
トにより指し示され、前記ノードを通り、かつ、前記有
向弧に沿って延びる各パスは１つの前記コンセグメンテ
ーションと前記入力記号表現に関する１つの前記可能解
釈を示し、概ね全ての前記コンセグメンテーション及び
概ね全ての前記可能解釈は前記グラフ内を延びる一連の
パスにより示される請求項１０のシステム。
【請求項１２】前記表示手段は、列及び行に配列さ
れ、かつ、有向弧により選択的に連結された２次元ノー
ドアレーからなるグラフにより表示可能なデータ構造か
らなり、前記各ノード列は一つの記号位置により指し示
され、前記各ノード行は前記入力データセットのシーケ
ンシャル構造に概ね対応する順序で１つの前記セグメン
トにより指し示され、前記ノードを通り、かつ、前記有
向弧に沿って延びる各パスは１つの前記コンセグメンテ
ーションと前記入力記号表現に関する１つの前記可能解
釈を示し、全ての前記コンセグメンテーション及び全て
の前記可能解釈は前記グラフ内を延びる一連のパスによ
り示される請求項１のシステム。
【請求項１３】入力記号表現の解釈を生成する方法で
あり、前記入力記号表現は媒体中に表現され、前記解釈
は記号シーケンスであり、各記号は所定の記号セット内
の要素であり、前記方法は、 (a)前記入力記号表現を示す入力データセットを取得す
るステップと，(b)一連のセグメントを生成するために
前記入力データセットを処理するステップと，ここで、
前記セグメントは前記取得入力データセットの少なくと
も部分的な副セットであり、前記所定の記号セット内の
何れか一つの記号を示すものとして分類可能である，
(c)前記入力記号表現に関する一連のコンセグメンテー
ションと一連の可能解釈を示すデータ構造を生成するス
テップと，ここで、前記各コンセグメンテーションは、
前記入力データセットを集合的に示し、前記入力データ
セットのシーケンシャル構造を概ね保存する順序で配列
されている前記セグメント群からなり、前記入力記号表
現に関する前記各可能解釈は可能記号シーケンスからな
り、前記可能記号シーケンス内の各記号は所定の記号セ
ットから選択され、そして前記可能記号シーケンス内の
記号位置を占有し、前記データ構造は、列と行に配列さ
れ、有向弧により選択的に連結された２次元ノードアレ
ーからなるグラフにより図形的に示され、前記各ノード
列は一つの前記記号位置により指し示すことができ、前
記各ノード行は前記取得入力データセットの論理構造に
対応する順序で一つの前記画像セグメントにより指し示
すことができ、前記ノード内を通り、前記有向弧に沿っ
て延びる各パスは一つの前記コンセグメンテーション
と、前記入力記号表現に関する一つの前記可能解釈を示
し、全ての前記コンセグメンテーション及び前記入力記
号表現に関する全ての前記可能解釈は前記グラフ内に延
びる一連のパスにより示される，(d)前記グラフ内の各
ノード行について、前記行内の各ノードにより示される
前記所定の記号セットに関する一連のスコアを生成する
ステップと，ここで、前記一連のスコアの生成は、前記
一連のスコアが生成されるノード行を指し示すセグメン
トの分析を含む，(e)前記グラフ内を通るパスにパスス
コアを暗に又は明快に帰属させるステップと，(f)前記
入力記号表現について一つ以上の可能解釈を選択するた
めに、ステップ(e)において前記グラフ内を通るパスに
帰属されたパススコアを分析するステップとからなるこ
とを特徴とする入力記号表現の解釈を生成する方法。
【請求項１４】前記各ノードは一連の認識弧を更に有
し、前記各認識弧は前記文字の一つを示し、ステップ
(d)において生成された前記スコアの一つに付随される
請求項１３の方法。
【請求項１５】ステップ(d)は前記一連のスコアを生
成するために複数の調整可能パラメータを使用すること
からなる請求項１４の方法。
【請求項１６】前記複数の調整可能パラメータにより
特徴付けられる情報処理手段は、前記各セグメントを分
析するため、及びこのセグメントに関する前記スコア群
を生成するために、ステップ(d)において使用される請
求項１５の方法。
【請求項１７】ステップ(f)は、前記入力記号表現に
関する少なくとも一つの前記可能解釈について、帰納的
確率に対応する数量を計算することからなり、ここで、
前記各数量は分母部分に対する分子部分の比率として計
算され、分子部分は、前記入力記号表現に関する一つの
前記可能解釈を示すグラフ内を通る概ね全てのパスに関
するパススコアの和に対応し、前記各パススコアは一つ
の前記パスに沿った認識弧に付随するスコアの積に対応
し、分母部分は、前記入力記号表現に関する概ね全ての
前記可能解釈を示すグラフ内を通る概ね全てのパスに関
するパススコアの和に対応し、前記各パススコアは一つ
の前記パスに沿った認識弧に付随するスコアの積に対応
する請求項１４の方法。
【請求項１８】ステップ(f)において、 (1) 最高パススコアを有する前記グラフ内を通るパスを
決定し、 (2)副ステップ(1)で決定されたパスにより示される前記
入力記号表現に関する可能解釈を識別し、 (3)副ステップ(2) で識別された前記入力記号表現に関
する前記可能解釈に関する前記数量を計算し、 (4)副ステップ(3)で計算された数量及び副ステップ(2)
で識別された前記入力記号表現に関する前記可能解釈を
示す徴候を出力として供給することからなる請求項１７
の方法。
【請求項１９】ステップ(f)において、更に、 (1) 高い一連のパススコアを有する前記グラフ内を通る
一連のパスを決定し、 (2)副ステップ(1)で決定された前記一連のパスにより示
される前記入力記号表現に関する一連の可能解釈を識別
し、 (3)副ステップ(2) で識別された前記入力記号表現に関
する前記一連の可能解釈に関する一連の前記数量を計算
し、 (4)前記入力記号表現に関する前記可能解釈のうちのど
れが高スコアリングの帰納的確率を有するか決定するた
めに、副ステップ(3)で計算された前記一連の数量を分
析し、そして、 (5)副ステップ(2) で識別された前記入力記号表現に関
する可能解釈及び副ステップ(4)で決定された高スコア
リング帰納的確率を示す徴候を出力として供給すること
からなる請求項１７の方法。
【請求項２０】前記各帰納的確率は分母部分に対する
分子部分の比率として計算され、ステップ(f)は更に、 (1) 高い一連のパススコアを有する前記グラフ内を通る
一連のパスを決定し、 (2)副ステップ(1)で決定された前記一連のパスにより示
される前記入力記号表現に関する一連の可能解釈を識別
し、 (3)副ステップ(2) で識別された前記入力記号表現に関
する前記一連の可能解釈に関する一連の前記数量を計算
し、そして、 (4)副ステップ(2) で識別された前記入力記号表現に関
する一連の可能解釈及び副ステップ(3)で計算された数
量を出力として供給することからなる請求項１７の方
法。
【請求項２１】ステップ(d)において、前記一連の調
整可能パラメータは、分析のための前記情報処理手段に
供給された前記セグメントと、前記情報処理手段から生
成された前記一連のスコアとの間の関係を指定する請求
項１５の方法。
【請求項２２】 (1)前記情報処理手段を用いて多数の
既知記号シーケンスを処理し、そして、 (2)各既知シーケンスについて、前記一連の調整可能パ
ラメータを増分的に調整し、これにより、正しい解釈に
割当てられた確率を平均して増大させ、また、正しくな
い解釈に割当てられた確率を平均して低下させることに
より、前記情報処理手段を学習させることからなる請求
項２１の方法。
【請求項２３】前記情報処理手段はニューラル情報処
理ネットワークからなる請求項２２の方法。
【請求項２４】前記入力記号表現は印刷又は筆記体書
込技術を用いて表示され、記録媒体に図形的に記録され
る請求項１３の方法。
【請求項２５】入力記号表現の解釈を生成するシステ
ムであり、前記入力記号表現は媒体中に表現され、前記
解釈は記号シーケンスであり、各記号は所定の記号セッ
ト内の要素であり、前記システムは、 (a)前記入力記号表現を示す入力データセットを取得す
るデータセット取得手段と，(b)複数のセグメントを生
成するために前記取得データセットを処理するデータ処
理手段と，ここで、前記各セグメントは指定可能な境界
を有し、所定の記号セット内の複数の記号のうちの何れ
か一つの記号を示すであろうとして分類可能である，
(c)一連のコンセグメンテーションを指定するデータを
生成するコンセグメンテーション指定手段と，ここで、
前記各コンセグメンテーションは前記取得入力データを
集合的に示し、前記取得入力データセットのシーケンシ
ャル構造を概ね保存する順序で配列されている一連の前
記セグメントからなり，(d)前記入力記号表現に関する
一連の可能解釈を指定するデータを生成する記号シーケ
ンス解釈指定手段と，ここで、前記入力記号表現に関す
る前記各可能解釈は記号の可能シーケンスからなり、記
号の前記可能シーケンス内の前記各記号は前記所定の記
号セットから選択され、かつ、記号の前記可能シーケン
ス内の記号位置を占有する，(e)前記各コンセグメンテ
ーションと、前記入力記号表現に関する前記各可能解釈
を示す生成データをデータ構造内に記憶するデータ記憶
手段と，前記データ構造は、列と行に配列され、有向弧
により選択的に連結された２次元ノードアレーからなる
グラフにより図形的に示され、前記各ノード列は一つの
前記記号位置により指し示すことができ、前記各ノード
行は前記取得入力データセットのシーケンシャル構造に
対応する順序で一つの前記画像セグメントにより指し示
すことができ、前記ノード内を通り、前記有向弧に沿っ
て延びる各パスは一つの前記一連のコンセグメンテーシ
ョンと、前記入力記号表現に関する一つの前記可能解釈
を示し、前記一連のコンセグメンテーション及び前記入
力記号表現に関する前記一連の可能解釈は前記グラフ内
を通って延びる一連のパスにより示される，(f)前記各
セグメント内のデータを分析し、前記グラフ内のノード
の各行について、前記行内の各ノードにより示される前
記記号セットに関する一連のスコアを生成するセグメン
ト分析手段と，(g)前記グラフ内を通る前記各パスに関
するパススコアを計算するパススコア計算手段と，及び
(h)前記入力記号表現に関する一つ以上の前記可能解釈
を選択するために、計算パススコアを分析するパススコ
ア分析手段とからなることを特徴とする入力記号表現の
解釈生成システム。
【請求項２６】前記各ノードは一連の認識弧を更に有
し、前記各認識弧は前記既知記号の一つを示し、前記計
算スコアの一つに付随される請求項２５のシステム。
【請求項２７】前記パススコア分析手段は、前記入力
記号表現に関する前記各可能解釈の帰納的確率に対応す
る数量を計算する手段を更に有する請求項２６のシステ
ム。
【請求項２８】前記各数量は分母部分に対する分子部
分の比率として計算され、分子部分は、前記入力記号表現に関する一つの前記可能
解釈を示すグラフ内を通る概ね全てのパスに関するパス
スコアの和に対応し、前記各パススコアは一つの前記パ
スに沿った認識弧に付随するスコアの積に対応し、分母部分は、前記入力記号表現に関する概ね全ての前記
可能解釈を示すグラフ内を通る概ね全てのパスに関する
パススコアの和に対応し、前記各パススコアは一つの前
記パスに沿った認識弧に付随するスコアの積に対応する
請求項２７のシステム。
【請求項２９】 (1) 最高パススコアを有する前記グラ
フ内を通るパスを決定する手段と、 (2)最高パススコアを有する前記決定パスにより示され
る前記入力記号表現に関する可能解釈を識別する手段
と，(3)前記入力記号表現に関する前記各可能解釈の前
記数量を計算する手段と，(4)前記計算数量及び前記入
力記号表現に関する前記可能解釈を示す徴候を出力とし
て供給する手段を更に有する請求項２５のシステム。
【請求項３０】前記パススコア分析手段は、 (1) 最高の一連のパススコアを有する前記グラフ内を通
る一連のパスを決定する手段と、 (2)前記決定された一連のパスにより示される前記入力
記号表現に関する一連の可能解釈を識別する手段と、 (3)前記入力記号表現に関する前記一連の識別可能解釈
の一連の前記数量を計算する手段と、 (4)計算された前記一連の数量を分析し、そして、前記
入力記号表現に関する前記可能解釈のうちのどれが前記
最高の一連のパススコアの最高帰納的確率を有するか決
定する手段と、 (5)最高帰納的確率を有する前記入力記号表現に関する
前記可能解釈を示す徴候と、前記決定最高帰納的確率を
出力として供給する手段を更に有する請求項２９のシス
テム。
【請求項３１】前記セグメント分析手段は、分析のた
めの前記情報処理手段に供給された前記セグメントと、
前記情報処理手段から生成された前記一連のスコアとの
間の関係を指定する、一連の前記調整可能パラメータか
らなる請求項２７のシステム。
【請求項３２】複数の学習データセットを用いて前記
システムを学習させるシステム学習手段を更に有し、前
記学習データセットは入力記号表現の取得データセット
と前記入力記号表現に関する正しいと知られる解釈を包
含し、前記システム学習手段は、前記正しいと知られて
いる解釈に関する平均解釈測度が増大し、かつ、正しく
ないと知られている解釈の前記セットに関する平均解釈
測度が低下するように、前記一連の調整可能パラメータ
を増分的に調整するパラメータ調整手段を更に有する請
求項３１のシステム。
【請求項３３】入力記号表現の解釈を生成するシステ
ムであり、前記入力記号表現は媒体中に表現され、前記
解釈は記号シーケンスであり、各記号は所定の記号セッ
ト内の要素であり、前記システムは、 (a)前記入力記号表現の画像を取得する画像取得手段
と，(b)一連の画像セグメントを生成するために前記画
像を処理する画像処理手段と，ここで、前記画像セグメ
ントは前記取得画像の副画像である，(c)一連の画像コ
ンセグメンテーションを指定するデータを生成する画像
コンセグメンテーション指定手段と，ここで、前記各画
像コンセグメンテーションは、前記取得画像を集合的に
示し、前記取得画像の空間構造を概ね保存する順序で配
列されている一連の前記画像セグメントからなり，(d)
前記入力記号表現に関する一連の可能解釈を指定するデ
ータを生成する記号シーケンス解釈指定手段と，ここ
で、前記入力記号表現に関する前記各可能解釈は記号の
可能シーケンスからなり、前記記号シーケンス内の前記
各記号は前記所定の記号セットから選択され、かつ、前
記記号シーケンス内の記号位置を占有する，(e)前記各
画像コンセグメンテーションと、前記入力記号表現に関
する前記各可能解釈を示す生成データをデータ構造内に
記憶するデータ記憶手段と，前記データ構造は、列と行
に配列され、有向弧により選択的に連結された２次元ノ
ードアレーからなる有向非環式グラフにより図形的に示
され、前記各ノード列は一つの前記記号位置により指し
示すことができ、前記各ノード行は前記取得画像の空間
構造に対応する順序で一つの前記画像セグメントにより
指し示すことができ、前記ノード内を通り、前記有向弧
に沿って延びる各パスは一つの前記画像コンセグメンテ
ーションと、前記入力記号表現に関する一つの前記可能
解釈を示し、前記画像コンセグメンテーションの全て及
び前記入力記号表現に関する前記可能解釈の全ては前記
グラフ内を通って延びる一連のパスにより示される，
(f)前記各画像セグメントを分析し、前記グラフ内のノ
ードの各行について、前記行内の各ノードにより示され
る前記所定の記号セットに関する一連のスコアを生成す
る画像セグメント分析手段と，(g)前記グラフ内を通る
前記各パスに関するパススコアを計算するパススコア計
算手段と，(h)前記入力記号表現に関する一つ以上の前
記可能解釈を選択するために、計算パススコアを分析す
るパススコア分析手段とからなることを特徴とする入力
記号表現の解釈生成システム。
【請求項３４】入力記号表現の解釈を生成するシステ
ムであり、前記入力記号表現は媒体中に表現され、前記
解釈は記号シーケンスであり、各記号は所定の記号セッ
ト内の要素であり、前記システムは、 (a)複数の既知の入力記号表現の各々について、入力デ
ータセット及び確認された記号シーケンスを供給する手
段と，(b)前記各入力データセットを分析し、前記入力
データセットを複数のセグメントに分割するセグメント
生成手段と，ここで、前記セグメントは指定可能な境界
を有し、前記所定の記号セット内の複数の記号のうちの
何れか一つを示すものとして分類可能である，(c)一つ
以上の調整可能パラメータにより、及び前記各セグメン
トを分析し、一連のスコアを、前記一つ以上の調整可能
パラメータに依存するように、前記セグメントの各可能
解釈に割当てられる手段により特徴付けられるセグメン
トスコアリング手段と，ここで、前記割当てられた一連
のスコアの各々における各スコアは前記所定の記号セッ
ト内の特定の記号に付随される，(d)複数の可能記号シ
ーケンスと複数の画像コンセグメンテーションを示す表
示手段と，ここで、前記各可能記号シーケンスは前記記
号の異なるシーケンスからなり、前記各コンセグメンテ
ーションは前記セグメントの異なるシーケンスからな
る，(e)前記セグメントに割当てられたスコアに基づ
き、前記複数のコンセグメンテーションにスコアを割当
てるコンセグメンテーションスコアリング手段と，(f)
前記複数のコンセグメンテーションのうちの１つ以上に
割当てられたスコアに基づき、前記確認された記号シー
ケンスの各々にスコアを割当てる記号シーケンススコア
リング手段と，(g)前記確認された記号シーケンスに割
当てられたスコアを評価する第１のスコア評価手段と，
(h)前記複数の可能記号シーケンスに割当てられたスコ
アを評価する第２のスコア評価手段と，(i)前記複数の
可能解釈に関する評価スコアを用いて各確認された記号
シーケンスに関する正規化スコアを生成する正規化スコ
ア生成手段と，(j)前記一つ以上の調整可能パラメータ
に関して、生成正規化スコアの感度を推定する感度推定
手段と，(k)前記各セグメントが正確に分類される平均
確率を増大させ、かつ、前記各セグメントが不正確に分
類される平均確率を低下させるために、前記一つ以上の
調整可能パラメータを調整するパラメータ調整手段とか
らなることを特徴とする入力記号表現の解釈生成システ
ム。