JPH0954814A - 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム - Google Patents

入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム

Info

Publication number
JPH0954814A
JPH0954814A JP7218266A JP21826695A JPH0954814A JP H0954814 A JPH0954814 A JP H0954814A JP 7218266 A JP7218266 A JP 7218266A JP 21826695 A JP21826695 A JP 21826695A JP H0954814 A JPH0954814 A JP H0954814A
Authority
JP
Japan
Prior art keywords
input
image
score
interpretation
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7218266A
Other languages
English (en)
Inventor
John Bergs Christopher
ジョン バーグス クリストファー
Stewart Denker John
スチュワード デンカー ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Priority to JP7218266A priority Critical patent/JPH0954814A/ja
Publication of JPH0954814A publication Critical patent/JPH0954814A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 入力記号表現の解釈の生成方法及びシステム
を提供する。 【解決手段】 システムは入力記号表現を示す取得入力
データセットを処理し、一連のセグメントを生成し、こ
のセグメントを用いて一連のコンセグメンテーションを
指定する。入力記号表現に関する各コンセグメンテーシ
ョンと可能解釈はデータ構造内に示される。データ構造
は、行と列に配列され有向弧にょり選択的に連結された
ノードの二次元アレーからなるグラフにより図示され
る。ノードを通り有向弧に沿って延びる各パスは入力記
号表現に関する一つのコンセグメンテーションと一つの
可能解釈を示す。グラフ内のノードの各行について、最
適に学習されたニューラル情報処理ネットワークの複合
体を用いて既知記号セットに関する一連のスコアが生成
される。記号シーケンス解釈に関する帰納的確率を計算
する。取得入力データセットの分析により各帰納的確率
を導出することにより高信頼性確率が入力記号表現の競
合解釈について生成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は新規な帰納的確率測
度及び最適に学習されたニューラル情報処理ネットワー
クを用いる、手書き文字のような入力記号表現を自動的
に解釈する方法及びシステムに関する。
【0002】
【従来の技術】現在、様々な媒体に記録された適当に結
合されたアルファベット文字の列を正確に解釈(すなわ
ち、認識)できる装置の開発が市場で強く求められてい
る。例えば、米国の郵政省は、郵便の蓄積及び全国への
配達経路指定操作中に、郵便物に手書きされたZIPコ
ード(すなわち、郵便番号)を正確に認識するために、
このような装置の一刻も早い開発を強く望んでいる。
【0003】現在、多数の文字認識システムが様々な環
境下で使用するために開発されている。このような様々
なシステム及び関連技術は下記の技術文献に開示されて
いる。 (1) Y. Le Cun, B. Boser, J.S. Denker, D. Henderso
n, R.E. Howard, W. Hubbard, and L.D. Jackel, "Hand
writtten Digit Recognition with a Back-Propagation
Network", pp. 396-404 in Advances in Neural Infor
mation Processing2, David Touretzky, ed., Morgan K
aufman (1990),(2) J.S. Bridle, "Probabilistic Inte
rpretation of Feedforward Classification Network O
utputs, with Relationships to Satistical Pattern R
ecognition", in Neuro-Computing: Algorithms, Archi
tectures and apications, F. Fogelman and J. Heraul
t, ed., Springer-Verlag (1989),(3) J.S. Bridle, "T
raining Stochastic Model Recognition Algorithms as
Networks Can Lead To Maximum Mutual Information E
stimation of Parameters",in Advances in Neural Inf
ormation Processing 2, David Touretzky, ed., Morga
n Kaufman (1990),(4) O. Matan, J. Bromley, C.J.C.
Burges, J.S. Denker, L.D. Jackel, Y. LeCun, E.P.D.
Pednault, W.D. Satterfield, C.E. Stenard, and T.
J. Thompson, "Reading Handwritten Digit: A ZIP cod
e Recognition System", IEEE Computer 25(7)59-63 (J
uly 1992),(5) C.J.C. Burges, O. Matan, Y. Le Cun,
J.S. Denker, L.D. Jackel, C.E. Stenard, C.R. Nohl,
J.I. Ben, "Shortest Path Segmentation: A Method f
or Training a Neural Network to Recognize Characte
r Strings", IJCNN Conference proceedings 3,pp.165-
172 (June 1992),(6) C.J.C. Burges, O. Matan, J. Br
omley, C.E. Stenard, "Rapid Segmentation and Class
ification of Handwritten Postal Delivery Addresses
using Neural Network Technology", Interim Report,
Task Order Number 104230-90-C-2456, USPS Referenc
e Library, Washington D.C. (August 1991),(7) Edwin
P.D. Pednault, "A Hidden Markov Model For Resolvi
ng Segmentation and Interpretation Ambiguities in
Unconstrained Handwriting Recognition", Ball Labs
Technical Memorandum 11352-090929-01TM, (1992),
及び(8) Ofer Matan, C.J.C. Burges, Y. Le Cun, J.S.
Denker, "Multi-Digit Recognition Using a Space Di
splacement Neural Network", in Neural Information
Processing System 4, J.M. Moody, S.J. Hanson and
R.P. Lippman, eds.,Morgan Kaufman (1990)。
【0004】前記の文献に記載された従来のシステムは
互いに区別できるが、これらのシステムが共通に共有す
る構造及び機能特徴により最も特徴付けられる。
【0005】特に、従来技術の各システムは、システム
により解釈されるべき、場合により接続されている文字
列の少なくとも一つの画像Iを取得する。一般的に、所
定のアルファベットの場合、システムが選択しなければ
ならない“最良”解釈を含む可能解釈の数は、アルファ
ベット内の文字及び適用可能な形態的制約を用いて一緒
に数珠繋ぎにすることができる可能文字列の数に等し
い。ZIPコード(郵便番号)認識用途では、各許容可
能解釈は、ZIPコードの長さにより制約される。すな
わち、ZIPコードは5又は9桁でなければならない。
【0006】従来技術によれば、下線、空間ノイズなど
を除去するために、文字列の取得画像は一般的に、前処
理される。次いで、この前処理画像Iは、管理可能なサ
イズの副画像へ“カット”又は分割される。各隣接カッ
トラインの組の間の副画像は画像“セル”と呼ばれる。
或る場合には、2つのセル間の境界は、2つの文字間に
明確に含まれる“確定カット”であると決定される。一
方、他の場合には、カットは不明確と見做され、カット
が2つの文字間に含まれるか否かの決定は、更なる処理
が行われるまで、延期される。
【0007】次いで、画像“セグメント”を生成するた
めに、隣接画像セルは結合される。その後、前処理画像
の殆ど全ての画素を包含する許容可能な画像“コンセグ
メンテーション”を生成するために、画像セグメントは
左から右へ、一緒に数珠繋ぎにされる。特に、許可可能
な画像“コンセグメンテーション”のモデルを構成する
ために、非環式(鎖状)有向グラフが使用される。一般
的に、このモデルは、各画像セグメントに有向非環式グ
ラフ内のノードを付随させることにより構成される。
【0008】次いで、グラフ内のノードは有向弧と接続
される。一般的に、ノードが示す画像セグメントが許容
可能な画像コンセグメンテーション内で合法的に隣接し
ている場合にのみ、グラフ内の2つのノードは接続され
る。
【0009】グラフが完全に構成されると、グラフ内を
通る各パスは前処理画像の画像コンセグメンテーション
に対応し、また、全ての可能画像コンセグメンテーショ
ンはグラフ内を通る特定のパスに対応する。グラフが構
成された後、再帰的剪定(枝刈り)技法を使用し、グラ
フから、前処理画像を通る明確なカットラインに出会う
画像セグメントに対応するノードを除去する。
【0010】グラフが剪定された後、剪定グラフ内に残
っているノードに付随する各画像セグメントは、分類及
びスコアリングのために、ニューラルネットワーク認識
器に送られる。このような分類及びスコアリングに基づ
き、剪定グラフ内の各ノードは、付随画像セグメントに
割当てられた認識器スコアから導出される“スコア”が
割当てられる。
【0011】一般的に、各認識器スコアは、認識器スコ
アを正規化することからなる計算手順により、確率に変
換される。その後、パススコア(すなわち、結合確率)
は剪定グラフを通る各パスについて計算される。この計
算は、例えば、パスに沿ってノードに割当てられた“ス
コア”を単に乗算することにより行われる。この多文字
認識(MCR)方式により、剪定グラフを通る最高スコ
アリングパスは、取得画像に関する“最良”画像コンセ
グメンテーション及び文字列解釈に対応する。
【0012】これらの技術に関する詳細な説明は、19
91年12月31日に出願された米国特許出願第07/
816414号明細書及び同第07/816415号明
細書に開示されている。
【0013】従来の方法は市販及び実験用文字認識シス
テムの設計には有用であるが、このようなシステムの性
能は、特に、要求度の高いリアルタイム用途では理想的
なものではない。特に、従来のMCRシステムは一般的
に、所定の解釈をサポートする一つのコンセグメンテー
ションだけを識別することにより動作する。この方法
は、唯一の“最良”コンセグメンテーションが存在する
という概念を前提にしている。
【0014】このような従来の方法では、この一つの
“最良”コンセグメンテーションのスコアは、認識プロ
セス中に考究される唯一のスコアである。従って、従来
のMCRシステムは、正しい画像コンセグメンテーショ
ンが既知であると不正確に仮定することと同等である方
法を使用する。この仮定に依拠して、容認コード又はア
ルファベットにおける特定の文字に関する確率を計算す
るために、個々の文字スコアが正規化される。
【0015】これは、セグメンテーションアルゴリズム
が画像の特定セグメントについて行われた方法に関する
有用な情報を回復不能に廃棄してしまう。このような仮
定に基づく従来のMCRシステムは、しばしば、“最尤
シーケンス推定”(MLSE)マシーンと呼ばれる。
【0016】画像の解釈の選択に加えて、従来の幾つか
のMCRシステムは、しばしば、選択された解釈が正し
い確率の何らかの表示を与えることを意味するスコアを
提供する。多くの用途では、MCRシステムのこの結果
を他の情報源と結合することを容易にするため、正確な
確率として解釈できるスコアを有することが望ましい。
しかし、従来のMCRシステムは“最良”解釈の選択を
強調する傾向があったが、正確なスコアリングは強調し
ていない。従って、スコアはしばしば数桁程度の相当大
きな組織的エラーを包含する。
【0017】従って、様々な媒体で表示される記号シー
ケンスを解釈するための優れた方法及びシステムの開発
が強く望まれている。
【0018】
【発明が解決しようとする課題】従って、本発明の一般
的目的は、例えば、印刷又は筆記体書込技術により媒体
に表示又は記録された文字列のような入力記号表現を解
釈する優れた方法及びシステムを提供することである。
【0019】本発明の別の目的は、最良文字列解釈の選
択に、帰納的確率を使用する自動化文字列解釈の方法及
びシステムを提供することである。
【0020】本発明の別の目的は、各帰納的確率が、先
験的情報と既知例の画素画像と結合することにより帰納
的に導出される、自動化文字列解釈の方法及びシステム
を提供することである。
【0021】本発明の別の目的は、任意の長さの文字列
を解釈することができ、しかも、自動文章解釈システム
などと容易に併用することができる、自動文字列解釈の
方法及びシステムを提供することである。
【0022】本発明の別の目的は、正しい文字列解釈の
スコアを最大にするために最適に学習されたニューラル
計算ネットワークの複合体により行われる単一のアダプ
ティブ学習プロセスに、画像コンセグメンテーション及
び文字列解釈に結合させる、多文字認識の方法を提供す
ることである。
【0023】本発明の別の目的は、特別に変更された非
環式有向グラフに基づく新規なデータ構造を使用し、グ
ラフ内を通る各パスは画像コンセグメンテーション及び
文字列解釈の双方を示すシステムを提供することであ
る。
【0024】本発明の別の目的は、画像の被選択可能解
釈に、スコア(特に、この被選択解釈の確率の正確な推
定値として解釈できるスコア)を割当てることである。
【0025】本発明の別の目的は、特定の文字列解釈の
各々に割当てられた帰納的確率が比率として定義され、
この比率の分子部分は、同じ文字列解釈を示すグラフ内
を通る全てのパスに沿ってパススコアを加算することに
より計算され、比率の分母部分は、同じ文字数の可能文
字列解釈を全て示すグラフ内を通る全てのパスに沿って
パススコアを加算することにより計算されるシステムを
提供することである。
【0026】本発明の別の目的は、携帯型デバイスとし
て実現させることができる、多文字手書認識システムを
提供することである。
【0027】本発明の別の目的は、文字列解釈の方法を
提供することであり、該方法は、どの文字列解釈が最良
パススコアを有するか識別するためにヴィテルビ(Viter
bi)アルゴリズムを使用し、次いで、ヴィテルビアルゴ
リズムにより識別された文字列解釈を示す全パススコア
の正確な和を計算するために順方向アルゴリズムを使用
し、そして、全ての可能文字列解釈を示すグラフ内を通
る全てのパススコアを加算することにより、前記の正確
に計算された和に関する正規化定数を計算するために順
方向アルゴリズムを使用することからなる。
【0028】本発明の別の目的は、文字列解釈の方法を
提供することであり、該方法は、最良のパススコアセッ
トを有する多数の競合文字列解釈を識別するためにビー
ムサーチアルゴリズムを使用し、ヴィテルビアルゴリズ
ムにより識別された競合文字列解釈を示す全パススコア
の正確な和を、各文字列解釈について計算するために順
方向アルゴリズムを使用し、そして、その後、全ての可
能文字列解釈を示すグラフ内を通る全てのパススコアを
加算することにより、各競合文字列解釈について、単一
の正規化定数を計算するために順方向アルゴリズムを使
用することからなる。
【0029】本発明の別の目的は、1つ以上の学習セッ
ション中にニューラルネットワークのパラメータを最適
に調整することによりシステムを学習させるために、グ
ラフ及びニューラル情報処理ネットワークの複合体の両
方を使用することからなる、操作の学習モードを有する
入力記号表現解釈システムを提供することである。
【0030】本発明の別の目的は、正しいと知られてい
る文字列解釈の帰納的確率が増大し、正しくないと知ら
れている解釈の帰納的確率が低下する方向に、ニューラ
ルネットワーク内の各調整可能パラメータを調整するた
めに、ニューラルネットワーク学習中に感度分析が使用
されるシステムを提供することである。
【0031】本発明の別の目的は、ニューラルネットワ
ークの各調整可能なパラメータに対して為された増分変
化に応答するシステムの全体的変化により生成されたこ
れらのスコアを高感度に計算するために、操作の学習モ
ード中に、バウム−ウエルチ(Baum-Welch)アルゴリズム
を使用することからなる、入力記号表現解釈システムを
提供することである。
【0032】
【課題を解決するための手段】前記課題を解決するため
に、本発明は、印刷又は筆記体書込技術を用いて、媒体
に表現された入力記号表現の解釈を生成する方法及びシ
ステムを提供する。
【0033】一般的に、本発明のシステムは入力記号表
現を示す入力データセットを取得する。取得された入力
データセットは一連のセグメントに分割される。次い
で、この一連のセグメントは、一連のセグメンテーショ
ンを指定するために使用される。その後、本発明のシス
テムは、入力記号表現の各コンセグメンテーション及び
各可能解釈を暗黙的に示すために、新規なデータ構造を
使用する。
【0034】データ構造は、行と列に配列され、有向弧
により選択的に連結されたノードの2次元アレーからな
る有向非環式(鎖状)グラフとして示すことができる。
ノード内を通り、有向弧に沿って延びる各パスは、入力
記号表現の一つのコンセグメンテーションと一つの可能
解釈を示す。入力記号表現の全てのコンセグメンテーシ
ョンと全ての可能解釈は、グラフ内を通して延びる一連
のパスにより暗に示される。
【0035】グラフ内の各ノード行の場合、例えば、最
適に学習されたニューラル情報処理ネットワークを用い
て、既知の記号セットについて一連のスコアが生成され
る。グラフに関連して、これらのスコアに、グラフ内を
通る各パスに関するパススコアを暗黙的に割当てる。こ
れらのパススコアを用いて、本発明のシステムは最良の
記号シーケンス解釈を識別し、これらに関する帰納的確
率を計算する。
【0036】殆ど全ての取得入力データセットを分析し
て各帰納的確率を導出することにより、各記号シーケン
ス解釈に関する高信頼性確率を生成する。本発明の原理
は、任意の長さの走り書き的に書き込まれた文字列など
のような殆ど全ての記号表現シーケンスについて実施で
きる。本発明のシステムは、自動文章解釈システムと共
に使用するのにも容易に適合させることができる。
【0037】本発明のシステムは、グラフ内を通る最高
スコアリングパスを有する文字列解釈を決定する。この
解釈が信頼できるか否か決定するために、本発明のシス
テムは、出力として、この文字列解釈の帰納的確率も生
成する。この確率は分母部分に対する分子部分の比率と
して計算される。分子部分は、所定の文字列解釈を示す
グラフ内を通る全てのパスのパススコアの和に等しい。
【0038】分母部分は、全ての可能文字列解釈を示す
グラフ内を通る全てのパスのパススコアの和に等しい。
確率が所定の閾値未満である場合、ユーザは、この解釈
は信頼できることを保証できず、その結果、ユーザは、
更なる動作の前に、他のステップに取りかからなければ
ならないことを告知される。
【0039】本発明の別の実施例では、本発明のシステ
ムは、最高の一連のパススコアを有するグラフ内を通る
一連のパスを最初に発見する。この一連のパス内の各パ
スについて、本発明のシステムは、対応する文字列解釈
を識別し、そして、この解釈(同じ寄与を有する他のパ
スからの寄与を含む)の帰納的確率の数値を求める。本
発明のシステムは、発見された一連のパスにより示され
る可能文字列解釈群を識別する。
【0040】次いで、可能文字列解釈群の帰納的確率を
計算する。どちらの可能文字列解釈が最大帰納的確率を
有するか決定するために、本発明のシステムは、計算さ
れた帰納的確率群を分析する。この分析に基づき、本発
明のシステムは、出力として、(i)高帰納的確率を有す
る一つ以上の文字列解釈及び(ii)各文字列解釈の帰納的
確率の正確な推定値を生成する。
【0041】各競合文字列解釈に関する帰納的確率は、
分母部分に対する分子部分の比率として計算される。分
子部分は、競合文字列解釈を示すグラフ内を通る全ての
パスに関するパススコアの和に等しい。分母部分は、全
ての可能文字列解釈を示すグラフ内を通る全てのパスに
関するパススコアの和に等しい。
【0042】本発明の記号シーケンス解釈システムを最
適に学習させる新規な方法及びシステムも提供される。
これは、動作の独特な学習モードをシステムに付与する
ことにより行われる。
【0043】この動作の学習モードでは、本発明のシス
テムは、既知の入力記号表現を示す多数の学習画像を処
理する。各被処理学習画像について、本発明のシステム
は、各ニューラルネットワークの機能を特徴付ける調整
可能なパラメータ群を増分的に調整する。各増分調整の
方向は、正しいと知られている文字列解釈に関する平均
確率が増大し、一方、正しくないと知られている記号シ
ーケンス解釈に関する平均確率が低下するような方向で
ある。
【0044】本発明のシステム及び方法は、例えば、当
業者に周知な、紙、プラスチック又は織物のような電気
的に受動的な媒体又は感圧式書込面及び“タッチスクリ
ーン”書込/表示面のような電気的に能動的な媒体への
図形記録を含めて、実質的に任意の方法で表示された文
字列を解釈するために使用される。
【0045】
【発明の実施の形態】図1は多数の統合システム構成部
品からなる記号シーケンス解釈(すなわち、“認識”)
システム1のブロック図である。特に、このシステムは
プログラムメモリ記憶装置3に記憶されたプログラムに
より制御される1個以上の処理ユニット2(例えば、マ
イクロプロセッサ)を有する。プログラムメモリ記憶装
置3はオペレーティングシステムプログラム、アプリケ
ーションプログラム及び本発明の様々な画像処理ルーチ
ンなども記憶する。本発明のデータ構造に付随するデー
タを記憶するためのデータ記憶メモリ4も有する。
【0046】一般的に、このシステムは、記号の表示シ
ーケンスを示す入力データセットを取得するための入力
データセット取得デバイス5を有する。このデバイス
は、図2に示されるような、記録媒体6に記録されるア
ルファベット文字の可能な接続列の濃度階調又は着色画
像を取得するための画像検出器として実現される。
【0047】文字列は、紙、プラスチック、木、繊維な
どのような電気的に受動的な記録面又は、感圧デジタル
化表面又は当業者に周知な“タッチスクリーン”LCD
書込及び表示表面のような電気的に能動的な記録面に記
録することができる。文字列は、常用の印刷又は筆記体
(すなわち、手書き)書込技術を用いて表現することが
できる。
【0048】本発明のシステムは、解釈すべき文字列の
取得画像をバッファするための、ランダムアクセスデー
タ記憶メモリ(例えば、VRAM)7を有する。大容量
データ記憶メモリ8がこれら画像の長期間記憶用に設け
られている。
【0049】本発明のシステムは、可視ディスプレイス
クリーン又は画面(LCD)を有する可視ディスプレイ
ユニット9,キーボード又はその他のデータ入力デバイ
ス10,ディスプレイ画面上に可視的に表示された図形
アイコンを指摘、ドラッギング及び選択するするための
デバイス11,入力/出力デバイス12,及びシステム
1により供給された情報を使用する1個以上の外部ホス
トシステム14をインターフェースするためのシステム
インターフェース13も包含する。
【0050】システム構成部品2,3,4,7及び8は
手元の特定用途に適したコンパクトなハウジング内に収
納されている。その他の構成部品はそれぞれのハウジン
グ内に収納されている。これら各構成部品は、1本以上
のシステムバス15を介してプロセッサ2に付随して動
作することができる。ZIPコード(いわゆる、郵便番
号)認識用途では、本発明のシステムは、常用の郵便蓄
積及び経路指定装置14により適当にインターフェース
される。
【0051】図2に示されるように、文字列解釈システ
ム1は、図形的に記録された文字の列の取得画像Iに包
含される画素情報の分析に基づき、図形的に記録された
“文字の列”(Ciにより示される)の解釈に到達する
ために、多数の機能を果たす。これらの画像処理ステー
ジは、他の関連図面を参照しながら、下記で順に説明す
る。
【0052】一般的に、本発明のシステム及び方法は任
意の長さの機械印刷又は手書文字列に適用できる。従っ
て、本発明は手書認識用途で有用である。この場合、手
書きする筆者は、様々な種類の書込画面に1つ以上の文
字を書き込むことができ、あるいは、自動認識用に一つ
以上の文章を書き込むことができる。
【0053】図14及び図17に示された実施例は手書
きZIPコードの解釈(すなわち、分類)の問題を検討
するものであり、この場合、文字列長さは5又は9桁で
ある。しかし、本発明の方法及びシステムは、当業者に
公知の自動文章認識システムの長い文脈のような、任意
の長さの文字列(すなわち、単語群)を解釈するために
も使用できる。
【0054】図2において、ブロックA〜Iは、本発明
の文字列解釈処理中に行われる様々なステージを模式的
に示す。図2におけるブロックAに示されるように、処
理の第1ステージは、文字列の画像Iを取得することで
ある。一般的に、システム1により取得される各画像I
は画素のマトリックスからなる。
【0055】画像マトリックス中の各画素は画像内の画
素位置における画像の強度を示す濃度階調輝度を有す
る。更に、画素の飽和を示すこともできる。各取得画像
はフレームバッファ7に記憶される。ブロックBにより
示されるように、処理の第2ステージは、記憶画像Iの
“前処理”である。プロセッサ2により行われる適当な
画像前処理操作は、“所望領域”の位置決め,下線の除
去,画像のデスランティング(deslanting)及びデスキュ
ーイング(deskewing),小さい点(すなわち、微小な接
続成分)と侵入ストロークの除去,及び標準サイズへの
画像の正規化(例えば、画像のアスペクト比が変更され
ないように選択された幅と共に、20画素高さに正規化
する)などである。
【0056】画像正規化は、前処理画像I’が、更なる
画像正規化を必要とすることなく、システムのその後の
ステージに送ることができるようにするために行われ
る。正規化処理中に行われる再サンプリングは、原画像
が白黒であったとしても、効果的な濃度階調画像を生じ
る。その後、正規化画像の上部及び下部輪郭を使用し、
水平及び垂直画像両方向における文字のロングテールを
クリップする。前記の画像前処理操作に関する更に詳細
な説明は、1991年12月31日に出願された米国特
許出願第07/816414号明細書に開示されてい
る。
【0057】ブロックCで示される認識処理の次のステ
ージは、前処理画像I’を“セル”と呼ばれる副画像へ
切り出すことである。画像セルを生成する目的は、この
画像セルを結合し、ブロックDで示される画像セグメン
ト生成ステージ中に画像“セグメント”Siを生成でき
るようにするためである。
【0058】本発明によれば、画像セルは先ず、大きな
“結合成分”の存在を検出するために、前処理画像に対
して“結合成分分析”を行うことにより生成される。そ
の後、これらの大きな結合成分含有副画像に対して“ス
マート”波動カットライン作図処理を行う。結合成分分
析及びスマート波動カットライン作図副処理の両方と
も、付属RAM4を用いてプログラム化プロセッサ2に
より行われる。
【0059】更に詳細には、結合成分分析は、一緒に結
合された文字成分(すなわち、画素群)の存在を決定す
るために、前処理画像からなる画素の強度を分析する。
結合成分分析は、垂直及び水平画像方向に沿って、所定
の範囲内の強度値を有し、一緒に結合される大きな文字
成分を生成するために現れ、1個以上の文字に付随する
と思われる、画素クラスタをサーチする。結合文字成分
は例えば、図4〜図8に示された2番目及び3番目のZ
IPコード画像などである。
【0060】大きな結合成分を包含する副画像内に2個
以上の文字が包含されることがある。1個以下の文字が
画像セルの画素により示されるようにするため、カット
ラインをこのような副画像を通して引くことが重要であ
る。これは、被識別大結合成分中に“波動”カットライ
ンを生成することにより行われる。
【0061】一般的に、このカットライン生成処理によ
り、単に文字を示す画素群中にカットラインを引くだけ
で、大結合成分により示される文字を2個以上の画像セ
ルに細分ことができる。隣接画像セルを結合し画像セグ
メントを構成する方法の数は、この認識処理ステージ中
に生成される画像セルの数と共に急速に増大する。
【0062】本発明のシステムは、一連の良好なカット
ラインを識別し、冗長なラインなどを除去する複雑なヒ
ューリスティック(発見的方法)を使用することによ
り、前処理画像を微小画像セルにカットすることを避け
る。この副処理の操作は、図4〜図8に示された前処理
画像に対して引かれ、かつ、選択的に除去されたカット
ラインにより例証される。
【0063】この副処理の最後に、残りのカットライン
の各隣接対間の画素は画像“セル”を画成する。画像セ
ル生成処理中に生成された画像セルは図9の表に示され
る。この表に示されるように、各画像セルはセル番号
(例えば、0,1,2,3,4等)により識別される。
認識処理のこのステージ中のカットライン自動生成に関
する更に詳細な説明は、米国特許出願第07/8164
14号明細書に開示されている。
【0064】図2のブロックDに示されるように、処理
の次のステージは、隣接する(すなわち、連続的な)画
像セルを左から右の順序で結合し、図10の表に示され
るような一連の画像“セグメント”を生成する。この表
に示されるように、各画像セグメントはその構成画像セ
ルに割当てられた番号(例えば、0,01,1,2,2
3等)を結合することにより識別される。理想的には、
各画像セグメントは一つだけの文字を示す画素を包含す
る。しかし、いつもこのように上手くいくわけではな
い。
【0065】画像セグメントの最終セットが正しい画像
セグメントを包含することが重要である。複雑な発見的
方法を使用し、画像セルの個数及びどの画像セルを結合
して画像セグメントを構成すべきか決定する。一般的
に、発見的方法は、“明確な限界のある”カット、“相
互接続成分”カット、“内部接続成分”カットなどの用
語で表現される。これらの発見的方法のパラメータ及び
調整ファクタは経験的に決定される。
【0066】各画像セグメントは一連の画像画素からな
る。この画像画素は、システムに包含される割当てニュ
ーラル情報処理ネットワークにより分析される。下記で
詳細に説明するように、各ニューラルネットワークの機
能は、割当てられた各画像セグメントの一連の画素を分
析すること、及び、画素セットが実際に示されるか又は
可能性として分類される可能な数字文字(すなわち、記
号)の各々に関するスコアを出力として生成することで
ある。
【0067】ブロックEで示される処理の次のステージ
は、一連の許容しうる(すなわち、合法な)画像“コン
セグメンテーション”を生成するために、連続的画像
“セグメント”を左から右へ一緒に数珠繋ぎにすること
である。このような各画像コンセグメンテーションは、
前処理画像I’内の全ての画素を説明しなければならな
い。
【0068】できるだけ少数のコンセグメンテーション
を検討することが望ましい。これでも確実に、正しいコ
ンセグメンテーションが生成画像セルから構成された一
連の全画像コンセグメンテーション中に包含される。図
11の表において、5文字のZIPコード例に関する合
法画像コンセグメンテーションが3例示されている。ブ
ロックEで示されるように、コンセグメンテーションは
図12の“有向非環式割当グラフ”により生成される。
【0069】このグラフの構造は、これら画像コンセグ
メンテーションの各々が5個の画像セグメントからなる
ことを保証する。入力画像Iの空間構造の実体を獲得す
るために、画像セグメントを一緒に数珠繋ぎにすること
ができる方法を支配する規則が存在する。例えば、或る
セグメントの右端を次の画像セグメントの左端に接触し
なければならない。(すなわち、一束の画素をスキップ
する、及び/又は、誤った空間順序で画素を結合するこ
とは許されない。)
【0070】しかし、所望により、これら制約の幾つか
は、適当な条件下で緩和させることができる。連続的な
画像セグメントSiを一緒に数珠繋ぎにすることに関す
る更に詳細な説明は、米国特許出願第07/81641
5号明細書に開示されている。所望により、被選択画像
コンセグメンテーションをブロックFで明快に表示する
ことができる。
【0071】本発明の有向非環式(鎖状)グラフは、前
処理画像I’の可能な画像コンセグメンテーション群
{S}と、アルファベット文字により可能にされるか又
は被記録文字列が表示された言語又はコードのシンタッ
クスにより制約される文字列解釈(すなわち、分類)群
{C}の両方を同時にモデル化する新規な手段も提供す
る。
【0072】図12に関連して詳細に説明されるよう
に、“有向非環式グラフ”として表現できるこのデータ
構造は、画像コンセグメンテーション及び文字列解釈問
題の両方を“グラフ内の最適パス”問題として統一的な
方法で公式化するために、本発明のシステムにより使用
される。直感的に、この問題公式化は形状的アピールを
有する。
【0073】アライメントグラフ、このグラフを実現す
るデータ構造及びこのグラフを使用する方法について以
下詳細に説明する。その後、このグラフを使用する方法
を、図2のブロックBで示される画像セグメント分析ス
テージ、ブロックHで示されるパススコア及び確率計算
ステージ及びブロックIで示される文字列解釈ステージ
において詳細に説明する。
【0074】図12に示されるように、本発明のグラフ
はノードの二次元アレーからなる。このグラフは高レベ
ルの記述において、格子又はトレリスダイアグラムと呼
ばれる従来のグラフに類似する。本発明のアライメント
グラフは、多数の重要なモデル化機能を行うデータ構造
により実現される。このデータ構造はプログラム業界で
周知の方法により、プログラム化プロセッサ2により作
成、変更及び管理される。
【0075】アライメントグラフにおける各ノードは個
別的なデータ構造として実現される。これは“主データ
構造”の副構造である。各ノードに関するデータ構造は
多数の“ローカル”情報欄を有する。この情報欄は次の
ような情報事項を記憶することができ、かつ、特別の標
識が付されている。ユニークなノード識別子(すなわ
ち、ノードの列/行アドレスを識別するコード),付随
画像セグメントの画素を示すことができる可能数字文字
の各々に関する算定スコア,付随画像セグメントの画素
を示すことができる可能数字文字の各々に関する算定
“非正規化”スコア,先祖ノードのノード識別子,及び
子孫ノードのノード識別子。
【0076】この方法の各ステージで生成された情報を
記憶するために、主データ構造は多数の“グローバル”
情報欄を有する。この情報欄は次のような情報事項を記
憶することができ、かつ、特別の標識が付されている。
どの特定の画像セグメントがアライメントグラフ内の各
特定行のノードにより示されるか識別する一連のコー
ド,各画像セグメントがメモリ内に記憶される場所を識
別する一連のアドレス,及び被選択パスと、同じ文字列
解釈を示すアライメントグラフ中の一連のパスに沿った
スコアの和。
【0077】アライメントグラフ内の列の数は、可能文
字列解釈内の文字の桁数(例えば、図3のZIPコード
では5桁)に等しい。また、アライメントグラフ内の行
の数は、本発明の方法の画像セグメント生成ステージ中
に構築される画像セグメントの数に等しい。例えば、ア
ライメントグラフのサイズは一般的に、解釈(すなわ
ち、分析及び分類)のために取得される各画像Iに関す
る行サイズを変える。
【0078】従って、各取得画像Iの場合、プログラム
化プロセッサ2は型通りに、取得画像に対して特別に作
製された図12に示されるタイプのグラフを生成する。
このような各アライメントグラフは、RAM4に記憶さ
れるものに対応するデータ構造を生成することにより物
理的に実現される。
【0079】画像I及びその可能文字列解釈に関する画
像コンセグメンテーションに関する情報は、この情報に
ついて特別に生成されたデータ構造の情報欄に記憶され
る。最後に、この被編成情報は、解釈の候補群{C}か
ら最有望文字列解釈Cを選択するために、プログラム化
プロセッサ2により使用される。
【0080】図12に示されるように、本発明のアライ
メントグラフは多数の精密な構造特徴を有する。グラフ
の主要部分は行と列を有する。各列は文字列解釈C内の
一つの文字位置に対応する。この事例は5文字のZIP
コードに関するものなので、図示されるように、5列必
要である。各行は画像セグメントに対応する。この事例
は11セグメントを有するので、図示されるように、1
1行必要である。
【0081】或る列の或る行の各解釈には、一対のドッ
ト(・ ・)により示されるノードが存在する。左のド
ットはノードの“モーニング”部分を示し、右のドット
はノードの“イブニング”部分を示す。このような各ノ
ードは、その行インデックスと列インデックスにより特
定される。更に、最初の文字位置の前で、最も左側の画
像セグメントの左端に配置された特殊開始ノード17が
存在する。同様に、最後の文字位置に右側で、最も左側
の画像セグメントの下側に配置された特殊終了ノード1
8が存在する。
【0082】図12に示されるように、各ノードのモー
ニング及びイブニング部分を接続する10個の認識弧が
存在する。明瞭化のために、図12には10個の認識弧
の内3個しか図示されていない。解釈処理中に、各認識
弧19は“r−スコア”で標識化される。
【0083】この“r−スコア”は認識弧により示され
る文字に割当てられる。これらの認識弧は、ZIPコー
ドを構成する数字文字に割当てられた非正規化r−スコ
アを示す。しかし、単語及び文章認識用途では、これら
の認識弧は一般的に、所定のアルファベット又は語彙中
の記号に割当てられた非正規化スコアを示す。図12に
示されるように、このようなノード間のノード子孫系統
及び先祖系統を示すために、或るノードの各イブニング
部分とその直ぐ隣のノードのモーニング部分との間に、
直線化グルー弧(glue-arc)19も引かれる。
【0084】認識弧と異なり、このグルー弧はニューラ
ルネットワークによりr−スコアは割当てられない。そ
の他の実施例では、複雑なグルー弧スコアを使用するこ
ともできるが、この実施例の場合、単純なシステムが使
用される。すなわち、許容弧にはスコア1.0が割当て
られ、かつ、保持される。しかし、非許容弧にはスコア
0.0が割当てられ、アライメントグラフから廃棄され
る。
【0085】ノードのモーニング部分はここに進入する
2つ以上のグルー弧を有することもできる。同様に、ノ
ードのイブニング部分はここから出る2つ以上のグルー
弧を有することもできる。画像コンセグメンテーション
の構成にインポーズされる制約の結果として、ローカル
的には道理にかなうが、グローバル的には道理にかなわ
ないグルー弧がアライメントグラフ中に存在することも
ある。従って、解釈処理の計算効率を改善するために、
特定のグルー弧を除去又は剪定することができる。図2
のブロックGに示される画像セグメント分析ステージに
進む前に、アライメントグラフに対して次ぎの“グルー
弧”剪定処理を行うことができる。
【0086】グルー弧剪定処理の第1工程は、順方向コ
ーンのメンバーとしてすでにマークされたノードの子孫
を反復的にマークすることにより、開始ノードの子孫で
あるノードの“順方向コーン”を計算することである。
処理の第2工程は、逆方向コーンのメンバーとしてすで
にマークされたノードの先祖を反復的にマークすること
により、終了ノードの先祖であるノードの“逆方向コー
ン”を計算することである。
【0087】処理の第3工程は、どのノードがこれら2
つのコーンの論理的共通部分に存在しないか決定し、次
いで、これらノードを“デッド”としてマークする。そ
の後、“デッド”とマークされたノードへ延びる又はこ
のノードから延びるグルー弧を許容グルー弧のリストか
ら削除(すなわち、剪定)する。これらコーンの共通部
分内の各ノードは“アライブ”と見做され、画像セグメ
ント分析ステージ中にその一連の認識弧に割当てられる
スコアを有する。
【0088】このグローバルな制約を満たすことによ
り、合法的な先祖又は子孫を有しない、アライメントグ
ラフの右手上方コーナー及び左手下方コーナーに多数の
ノードが存在することとなる。この事実は、図12に示
されるように、アライメントグラフのこれらの領域内に
入力グルー弧及び出力グルー弧が存在しないことにより
示される。更に、必要により、又は所望により、アライ
メントグラフは明確なカットの存在を用いることにより
剪定することもできる。
【0089】グラフ内の各パスはコンセグメンテーショ
ン及び解釈の両方を示す。パス内のグルー弧はコンセグ
メンテーションを指定し、パス内の認識弧は解釈を指定
する。本発明の方法がどのようにして、可能文字列解釈
の全ての群又は競合する文字列解釈の少数群の何れかか
ら“正しい”文字列解釈を選択するのかを理解ために、
先ず最初に、“正しい”文字列解釈の最終的選択に先行
する幾つかのサブプロセスを理解しなければならない。
【0090】第1のサブプロセスは、各ノードの認識弧
に割当てられた非正規化r−スコアの計算に関する。第
2のサブプロセスは、同じ文字列解釈を示すアライメン
トグラフを通る全ての文字列パスに付随するr−スコア
の和の計算に関する。これらのサブプロセスについて以
下説明する。
【0091】図13に示されるように、解釈処理の画像
セグメント分析ステージは複雑なニューラル計算ネット
ワーク21を使用する。各i番目のニューラル計算ネッ
トワークの基本的機能は、グラフ内のi番目の行と同時
インデックス化された画像セグメントSiの画素を分析
し、グラフ内のi番目の行内の各ノードにおける認識弧
に割当てられる一連の“スコア”(すなわち、r−スコ
ア)を計算することである。
【0092】一つのセグメントが存在すると、行当たり
の一つのニューラルネットワーク及び同じ行内の全ての
ノードは同じ10個組のr−スコアを受信する。明確化
のために、各ノードについて、10個の認識弧の内の3
個だけしか図13には図示されていない。要するに、各
ニューラル計算ネットワークはその入力(一連の番号に
より示される一群の画素)を、r−スコアと呼ばれる1
0個組の番号r0,r1,...r9にマップする。
【0093】ネットワークのアーキテクチャは、これら
のr−スコアがポジティブであり、これらの解釈を非正
規化確率として容認することを保証する。r0が大きな
値であることは、入力セグメントが数字の“0”を示す
高い確率を示し、同様に、他の9個のr−スコアはそれ
ぞれ他の9個の数字に対応する。また、大きなr−スコ
アは、入力セグメントが画像の正しいコンセグメンテー
ションの一部である高い確率を反映する。
【0094】逆に言えば、数字を半分にカットすること
によりセグメントが生成される場合(時々起こることが
ある)、このセグメントに関する10個全てのr−スコ
アは、セグメントの望ましからざる特性の検出を示すた
めに、小さくなければならない。
【0095】本発明によれば、各ニューラル計算ネット
ワークのマッピング機能は、成分を有する重みベクトル
1,W2,...Wmとしてベクトル形で示すことがで
きる一連の調整可能パラメータを特徴とする。初めに、
各ニューラル計算ネットワークの一連の調整可能パラメ
ータを一連の初期値に調整する。
【0096】しかし、下記で詳細に説明するように、図
2のブロックJで示されるニューラルネットワークパラ
メータ調整ステージは、1つ以上の学習セッション中
に、各ニューラル計算ネットワークの入力/出力マッピ
ング機能を一連の学習データに順応させるように条件付
けするような方法で、これらのパラメータを増分的に調
整できるために設けられている。この学習データセット
は、国中の異なる人々により手書きされたZIPコード
を有する数十万の有効化学習画像からなる。
【0097】各i番目のニューラル計算ネットワークか
ら生成されたr−スコアは、r=r1,r2,...,r
Nとしてベクトル形で表示され、アライメントグラフの
i番目の行内の全てのノードにおける10個の対応する
認識弧(すなわち、情報欄)に割当てられる。
【0098】一般的に、各ニューラル計算ネットワーク
は、コンピュータプログラム、電気回路、又はニューラ
ル計算ネットワークの入力/出力マッピング機能を実現
できる微視的又は巨視的デバイスとして実現できる。し
かし、各ニューラル計算ネットワークは周知のLeNet
(登録商標)コンピュータプログラムを実行することに
より実現される。
【0099】このLeNet(登録商標)コンピュータプロ
グラムは、Y.Le Cun et al., "Handwritten Digit Reco
gnition with a Back-Propagation Network", pp 396-4
04, Advances in Neural Information Processing 2,
(David Touretzky, Editor), Morgan Kaufman (1990)
に詳述されている。更に、ニューラル計算ネットワーク
の構成及び学習に関する詳細な説明は、John Denker et
al., "Automatic Learning , Rule Extraction, and G
eneralization", pp 877-922, Complex Systems,Vol.
1, October,1987に開示されている。
【0100】アライメントグラフにおいて、同じ文字列
解釈を示す2個以上のパス(異なるコンセグメンテーシ
ョンを示す)が存在することもある。所定の解釈を示す
パスは“グループ”と見做さなければならない。所定の
解釈に割当てられたスコアはグループ内の全てのパスの
スコアの和に依存しなければならない。これは、このグ
ループ内の一つだけのパスに関するスコアを一般的に考
慮する従来の認識器と異なり、グループ内の他のパスの
寄与を無視する。
【0101】5個の数字を包含する画像の場合、一般的
に、105個の可能個別解釈が存在し、アライメントグ
ラフを通るパスの本数はこれよりも更に多いこともあ
る。従って、これらを明快に示したり、あるいは各確率
を個別的に検討することは実際的ではない。本発明のデ
ータ構造及びアルゴリズムにより、本発明のシステム
は、特定の重要なパスグループ(例えば、所定の解釈に
対応するパスグループ又は全てのパスグループ)を識別
し、また、このグループのスコア(すなわち、このグル
ープ内のパスのスコアの和)を効率的に評価することが
できる。
【0102】本発明のシステムは取得画像Iの画素を分
析し、確率が計算された候補解釈(すなわち、分類)を
示すグラフを通る全てのパスの和を計算する。和中の各
項目は、アライメントグラフ内の特定のパスからなる弧
に割当てられたスコアの積である。和が計算された後に
のみ、正規化が行われる。これを“列毎”正規化と呼
ぶ。
【0103】これに対し、確率を計算する従来の認識器
は、処理の比較的初期の段階でスコアを一般的に正規化
する。一般的に、或る意味では“文字毎”正規化と同等
である。これにより、コンセグメンテーションの品質に
関する価値ある情報を廃棄してしまう。下記に説明する
ニューラル計算ネットワーク学習プロセスは、ニューラ
ルネットワークの複合体を学習させ、セグメントの所定
の文字解釈が正しい確率ではなく、所定のコンセグメン
テーションが正しい確率に関する情報を包含するr−ス
コアを生成することが重要である。
【0104】本発明のシステム及び方法により生成され
た正規化スコアは、事後確率P(C/I)の推定値を示
す。これに対し、従来技術の多文字認識MCRシステム
で使用される最尤シーケンス推定確率は一般的に、P
(I/C)形の事前確率を使用する。これらの異なる確
率測度はその他の各所定の若干の追加情報に関連させる
ことができるので、多くの目的に受け入れられる。事後
確率の実際の利点は、本発明のシステム及び方法の内部
計算が、解釈とコンセグメンテーションの結合事後確率
P(C,S/I)の推定値に依存することである。
【0105】対応する事前(最尤)表示 P(I/C,
S)は有用な事後形に容易に関連させることができな
い。なぜなら、一般的に、周辺確率P(S)を推定する
ことが容易ではないからである。その結果、従来の認識
器は最高スコアの解釈を識別するができるが、適正に正
規化されたスコアを割当てることができない。本発明の
正しく正規化されたスコアは、確率として非常に容易に
解釈することができ、従って、他のソースからの情報と
非常に容易に結合させることができる。
【0106】一般的に、図14に示される手順の目標
は、図13に図示されたアライメントグラフにより示さ
れる各競合文字列解釈に関する新規な事後確率P(C/
I)を計算することである。このような各確率は、分母
部分により割られる分子部分として表示される比率とし
て計算される。数学的に、本発明の確率測度は次式によ
り表される。
【0107】
【数1】
【0108】分子部分の最初の項
【数2】 は、各パス(Si’)の弧に沿ったr−スコアの一連の
乗法を示し、全分子部分
【数3】 は、同じ文字列解釈を示す全てのパス(すなわち、コン
セグメンテーションS’)にわたるこのようなパススコ
ア積の加法を示す。
【0109】分母部分の最初の式、
【数4】 は同じ文字列解釈を示す全てのパスにわたるパススコア
積の和を示し、全分母部分、
【数5】 はアライメントグラフにより示される全文字列{C}に
わたる全パススコア積の加法を示す。
【0110】分母部分は全可能解釈からの寄与を包含す
るので、その値は取得画像Iのみにより左右され、特定
の解釈Cによっては左右されない。分母部分の目的は、
確率が適正に正規化されることを確保することである。
これにより、確率の一般的な原理により、P(Ci
I)の和(すなわち、全Ci)は1に等しい。
【0111】特定の文字列解釈について分子部分が計算
されると、この文字列解釈に関する確率は、その計算分
母を共通分母で割ることにより得られる。“正しい”文
字列解釈に到達するために、例えば、一層大きな処理手
順に組み込むことにより、前記の確率計算手順を使用で
きる多数の様々な方法が存在する。この方法の一例を図
14及び15の流れ図に示す。更に別の方法を図16及
び図17の流れ図に示す。これらの2つの方法を以下詳
細に説明する。
【0112】本発明の最初の文字列解釈手順のステップ
を図14及び図15の流れ図に示す。ブロックAに示さ
れるように、この手順の最初のステップは、グラフ内の
i番目の行に沿った各ノードに関するr−スコアの組を
計算するために、図13に示されたi番目のニューラル
計算ネットワークを使用することである。次いで、ブロ
ックBに示されるように、手順は、最大パススコアを有
するアライメントグラフを通るパスを(グルー弧及び認
識弧を示す一連のコードとして)識別するために、周知
のヴィテルビ(Viterbi)アルゴリズムを使用する。
【0113】その後、プロセッサはこのパスに対応する
文字列解釈を識別する。この文字列パスに関するパスス
コアは、それ自体が信頼性のある測度ではない近似値に
しか過ぎないので、このスコアは廃棄される。このパス
により示された文字列解釈C (V)を識別する情報(例え
ば、5文字のZIPコードである35733)だけが保
持される。
【0114】次いで、図14のブロックCに示されるよ
うに、手順は、被識別文字列解釈に関する確率測度の共
通分母部分D(I)を計算するために、周知の“順方向
アルゴリズム”を使用する。図12のアライメントグラ
フを実現するために使用される主データ構造に、この数
字を記憶する。
【0115】順方向アルゴリズムを使用することによ
り、アライメントグラフにより示される全ての可能文字
列解釈に関する非正規化r−スコアの(各パスに沿っ
た)積の(パス全体の)和の正確な値が得られる。グル
ー弧はその存在又は不在によってのみ、パススコアに寄
与する。スコアはグルー弧(同様に、認識弧)に割当て
ることができ、このような全てのスコアは各パスに沿っ
た積内にファクタとして包含される。
【0116】図14のブロックDに示されるように、前
記の共通分母部分D(I)を計算した後、ヴィテルビア
ルゴリズムにより既に識別された正しい文字列解釈C
(V)の確率測度の分子部分N(C(V)I)を計算するため
に、“順方向アルゴリズム”を使用する。その後、図1
2のアライメントグラフを実現するために使用される主
データ構造に、この数字を記憶する。
【0117】順方向アルゴリズムは、ヴィテルビアルゴ
リズムにより識別された被選択文字列解釈を識別するコ
ードを入力として受け入れ、この被選択文字列解釈C
(V)の正確な分子値(すなわち、制限付き和)を出力と
して生成する。文字列解釈の算定分子部分は、文字列解
釈C(V)を示すアライメントグラフを通る各パスに沿っ
た非正規化r−スコアの積の(パス全体の)和に等し
い。この分子部分の計算中に、グルー弧は、分母部分の
計算中と同じ方法により処理される。
【0118】図14のブロックEに示されるように、分
母部分及び分子部分が計算された後、文字列解釈C(V)
について改良された確率P(CV/I)が計算される。
その後、この確率は主データ構造に記憶される。最後
に、図15のブロックFに示されるように、プロセッサ
は、ブロックEにおける算定確率が閾値よりも大きいか
否か決定する。
【0119】大きい場合、プロセッサは、ヴィテルビア
ルゴリズムにより選択された文字列解釈が被分析画像I
に関する最高確率文字列解釈であることを確信する。そ
の後、ブロックGにおいて、プロセッサはシステムから
出力として、(i)文字列解釈(例えば、35733)及
び(ii)これに付随する算定確率の両方を生成する。郵便
物をどのように経路指定するか決定するための基礎とし
て、(他の情報と共に)これら2つの項目を一緒に使用
できる。
【0120】処理のこのステージにおいて、別の高スコ
ア解釈を識別するために、追加計算を行うことが好まし
い多数の理由が存在する。例えば、ブロックFにおいて
(V )に割当てられた確率が0.5未満であっても、最
高確率解釈を確実に識別することが望ましいことがあ
る。この場合、一連の競合文字列解釈が識別され、この
組の各メンバーに関する確率が算定される。
【0121】また、本発明は、多数の解釈(及び確率)
が後の処理で使用される一層大きなシステムの一部とし
て使用することもできる。特に、取得画素画像に基づき
本発明により高確率が与えられた解釈、一層大きなシス
テムにおける後のステージにより除外することもでき
る。このため、別の解釈が必要である。この理由又はそ
の他の理由により、図16及び図17の流れ図に示され
た別の手順が使用される。
【0122】図16のブロックAに示されるように、こ
の手順の最初のステップは、グラフ内のi番目の行に沿
った各ノードの一連のr−スコアを計算するために、i
番目の計算ネットワークも使用する。次いで、ブロック
Bに示されるように、この手順は、(グルー弧及び認識
弧を示す一連のコードとして)アライメントグラフを通
る比較的小さな組のパスを識別するために、ビームサー
チアルゴリズムを使用する。その後、このパスの組に対
応する競合文字列解釈{Cj}の組が識別される。
【0123】図16のブロックCに示されるように、プ
ロセッサは分母D(I)を計算するために周知の順方向
アルゴリズムを使用する。分母D(I)は競合解釈の組
{Cj}における各解釈Cjに関する確率P(CjI)の
分母部分として役立つ。この数字は主データ構造に記憶
される。順方向アルゴリズムは、各パスに沿った弧の非
正規化r−スコアの積の(パス全体の)和の正確な値を
与える。分母部分の場合、和は全ての可能解釈を概説す
る。
【0124】被識別解釈に関するスコアを計算するため
に、ブロックDに示されるように、プロセッサは順方向
アルゴリズムを使用し、各競合文字列解釈Cjの確率の
分子部分N(Cj/I)を計算する。これらの数字は主
データ構造に記憶される。順方向アルゴリズムは、各パ
スに沿った弧の非正規化r−スコアの積の(パス全体
の)和の正確な値を与える。
【0125】順方向アルゴリズムにより計算された和は
パス全体の和である。一つのパスはブロックBにおける
ビームサーチアルゴリズムにより識別されるパスであ
る。実際、このパスは和における最大項を生成する。和
がその最大項により適切に近似されていると見做される
場合、分子を評価するために順方向アルゴリズムを行う
必要はない。ビームサーチアルゴリズムの結果は十分で
ある。これは“一項和”近似と呼ばれる。
【0126】しかし、この和は必ずしも、その最大項に
より適切に近似されるわけではない。従って、ビームサ
ーチアルゴリズムにより計算されたスコアを廃棄し、ビ
ームサーチアルゴリズムにより識別された解釈を保持
し、順方向アルゴリズムを用いて保持解釈のスコアを評
価することが好ましい。
【0127】全ての可能解釈について分子を計算するこ
とは一般的に不可能である。これが、ブロックBにおい
て解釈の比較的小さな組を識別することが好ましい理由
である。この解釈は、その大きな“一項目”スコアのた
めに、大きな分子及びその事実によって大きな確率を有
するものと予想される。
【0128】前記の説明は、システムが学習された後の
システムの動作を説明するものである。次に、システム
の学習モードを説明する。
【0129】最適な性能を得るために、本発明の文字列
解釈システムには、一つ以上の学習セッション中にシス
テムを自動的に学習させることができる動作の自動学習
モードが付与されている。この動作モードは、図2のブ
ロックJ及び図13に図示されたシステムを参照しなが
ら下記に詳細に説明する。
【0130】図2のブロックJ及び図13に示されるよ
うに、本発明の文字列解釈システムはニューラルネット
ワークパラメータ調整モジュール29を有する。このモ
ジュール29は、図13に示されたシステムのグラフ3
0及びニューラル計算ネットワーク21の複合体の両方
と相互作用する。一般的に、本発明の学習プロセスは、
教師付き学習のコンセプトに基づく。
【0131】すなわち、学習セット内の各画像I*につ
いて、初めから割当てられた解釈C*が存在する。ニュ
ーラルネットワークパラメータ調整モジュールは、正し
い文字列解釈の予測(すなわち、平均)確率P(C*
*)が学習セット内の全ての画像I*の処理中に増大
し、一方、各正しくない文字列解釈の予測確率P(C/
I)が学習プロセス中に低下することを確保するように
設計されている。
【0132】要するに、学習モードの目的、従って、ニ
ューラルネットワークパラメータ調整モジュールの目的
は、誤った解釈の平均確率を最小にする一方で、正しい
文字列解釈Cの確率を最大にすることを確保することで
ある。ログ関数はゼロ付近が急勾配なので、log[P
(C/I)]は目的関数として選択される。
【0133】これにより、学習プロセスは低スコア画素
パターン(すなわち、画像セグメント)を強調する。こ
れらのパターンは最も問題のあるものであり、そのため
最も学習が必要なものなので、この強調は好ましいもの
である。選択された目的関数を実現するために、プロセ
ッサは下記の数6で示される、関数の勾配を使用する。
【0134】
【数6】
【0135】前記数6において、W=W1
2,...,Wmはm次元のニューラルネットワーク重
みベクトルであり、ri=r1,r2,...,rnは、i番目の
ニューラルネットワークからの出力として生成されるi
番目のn次元のr−スコアベクトルである。一般的に、
重みベクトルwは10000又はこれ以上の成分を有す
る。r−スコアベクトルは数字認識用に正確に10成分
を有する。前記の勾配式の右側のドット積は、rの成分
全体の和を意味する。
【0136】一般的に、各ニューラルネットワークにつ
いて、すなわち、アライメント格子内の各行について、
この形の勾配式が存在する。時には、同じ重みベクトル
wを用いて2個以上のネットワークを制御することが好
ましいこともある。この場合、wの勾配はこのような各
ネットワークからの寄与を包含する。図13に示される
ように、重みベクトルはレジスタ31に記憶される。レ
ジスタ31は、システム内の各及び全てのニューラルネ
ットワークに同じ重みベクトルを与える。
【0137】ここに説明した多文字認識器の学習プロセ
スを始める前に、ニューラルネットワーク重みベクトル
を初期化しなければならない。幾つかの合理的な分布に
従うランダム値により初期化することもできるし、ある
いは、特に好適であると先験的に思われる選択値により
初期化することもできる。
【0138】多くの場合において、まるで単一文字認識
器として使用されるかのように、アライメントグラフか
らニューラルネットワークを一時的に分離し、これを手
で断片化された画像について前学習させることが好まし
い。得られた重みベクトル値は下記に説明する多文字認
識器学習プロセスのための出発点として役立つ。
【0139】勾配式の左側は、システム感度ベクトルと
呼ばれる。なぜなら、これは、重みベクトルwの変化に
ついて全システムの出力の感度に関する情報を与える勾
配だからである。システム感度ベクトルの各成分は、重
みベクトルの対応成分に属する。
【0140】特に、システム感度ベクトルの所定の成分
がゼロよりも大きい場合、重みベクトルの対応成分の微
小な増加は、システムが当該画像Iに関する解釈Cに割
当てる確率P(CI)を増大させる。要するに、システ
ム感度ベクトルは、前記の目的関数を最適化するために
使用できる。
【0141】この学習プロセスの基礎となる原理を更に
深く理解するために、勾配関数を構成する数の特性の真
価を認めることが有用である。
【0142】前記の公式に従って、システム感度ベクト
ルは、公式の右側に示された2つの他の数のドット積
(ベクトル・マトリックス積)として計算される。この
ような第1の数はベクトル、∂logP/∂rである。
これは、その入力に対して与えられたr−スコア
1...rnの変化についてグラフ出力の感度に関する
情報を与える。
【0143】これはグラフ感度ベクトルと見做すことが
できる。第2の数はN×Nマトリックス∂r/∂Wであ
る。これは、全てのニューラルネットワークを制御する
重みベクトルの変化についてニューラルネットワーク出
力の感度に関する情報を与える。
【0144】前記の3種類の項目は次のように関数的に
相互関係にあるものと見做すこともできる。各学習画像
*の処理中に、評価されたニューラルネットワーク感
度マトリックスを使用し、評価されたシステム感度ベク
トルを生成するために、評価されたグラフ感度ベクトル
を変換する。次いで、評価されたシステム感度ベクトル
の個々の成分は重みベクトルの対応成分を調整し、その
結果、パラメータ調整モジュールの目的関数P(C*
*)が最適化される。
【0145】理論上は、システム感度ベクトルは、勾配
関数の右側の項目を数字的に評価し、次いで、特定され
た数学的演算を行うことにより得ることができる。しか
し、学習セッション中に、各画像/解釈対{I*,C*
についてシステム感度ベクトルを操作的に評価する一層
簡単な方法が存在する。
【0146】図19及び図20の流れ図に関して下記に
説明するように、ニューラルネットワーク感度マトリッ
クスを明快に評価する必要無しに、コンピュータを使用
する効率的な方法でシステム感度ベクトルを評価するた
めに、周知の逆方向伝播("Back-Prop")アルゴリズムを
使用することができる。
【0147】本発明のシステムをその学習モードで動作
させる場合、図19及び図20の学習プロセスは、図2
のブロックkに示されるように、学習セットデータベー
スにおける各画像I*について行われる。各画像I*は、
既知の文字列解釈C*と連合される。一般的に、非常に
多量(例えば、何万)の画像/解釈対{I*,C*}を使
用し、特別な学習セッションの過程でシステムを学習さ
せる。
【0148】図のブロックBに示されるように、各画像
*は、本発明の解釈プロセス中に行われる方法と概ね
同じ方法で前処理される。また、図2のブロックC〜E
に示されるように、画像セグメント及び画像コンセグメ
ンテーションは、それぞれ本発明の解釈プロセスの過程
で行われる方法と概ね同じ方法で、画像I*について作
成される。
【0149】その後、図2のブロックFに示されるよう
に、生成画像コンセグメンテーション及び画像I*に付
随する可能文字列解釈についてグラフモデルが作成され
る。学習プロセスのこのステージにおいて、本発明の学
習方法は次の事実を開発する。
【0150】第1に、各確率P(C*/I*)は分子部分
N(C*/I*)と共通分母部分DIを有する。第2に、
対数及び導関数の周知の特性を用いて、グラフ感度ベク
トル(すなわち、r−スコア変数に関するlog[P
(C*/I*)]の部分導関数)は次の数7により再表示
することができる。
【0151】
【数7】
【0152】等式の左側に目立って示される、グラフ感
度ベクトルは、下記に説明する図19及び図20に示さ
れる手順により容易に数値を求めることができる。
【0153】図19のブロックAに示されるように、プ
ロセッサは順方向伝播アルゴリズムを実行し、画像/解
釈対{I*,C*}に関する確率P(C*/I*)の分子部
分の数値を求め、そして、その分母部分の数値を求め
る。その後、この数値を記憶する。プロセスのこのステ
ップにおいて、順方向アルゴリズムは、画像/解釈対
{I*,C*}について作成されたグラフは、付随確率P
(C*/I*)の分子部分及び分母部分を数学的に表示す
るために使用される分析的(すなわち、代数学的)式を
暗黙的に示すという事実を開発する。
【0154】図19のブロックBにおいて、プロセッサ
は、変数rに関する確率P(C*/I*)の分子部分の部
分導関数の数値を求めるために、周知のバウム−ウエル
チ(Baum-Welch)アルゴリズムを実行する。ブロックCに
おいて、プロセッサは順方向アルゴリズムを使用し、確
率P(C*/I*)の分母部分の値を計算する。
【0155】ブロックDにおいて、プロセッサは、変数
に関する確率P(C*/I*)の分母部分の部分導関数の
数値を求めるために、周知のバウム−ウエルチ(Baum-We
lch)アルゴリズムを実行する。その後、図20のブロッ
クEにおいて、前記の数式に従ってグラフ感度ベクトル
の数値を求めるために、プロセッサは、数値が求められ
た分子部分及び分母部分及びその部分導関数を使用す
る。
【0156】画像/解釈対{I*,C*}に関するシステ
ム感度ベクトルの数値を効率的に求めるために、図20
のブロックFに示されるように、学習プロセスは、数値
の求められたグラフ感度ベクトルの対応成分に等しい各
ニューラルネットワークの出力層勾配ベクトルを設定す
る。
【0157】次いで、ブロックGにおいて、プロセッサ
は逆方向伝播アルゴリズムを使用し、前記の数式に従っ
てシステム感度ベクトルの成分を計算する。所望の結果
を計算するために使用される逆方向伝播アルゴリズムの
プロセスの詳細な説明は、前掲のDenker et al., "Auto
matic Learning, Rule Extraction, and Generalizatio
n"に開示されている。
【0158】逆方向伝播アルゴリズムはニューラルネッ
トワーク感度マトリックスを明快に評価するためには使
用されず、むしろ、ニューラルネットワーク感度マトリ
ックスとグラフ感度ベクトルのベクトル・マトリックス
積の数値を求めるために使用される。
【0159】その結果は、全体的なシステム感度ベクト
ルの明快な評価である。これは、各ニューラルネットワ
ークの重みベクトルにおける成分の各々を更新する有効
な方向を示唆する。ブロックHに示されるように、各画
像I*を処理した後、プロセッサは、数値の求められた
システム感度ベクトルの個々の成分を使用し、重みベク
トルの個々の成分を更新する。好ましい更新手順を以下
説明する。
【0160】更新前、重みベクトルの各i番目の成分は
iとして示され、更新後、各i番目の成分はWi’とし
て示される。各画像I*を処理した後、重みベクトルは
下記の数8に従って更新される。
【0161】
【数8】
【0162】前記数8において、δiは“ステップサイ
ズ制御パラメータ”であり、Wi’は更新された重みベ
クトルを示し、∂log(C*/I*)/∂WiはWiに関
するlog(I*/C*)の部分導関数である。原則とし
て、重みベクトルの各成分について、多数の異なるステ
ップサイズ制御パラメータδiが存在するが、実際的に
は、これらは全て均等に設定することが好ましい。
【0163】一般的に、ステップサイズ制御パラメータ
の値は、(i)ニューラルネットワークに対する画素入力
について選択された正規化ファクタ、及び(ii)ニューラ
ルネットワークの中間値(すなわち、ニューラルネット
ワーク内の或る層から次の層までの出力)について選択
された正規化ファクタにより左右され、学習中に再推定
することができる。
【0164】要するに、ステップサイズ制御パラメータ
に関する適当な値を選択する場合、2つの主要な関心事
が存在する。この制御パラメータに関する選択値が小さ
すぎる場合、重みベクトルwのその最適値への収束は非
常に緩慢に進行する。一方、この制御パラメータに関す
る選択値が大き過ぎる場合、学習プロセスは、wの最適
値を飛び越してしまう危険性が非常に高い。この重み空
間Wの現象は、“発振分岐”と呼ばれる。これはシステ
ム性能の全体的品質を低下させ易く、学習手順を完全に
崩壊させてしまう。
【0165】前記の学習プロセスは、学習セット内の各
画像/解釈対{I*,C*}について反復される。学習モ
ードにおけるシステムにより更に一層多数の学習データ
が処理されるにつれて、ニューラルネットワーク重みベ
クトルの個々の成分の値は、本発明の学習プロセスを支
配する目的関数を満たす最適値に向かって収束する。学
習プロセス中に、ビームサーチアルゴリズム又はヴィテ
ルビアルゴリズムを行う必要性は存在しない。
【0166】学習プロセスが申し分のない重みベクトル
を生成したら、システムは、学習データベースを更に参
照することなく、その認識及びスコアリングタスクを実
行できる。このことは、学習は“研究室(in the lab)”
で行うことができ、認識及びスコアリングは“現場(in
the field)”で行うことができることを意味する。
【0167】現場で得られた結果は、学習データベース
又は学習アルゴリズムを記憶するための設備を有するこ
とを必要としない。或る場合には、現場で得られた結果
が再学習又は増分学習を行うことができることが望まし
いこともある。このような場合には、選択された学習例
を記憶するための設備が必要になることもある。
【0168】特に、図18に示されるような“パーソナ
ル”認識器の場合、システムを再学習させることにより
システムの性能を最大にし、この認識器が供給する具体
例に基づいて、シングルユーザ又は小さなユーザ群の特
異性を適応させることができる。
【0169】本発明の方法及びシステムが携帯用手書認
識装置で実現される場合、ユーザにより確認された、単
語、数字列などのビットマップ化画像は、このデバイス
内の不揮発性メモリ構造内に記憶させることが好まし
い。このメモリ構造の機能は、画像/解釈対{I*
*}に対応するビットマップ化及びASCIIフォー
マット化情報の両方を記憶することである。デバイスの
使用期間にわたって、学習データセットはこのような収
集情報から構築される。
【0170】学習データセットが十分なサイズのもので
ある場合、携帯用デバイスはその“学習モード”で動作
させることができる。各画像/解釈対{I*,C*}が再
処理された後、重みベクトルの個々の成分は、前記の目
的関数が行われるような方法で増分的に調整される。
【0171】本発明の多数の種類の追加実施例も容易に
構成させることできる。例えば、画像情報から導出され
る前処理画像の代わりに、システムへの入力は、ペンス
トローク情報から導出される前処理画像又はストローク
情報から導出されるリスト(画像形ではない)であるこ
ともできる。別の例では、入力は音声信号(例えば、会
話)から導出される前処理情報からなることもできる。
【0172】同様に、その他の形態の出力も実現でき
る。出力記号は数字だけでなく、アルファベット文字、
音素、単語全体、省略記号又はこれらの集団なども示す
ことができる。高雑音通信チャネルにより伝送される復
号化及びエラー訂正符号化記号のような用途を想像する
ことは容易である。
【0173】別の実施例では、ニューラルネットワーク
の複合体により行われる機能は、(1)入力を受信するこ
とができ、(2)一連のパラメータに従い、スコア又はス
コアのベクトルとして解釈されることができる出力を生
成することができ、(3)所定の導関数ベクトルに基づ
き、導関数ベクトルにより指定される方向に出力を変更
する方法にパラメータ群を調整できるデバイスにより実
行することができる。
【0174】“アライメントグラフ”により行われる機
能は、常用の動的プログラミング格子又は必要な方法で
一連の情報を処理するデバイスにより実行することがで
きる。この方法は特に、(1)シーケンスの一部である様
々な実体を記載するスコアを受信し、(2)様々な高スコ
アリングシーケンス及び対応する解釈を効率的に識別
し、(3)所定の解釈と一致する全てのシーケンスに関す
る全スコアを効率的に計算し、そして(4)入力スコアに
対するその結果の感度を効率的に計算することからな
る。
【0175】また、処理チェーン内のモジュールの個数
は2以上であることができる。各モジュールは、(i)感
度出力(先行モジュールが調整可能なパラメータを有す
る場合,(ii) 感度入力(このモジュール又は先行モジ
ュールが調整パラメータを有する場合),及び(iii)通
常のデータ入力及びデータ出力を有しなければならな
い。
【0176】ここに説明した確率は、ゼロ又は1の間の
数字によりプロセッサ及びメモリで示される必要はな
い。例えば、この確率を若干大きな負数とゼロとの間の
範囲内の対数確率として記憶し、そして、確率の級数及
び並列組合せを記載する計算ステップを適合させること
が好ましい。
【0177】本発明のシステム及び方法は入力記号表現
を解釈するために使用できる。このような入力記号表現
は各種様々な媒体{例えば、紙、木、ガラスなどのよう
な電気的に受動的な(図形)記録媒体,感圧式書込面及
びタッチスクリーン式書込及び表示面のような電気的な
能動的な記録媒体,人間の音声及び機械生成音声のよう
な音声記録媒体,及び空気のような媒体(この場合、空
気中を波動するペンストロークは、例えば、RF位置セ
ンシング、光位置センシング、容量性位置センシングな
どの電気的に能動的な非接触方式により、符号化され
る)など}に表示され、次いで、本発明のシステム及び
方法を用いて、伝送され、記憶され及び/又は認識され
る。このような用途では、記号のシーケンスを表面上に
図形的に表示する必要はなく、単に表示するだけでよ
い。
【0178】本発明のシステム及び方法は常用の音声認
識システムでも使用できる。このような用途は例えば、
入力データセットは、時間領域に示された被記録音声発
音(すなわち、音声信号)である。本発明によれば、被
記録音声発音は、それぞれ非常に短い持続時間の小さな
音声サンプル(例えば、音声セル)に分割される。各音
声セルは前処理され、そして速度セルに分割される。
【0179】その後、音声セルは結合され、“音声セグ
メント”を生成する。各セグメントは、音声発音中の少
なくとも一つの音素を示すスペクトル情報を包含する。
次いで、これらの音声セグメントを結合し、本発明の非
環式グラフを用いて示されるコンセグメンテーションを
生成する。その後、このコンセグメンテーション及び全
可能音素ストリング解釈群を用いて、本発明のシステム
及び方法は、最高スコアリング音素ストリング解釈に関
する帰納的確率を計算し始める。この音声認識プロセス
の細部は音声認識分野の当業者に自明である。
【0180】
【発明の効果】以上説明したように、本発明によれば、
印刷又は筆記体書込技術により媒体に表示又は記録され
た文字列のような入力記号表現を解釈する優れた方法及
びシステムが提供される。本発明によれば、最良文字列
解釈の選択に、帰納的確率を使用し、各帰納的確率が、
先験的情報と既知例の画素画像と結合することにより帰
納的に導出され、任意の長さの文字列を正確に解釈する
ことができる。
【図面の簡単な説明】
【図1】本発明の一例による文字列解釈システムを実現
するために使用される様々な構成部品を示すシステムブ
ロック図である。
【図2】本発明の文字列解釈システムのブロック図であ
る。
【図3】筆記体書込技術を用いた手書きZIPコードの
前処理画像の図である。
【図4】図3におけるZIPコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。
【図5】図3におけるZIPコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。
【図6】図3におけるZIPコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。
【図7】図3におけるZIPコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。
【図8】図3におけるZIPコードの前処理画像の図で
あり、本発明の文字列解釈方法の画像セル生成ステージ
中に生成された一連の重ね合わせカットラインを有す
る。
【図9】図4〜図8に示されたカットライン間に生成さ
れた画像“セル”(すなわち、副画像)の表図である。
【図10】図4〜図9に示された隣接画像セルを結合す
ることにより生成された画像“セグメント”の表図であ
る。
【図11】図10に示された空間的に連続的な画像セグ
メントの結合組により生成された多数の合法的画像“コ
ンセグメンテーション”のうちの3種類のコンセグメン
テーションを示す表図である。
【図12】画像セグメント、これから生成された可能画
像コンセグメンテーション、可能文字列解釈及び可能文
字列解釈に割当てられたスコアを図形的に示すために使
用される本発明の新規なデータ構造を図形的に示す模式
図である。
【図13】11個の画像セグメントに分析されたZIP
コード画像を認識するために適合的に構成された本発明
の文字列解釈システムの模式図である。
【図14】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、下
記の図15と一体的に組み合わされる。
【図15】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、前
記の図14と一体的に組み合わされる。
【図16】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、下
記の図17と一体的に組み合わされる。
【図17】本発明により文字列を解釈する方法において
行われるステップを例証する高レベル流れ図であり、前
記の図16と一体的に組み合わされる。
【図18】本発明の文字列解釈システムの手持ちタイプ
の概要斜視図である。
【図19】本発明の文字列解釈システムを学習させる方
法において行われるステップを例証する高レベル流れ図
であり、下記の図20と一体的に組み合わされる。
【図20】本発明の文字列解釈システムを学習させる方
法において行われるステップを例証する高レベル流れ図
であり、前記の図19と一体的に組み合わされる。
【符号の説明】
1 本発明の記号シーケンス解釈システム 2 プロセッサ 3 プログラム記憶メモリ 4 データ記憶メモリ 5 画像取得デバイス 7 フレームバッファ 8 大容量記憶メモリ 9 可視表示装置 10 キーボード 11 ポインティングデバイス(マウス) 12 入力/出力デバイス 13 システムインターフェース 14 ホストシステム 15 システムバス
フロントページの続き (72)発明者 ジョン スチュワード デンカー アメリカ合衆国,07737 ニュージャージ ー, レオナルド,クースマン ドライブ 6

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 入力記号表現を分析し、前記入力記号表
    現の可能解釈をスコアリングするシステムであり、 前記入力記号表現を示す入力データセットを分析し、前
    記入力データセットを複数のセグメントに分割するセグ
    メント生成手段と、ここで、前記各セグメントは指定可
    能な境界を有し、所定の記号セット内の複数の記号のう
    ちの何れか一つを示すであろうとして分類可能である,
    前記複数のセグメント内の各セグメントを分析し、前記
    所定の記号セット内の特定の記号に付随する前記セグメ
    ントの各可能分類にスコアを割当てるセグメントスコア
    リング手段と,前記入力記号表現に関する複数の可能解
    釈及び複数の画像コンセグメンテーションを示す表示手
    段、ここで、前記各可能解釈は前記記号の異なるシーケ
    ンスからなり、前記各コンセグメンテーションは前記セ
    グメントの異なるシーケンスからなる,前記セグメント
    に割当てられたスコアに基づき、前記複数のコンセグメ
    ンテーションにスコアを割当てるコンセグメンテーショ
    ンスコアリング手段と,前記複数のセグメントに割当て
    られたスコアに基づき、前記複数の可能解釈から1つ以
    上の候補記号解釈を識別する候補解釈識別手段と,前記
    複数のセグメントのうちの1つ以上に割当てられたスコ
    アに基づき、前記1つ以上の候補解釈にスコアを割当て
    る記号シーケンススコアリング手段と,前記1つ以上の
    候補解釈に割当てられたスコアを評価する第1のスコア
    評価手段と,前記複数の候補解釈に割当てられたスコア
    を評価する第2のスコア評価手段と,前記複数の可能解
    釈に関する評価スコアを用いて各候補解釈に関する正規
    化スコアを生成する正規化スコア生成手段と,からなる
    ことを特徴とする入力記号表現の分析及び入力記号表現
    の可能解釈のスコアリングシステム。
  2. 【請求項2】 前記入力データセットは図形的に示され
    た記号シーケンスの取得画像に付随する一連の画素から
    なり、前記セグメント生成手段は、前記画素群を分析
    し、前記一連の画素を複数の画像セグメントに分割し、
    これにより、前記各画像セグメントは指定された境界を
    有し、そして、所定の文字セット内の前記複数の文字の
    うちの1つ以上の何れかの文字を示すであろうとして分
    類可能である請求項1のシステム。
  3. 【請求項3】 前記セグメントスコアリング手段は前記
    複数の画像セグメント内の各画像セグメントを分析し、
    そして、前記画像セグメントの各可能分類にスコアを割
    当て、前記各割当てスコアは前記所定の文字セット内の
    特定の文字に付随される請求項2のシステム。
  4. 【請求項4】 前記表示手段は複数の文字シーケンスと
    複数の画像コンセグメンテーションを示し、前記各可能
    文字シーケンスは前記文字シーケンスからなり、前記各
    コンセグメンテーションは前記画像セグメントシーケン
    スからなる請求項3のシステム。
  5. 【請求項5】 前記コンセグメンテーションスコアリン
    グ手段は前記画像セグメントに割当てられたスコアに基
    づき、前記複数の画像コンセグメンテーションにスコア
    を割当て、前記候補記号シーケンス識別手段は前記画像
    セグメントに割当てられたスコアに基づき、1つ以上の
    候補文字シーケンスを識別する請求項4のシステム。
  6. 【請求項6】 前記記号シーケンススコアリング手段は
    前記画像セグメントに割当てられたスコアに基づき、前
    記1つ以上の候補文字シーケンスにスコアを割当て、前
    記第1のスコア評価手段は前記1つ以上の候補文字シー
    ケンスに割当てられたスコアを評価する請求項5のシス
    テム。
  7. 【請求項7】 前記第2のスコア評価手段は前記複数の
    可能文字シーケンスに割当てられたスコアを評価し、前
    記スコア正規化手段は前記複数の可能文字シーケンスに
    関する評価スコアを用いて前記各候補文字シーケンスに
    割当てられたスコアを正規化する請求項6のシステム。
  8. 【請求項8】 前記表示手段は、列及び行に配列され、
    かつ、有向弧により選択的に連結された2次元ノードア
    レーからなるグラフにより表示可能なデータ構造からな
    り、前記各ノード列は一つの文字位置により指し示さ
    れ、前記各ノード行は前記取得画像の空間構造に対応す
    る順序で1つの前記画像セグメントにより指し示され、
    前記ノードを通り、かつ、前記有向弧に沿って延びる各
    パスは1つの前記画像コンセグメンテーションと1つの
    前記可能文字シーケンスを示し、概ね全ての前記画像コ
    ンセグメンテーション及び概ね全ての前記可能文字シー
    ケンスは前記グラフ内を延びる一連のパスにより示され
    る請求項7のシステム。
  9. 【請求項9】 前記各ノードは一連の認識弧を更に有
    し、前記各認識弧は前記文字の一つを示し、前記割当て
    スコアの一つに付随される請求項8のシステム。
  10. 【請求項10】 前記表示手段は前記複数の可能解釈及
    び前記複数の画像コンセグメンテーションを示す請求項
    1のシステム。
  11. 【請求項11】 前記表示手段は、列及び行に配列さ
    れ、かつ、有向弧により選択的に連結された2次元ノー
    ドアレーからなるグラフにより表示可能なデータ構造か
    らなり、前記各ノード列は一つの記号位置により指し示
    され、前記各ノード行は前記入力データセットのシーケ
    ンシャル構造に概ね対応する順序で1つの前記セグメン
    トにより指し示され、前記ノードを通り、かつ、前記有
    向弧に沿って延びる各パスは1つの前記コンセグメンテ
    ーションと前記入力記号表現に関する1つの前記可能解
    釈を示し、概ね全ての前記コンセグメンテーション及び
    概ね全ての前記可能解釈は前記グラフ内を延びる一連の
    パスにより示される請求項10のシステム。
  12. 【請求項12】 前記表示手段は、列及び行に配列さ
    れ、かつ、有向弧により選択的に連結された2次元ノー
    ドアレーからなるグラフにより表示可能なデータ構造か
    らなり、前記各ノード列は一つの記号位置により指し示
    され、前記各ノード行は前記入力データセットのシーケ
    ンシャル構造に概ね対応する順序で1つの前記セグメン
    トにより指し示され、前記ノードを通り、かつ、前記有
    向弧に沿って延びる各パスは1つの前記コンセグメンテ
    ーションと前記入力記号表現に関する1つの前記可能解
    釈を示し、全ての前記コンセグメンテーション及び全て
    の前記可能解釈は前記グラフ内を延びる一連のパスによ
    り示される請求項1のシステム。
  13. 【請求項13】 入力記号表現の解釈を生成する方法で
    あり、前記入力記号表現は媒体中に表現され、前記解釈
    は記号シーケンスであり、各記号は所定の記号セット内
    の要素であり、前記方法は、 (a)前記入力記号表現を示す入力データセットを取得す
    るステップと,(b)一連のセグメントを生成するために
    前記入力データセットを処理するステップと,ここで、
    前記セグメントは前記取得入力データセットの少なくと
    も部分的な副セットであり、前記所定の記号セット内の
    何れか一つの記号を示すものとして分類可能である,
    (c)前記入力記号表現に関する一連のコンセグメンテー
    ションと一連の可能解釈を示すデータ構造を生成するス
    テップと,ここで、前記各コンセグメンテーションは、
    前記入力データセットを集合的に示し、前記入力データ
    セットのシーケンシャル構造を概ね保存する順序で配列
    されている前記セグメント群からなり、前記入力記号表
    現に関する前記各可能解釈は可能記号シーケンスからな
    り、前記可能記号シーケンス内の各記号は所定の記号セ
    ットから選択され、そして前記可能記号シーケンス内の
    記号位置を占有し、前記データ構造は、列と行に配列さ
    れ、有向弧により選択的に連結された2次元ノードアレ
    ーからなるグラフにより図形的に示され、前記各ノード
    列は一つの前記記号位置により指し示すことができ、前
    記各ノード行は前記取得入力データセットの論理構造に
    対応する順序で一つの前記画像セグメントにより指し示
    すことができ、前記ノード内を通り、前記有向弧に沿っ
    て延びる各パスは一つの前記コンセグメンテーション
    と、前記入力記号表現に関する一つの前記可能解釈を示
    し、全ての前記コンセグメンテーション及び前記入力記
    号表現に関する全ての前記可能解釈は前記グラフ内に延
    びる一連のパスにより示される,(d)前記グラフ内の各
    ノード行について、前記行内の各ノードにより示される
    前記所定の記号セットに関する一連のスコアを生成する
    ステップと,ここで、前記一連のスコアの生成は、前記
    一連のスコアが生成されるノード行を指し示すセグメン
    トの分析を含む,(e)前記グラフ内を通るパスにパスス
    コアを暗に又は明快に帰属させるステップと,(f)前記
    入力記号表現について一つ以上の可能解釈を選択するた
    めに、ステップ(e)において前記グラフ内を通るパスに
    帰属されたパススコアを分析するステップとからなるこ
    とを特徴とする入力記号表現の解釈を生成する方法。
  14. 【請求項14】 前記各ノードは一連の認識弧を更に有
    し、前記各認識弧は前記文字の一つを示し、ステップ
    (d)において生成された前記スコアの一つに付随される
    請求項13の方法。
  15. 【請求項15】 ステップ(d)は前記一連のスコアを生
    成するために複数の調整可能パラメータを使用すること
    からなる請求項14の方法。
  16. 【請求項16】 前記複数の調整可能パラメータにより
    特徴付けられる情報処理手段は、前記各セグメントを分
    析するため、及びこのセグメントに関する前記スコア群
    を生成するために、ステップ(d)において使用される請
    求項15の方法。
  17. 【請求項17】 ステップ(f)は、前記入力記号表現に
    関する少なくとも一つの前記可能解釈について、帰納的
    確率に対応する数量を計算することからなり、ここで、
    前記各数量は分母部分に対する分子部分の比率として計
    算され、分子部分は、前記入力記号表現に関する一つの
    前記可能解釈を示すグラフ内を通る概ね全てのパスに関
    するパススコアの和に対応し、前記各パススコアは一つ
    の前記パスに沿った認識弧に付随するスコアの積に対応
    し、分母部分は、前記入力記号表現に関する概ね全ての
    前記可能解釈を示すグラフ内を通る概ね全てのパスに関
    するパススコアの和に対応し、前記各パススコアは一つ
    の前記パスに沿った認識弧に付随するスコアの積に対応
    する請求項14の方法。
  18. 【請求項18】 ステップ(f)において、 (1) 最高パススコアを有する前記グラフ内を通るパスを
    決定し、 (2)副ステップ(1)で決定されたパスにより示される前記
    入力記号表現に関する可能解釈を識別し、 (3)副ステップ(2) で識別された前記入力記号表現に関
    する前記可能解釈に関する前記数量を計算し、 (4)副ステップ(3)で計算された数量及び副ステップ(2)
    で識別された前記入力記号表現に関する前記可能解釈を
    示す徴候を出力として供給することからなる請求項17
    の方法。
  19. 【請求項19】 ステップ(f)において、更に、 (1) 高い一連のパススコアを有する前記グラフ内を通る
    一連のパスを決定し、 (2)副ステップ(1)で決定された前記一連のパスにより示
    される前記入力記号表現に関する一連の可能解釈を識別
    し、 (3)副ステップ(2) で識別された前記入力記号表現に関
    する前記一連の可能解釈に関する一連の前記数量を計算
    し、 (4)前記入力記号表現に関する前記可能解釈のうちのど
    れが高スコアリングの帰納的確率を有するか決定するた
    めに、副ステップ(3)で計算された前記一連の数量を分
    析し、そして、 (5)副ステップ(2) で識別された前記入力記号表現に関
    する可能解釈及び副ステップ(4)で決定された高スコア
    リング帰納的確率を示す徴候を出力として供給すること
    からなる請求項17の方法。
  20. 【請求項20】 前記各帰納的確率は分母部分に対する
    分子部分の比率として計算され、ステップ(f)は更に、 (1) 高い一連のパススコアを有する前記グラフ内を通る
    一連のパスを決定し、 (2)副ステップ(1)で決定された前記一連のパスにより示
    される前記入力記号表現に関する一連の可能解釈を識別
    し、 (3)副ステップ(2) で識別された前記入力記号表現に関
    する前記一連の可能解釈に関する一連の前記数量を計算
    し、そして、 (4)副ステップ(2) で識別された前記入力記号表現に関
    する一連の可能解釈及び副ステップ(3)で計算された数
    量を出力として供給することからなる請求項17の方
    法。
  21. 【請求項21】 ステップ(d)において、前記一連の調
    整可能パラメータは、分析のための前記情報処理手段に
    供給された前記セグメントと、前記情報処理手段から生
    成された前記一連のスコアとの間の関係を指定する請求
    項15の方法。
  22. 【請求項22】 (1)前記情報処理手段を用いて多数の
    既知記号シーケンスを処理し、そして、 (2)各既知シーケンスについて、前記一連の調整可能パ
    ラメータを増分的に調整し、これにより、正しい解釈に
    割当てられた確率を平均して増大させ、また、正しくな
    い解釈に割当てられた確率を平均して低下させることに
    より、前記情報処理手段を学習させることからなる請求
    項21の方法。
  23. 【請求項23】 前記情報処理手段はニューラル情報処
    理ネットワークからなる請求項22の方法。
  24. 【請求項24】 前記入力記号表現は印刷又は筆記体書
    込技術を用いて表示され、記録媒体に図形的に記録され
    る請求項13の方法。
  25. 【請求項25】 入力記号表現の解釈を生成するシステ
    ムであり、前記入力記号表現は媒体中に表現され、前記
    解釈は記号シーケンスであり、各記号は所定の記号セッ
    ト内の要素であり、前記システムは、 (a)前記入力記号表現を示す入力データセットを取得す
    るデータセット取得手段と,(b)複数のセグメントを生
    成するために前記取得データセットを処理するデータ処
    理手段と,ここで、前記各セグメントは指定可能な境界
    を有し、所定の記号セット内の複数の記号のうちの何れ
    か一つの記号を示すであろうとして分類可能である,
    (c)一連のコンセグメンテーションを指定するデータを
    生成するコンセグメンテーション指定手段と,ここで、
    前記各コンセグメンテーションは前記取得入力データを
    集合的に示し、前記取得入力データセットのシーケンシ
    ャル構造を概ね保存する順序で配列されている一連の前
    記セグメントからなり,(d)前記入力記号表現に関する
    一連の可能解釈を指定するデータを生成する記号シーケ
    ンス解釈指定手段と,ここで、前記入力記号表現に関す
    る前記各可能解釈は記号の可能シーケンスからなり、記
    号の前記可能シーケンス内の前記各記号は前記所定の記
    号セットから選択され、かつ、記号の前記可能シーケン
    ス内の記号位置を占有する,(e)前記各コンセグメンテ
    ーションと、前記入力記号表現に関する前記各可能解釈
    を示す生成データをデータ構造内に記憶するデータ記憶
    手段と,前記データ構造は、列と行に配列され、有向弧
    により選択的に連結された2次元ノードアレーからなる
    グラフにより図形的に示され、前記各ノード列は一つの
    前記記号位置により指し示すことができ、前記各ノード
    行は前記取得入力データセットのシーケンシャル構造に
    対応する順序で一つの前記画像セグメントにより指し示
    すことができ、前記ノード内を通り、前記有向弧に沿っ
    て延びる各パスは一つの前記一連のコンセグメンテーシ
    ョンと、前記入力記号表現に関する一つの前記可能解釈
    を示し、前記一連のコンセグメンテーション及び前記入
    力記号表現に関する前記一連の可能解釈は前記グラフ内
    を通って延びる一連のパスにより示される,(f)前記各
    セグメント内のデータを分析し、前記グラフ内のノード
    の各行について、前記行内の各ノードにより示される前
    記記号セットに関する一連のスコアを生成するセグメン
    ト分析手段と,(g)前記グラフ内を通る前記各パスに関
    するパススコアを計算するパススコア計算手段と,及び
    (h)前記入力記号表現に関する一つ以上の前記可能解釈
    を選択するために、計算パススコアを分析するパススコ
    ア分析手段とからなることを特徴とする入力記号表現の
    解釈生成システム。
  26. 【請求項26】 前記各ノードは一連の認識弧を更に有
    し、前記各認識弧は前記既知記号の一つを示し、前記計
    算スコアの一つに付随される請求項25のシステム。
  27. 【請求項27】 前記パススコア分析手段は、前記入力
    記号表現に関する前記各可能解釈の帰納的確率に対応す
    る数量を計算する手段を更に有する請求項26のシステ
    ム。
  28. 【請求項28】 前記各数量は分母部分に対する分子部
    分の比率として計算され、 分子部分は、前記入力記号表現に関する一つの前記可能
    解釈を示すグラフ内を通る概ね全てのパスに関するパス
    スコアの和に対応し、前記各パススコアは一つの前記パ
    スに沿った認識弧に付随するスコアの積に対応し、 分母部分は、前記入力記号表現に関する概ね全ての前記
    可能解釈を示すグラフ内を通る概ね全てのパスに関する
    パススコアの和に対応し、前記各パススコアは一つの前
    記パスに沿った認識弧に付随するスコアの積に対応する
    請求項27のシステム。
  29. 【請求項29】 (1) 最高パススコアを有する前記グラ
    フ内を通るパスを決定する手段と、 (2)最高パススコアを有する前記決定パスにより示され
    る前記入力記号表現に関する可能解釈を識別する手段
    と,(3)前記入力記号表現に関する前記各可能解釈の前
    記数量を計算する手段と,(4)前記計算数量及び前記入
    力記号表現に関する前記可能解釈を示す徴候を出力とし
    て供給する手段を更に有する請求項25のシステム。
  30. 【請求項30】 前記パススコア分析手段は、 (1) 最高の一連のパススコアを有する前記グラフ内を通
    る一連のパスを決定する手段と、 (2)前記決定された一連のパスにより示される前記入力
    記号表現に関する一連の可能解釈を識別する手段と、 (3)前記入力記号表現に関する前記一連の識別可能解釈
    の一連の前記数量を計算する手段と、 (4)計算された前記一連の数量を分析し、そして、前記
    入力記号表現に関する前記可能解釈のうちのどれが前記
    最高の一連のパススコアの最高帰納的確率を有するか決
    定する手段と、 (5)最高帰納的確率を有する前記入力記号表現に関する
    前記可能解釈を示す徴候と、前記決定最高帰納的確率を
    出力として供給する手段を更に有する請求項29のシス
    テム。
  31. 【請求項31】 前記セグメント分析手段は、分析のた
    めの前記情報処理手段に供給された前記セグメントと、
    前記情報処理手段から生成された前記一連のスコアとの
    間の関係を指定する、一連の前記調整可能パラメータか
    らなる請求項27のシステム。
  32. 【請求項32】 複数の学習データセットを用いて前記
    システムを学習させるシステム学習手段を更に有し、前
    記学習データセットは入力記号表現の取得データセット
    と前記入力記号表現に関する正しいと知られる解釈を包
    含し、前記システム学習手段は、前記正しいと知られて
    いる解釈に関する平均解釈測度が増大し、かつ、正しく
    ないと知られている解釈の前記セットに関する平均解釈
    測度が低下するように、前記一連の調整可能パラメータ
    を増分的に調整するパラメータ調整手段を更に有する請
    求項31のシステム。
  33. 【請求項33】 入力記号表現の解釈を生成するシステ
    ムであり、前記入力記号表現は媒体中に表現され、前記
    解釈は記号シーケンスであり、各記号は所定の記号セッ
    ト内の要素であり、前記システムは、 (a)前記入力記号表現の画像を取得する画像取得手段
    と,(b)一連の画像セグメントを生成するために前記画
    像を処理する画像処理手段と,ここで、前記画像セグメ
    ントは前記取得画像の副画像である,(c)一連の画像コ
    ンセグメンテーションを指定するデータを生成する画像
    コンセグメンテーション指定手段と,ここで、前記各画
    像コンセグメンテーションは、前記取得画像を集合的に
    示し、前記取得画像の空間構造を概ね保存する順序で配
    列されている一連の前記画像セグメントからなり,(d)
    前記入力記号表現に関する一連の可能解釈を指定するデ
    ータを生成する記号シーケンス解釈指定手段と,ここ
    で、前記入力記号表現に関する前記各可能解釈は記号の
    可能シーケンスからなり、前記記号シーケンス内の前記
    各記号は前記所定の記号セットから選択され、かつ、前
    記記号シーケンス内の記号位置を占有する,(e)前記各
    画像コンセグメンテーションと、前記入力記号表現に関
    する前記各可能解釈を示す生成データをデータ構造内に
    記憶するデータ記憶手段と,前記データ構造は、列と行
    に配列され、有向弧により選択的に連結された2次元ノ
    ードアレーからなる有向非環式グラフにより図形的に示
    され、前記各ノード列は一つの前記記号位置により指し
    示すことができ、前記各ノード行は前記取得画像の空間
    構造に対応する順序で一つの前記画像セグメントにより
    指し示すことができ、前記ノード内を通り、前記有向弧
    に沿って延びる各パスは一つの前記画像コンセグメンテ
    ーションと、前記入力記号表現に関する一つの前記可能
    解釈を示し、前記画像コンセグメンテーションの全て及
    び前記入力記号表現に関する前記可能解釈の全ては前記
    グラフ内を通って延びる一連のパスにより示される,
    (f)前記各画像セグメントを分析し、前記グラフ内のノ
    ードの各行について、前記行内の各ノードにより示され
    る前記所定の記号セットに関する一連のスコアを生成す
    る画像セグメント分析手段と,(g)前記グラフ内を通る
    前記各パスに関するパススコアを計算するパススコア計
    算手段と,(h)前記入力記号表現に関する一つ以上の前
    記可能解釈を選択するために、計算パススコアを分析す
    るパススコア分析手段とからなることを特徴とする入力
    記号表現の解釈生成システム。
  34. 【請求項34】 入力記号表現の解釈を生成するシステ
    ムであり、前記入力記号表現は媒体中に表現され、前記
    解釈は記号シーケンスであり、各記号は所定の記号セッ
    ト内の要素であり、前記システムは、 (a)複数の既知の入力記号表現の各々について、入力デ
    ータセット及び確認された記号シーケンスを供給する手
    段と,(b)前記各入力データセットを分析し、前記入力
    データセットを複数のセグメントに分割するセグメント
    生成手段と,ここで、前記セグメントは指定可能な境界
    を有し、前記所定の記号セット内の複数の記号のうちの
    何れか一つを示すものとして分類可能である,(c)一つ
    以上の調整可能パラメータにより、及び前記各セグメン
    トを分析し、一連のスコアを、前記一つ以上の調整可能
    パラメータに依存するように、前記セグメントの各可能
    解釈に割当てられる手段により特徴付けられるセグメン
    トスコアリング手段と,ここで、前記割当てられた一連
    のスコアの各々における各スコアは前記所定の記号セッ
    ト内の特定の記号に付随される,(d)複数の可能記号シ
    ーケンスと複数の画像コンセグメンテーションを示す表
    示手段と,ここで、前記各可能記号シーケンスは前記記
    号の異なるシーケンスからなり、前記各コンセグメンテ
    ーションは前記セグメントの異なるシーケンスからな
    る,(e)前記セグメントに割当てられたスコアに基づ
    き、前記複数のコンセグメンテーションにスコアを割当
    てるコンセグメンテーションスコアリング手段と,(f)
    前記複数のコンセグメンテーションのうちの1つ以上に
    割当てられたスコアに基づき、前記確認された記号シー
    ケンスの各々にスコアを割当てる記号シーケンススコア
    リング手段と,(g)前記確認された記号シーケンスに割
    当てられたスコアを評価する第1のスコア評価手段と,
    (h)前記複数の可能記号シーケンスに割当てられたスコ
    アを評価する第2のスコア評価手段と,(i)前記複数の
    可能解釈に関する評価スコアを用いて各確認された記号
    シーケンスに関する正規化スコアを生成する正規化スコ
    ア生成手段と,(j)前記一つ以上の調整可能パラメータ
    に関して、生成正規化スコアの感度を推定する感度推定
    手段と,(k)前記各セグメントが正確に分類される平均
    確率を増大させ、かつ、前記各セグメントが不正確に分
    類される平均確率を低下させるために、前記一つ以上の
    調整可能パラメータを調整するパラメータ調整手段とか
    らなることを特徴とする入力記号表現の解釈生成システ
    ム。
JP7218266A 1995-08-04 1995-08-04 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム Pending JPH0954814A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7218266A JPH0954814A (ja) 1995-08-04 1995-08-04 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7218266A JPH0954814A (ja) 1995-08-04 1995-08-04 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム

Publications (1)

Publication Number Publication Date
JPH0954814A true JPH0954814A (ja) 1997-02-25

Family

ID=16717184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7218266A Pending JPH0954814A (ja) 1995-08-04 1995-08-04 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム

Country Status (1)

Country Link
JP (1) JPH0954814A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519363B1 (en) 1999-01-13 2003-02-11 International Business Machines Corporation Method and system for automatically segmenting and recognizing handwritten Chinese characters
US8923635B2 (en) 2010-02-26 2014-12-30 Fuji Xerox Co., Ltd. Image processing apparatus and image processing program
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2021520002A (ja) * 2019-03-29 2021-08-12 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド テキスト認識方法及び装置、電子機器並びに記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519363B1 (en) 1999-01-13 2003-02-11 International Business Machines Corporation Method and system for automatically segmenting and recognizing handwritten Chinese characters
US6665436B2 (en) 1999-01-13 2003-12-16 International Business Machines Corporation Method and system for automatically segmenting and recognizing handwritten chinese characters
US8923635B2 (en) 2010-02-26 2014-12-30 Fuji Xerox Co., Ltd. Image processing apparatus and image processing program
US9280725B2 (en) 2013-02-14 2016-03-08 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2021520002A (ja) * 2019-03-29 2021-08-12 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド テキスト認識方法及び装置、電子機器並びに記憶媒体
US12014275B2 (en) 2019-03-29 2024-06-18 Beijing Sensetime Technology Development Co., Ltd. Method for text recognition, electronic device and storage medium

Similar Documents

Publication Publication Date Title
US5727081A (en) System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks
US11715014B2 (en) System and method of character recognition using fully convolutional neural networks with attention
Chen et al. Variable duration hidden Markov model and morphological segmentation for handwritten word recognition
EP2047409B1 (en) Two tiered text recognition
Senior et al. An off-line cursive handwriting recognition system
DE69907513T2 (de) Handgeschriebene oder gesprochene wort-erkennung mit neuronalen netzwerken
Kang et al. Unsupervised writer adaptation for synthetic-to-real handwritten word recognition
Hu et al. Writer independent on-line handwriting recognition using an HMM approach
Chherawala et al. Feature set evaluation for offline handwriting recognition systems: application to the recurrent neural network model
Vinciarelli A survey on off-line cursive word recognition
US8311335B2 (en) Model-based comparative measure for vector sequences and word spotting using same
KR100716594B1 (ko) 문자 식별
JPH0728949A (ja) 筆跡認識装置及び方法
Kaur et al. A comprehensive survey on word recognition for non-Indic and Indic scripts
Scheidl Handwritten text recognition in historical documents
Shan et al. Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network
Addis et al. Printed ethiopic script recognition by using lstm networks
US20090252417A1 (en) Unsupervised writer style adaptation for handwritten word spotting
Breuel A system for the off-line recognition of handwritten text
JPH0954814A (ja) 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム
Malik A Graph Based Approach for Handwritten Devanagri Word Recogntion
Rodríguez-Serrano et al. Handwritten word image retrieval with synthesized typed queries
Frinken et al. Self-training strategies for handwriting word recognition
Sudholt et al. Query-by-online word spotting revisited: Using cnns for cross-domain retrieval
Al-Ma'adeed Recognition of off-line handwritten Arabic words