JPH08305803A

JPH08305803A - 文字テンプレートセット学習マシン動作方法

Info

Publication number: JPH08305803A
Application number: JP8098690A
Authority: JP
Inventors: Gary E Kopec; イー．コペックゲイリー; Philip Andrew Chou; アンドリューチョーフィリップ; Leslie T Niles; ティー．ニルスレスリー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-04-28
Filing date: 1996-04-19
Publication date: 1996-11-22
Anticipated expiration: 2016-04-19
Also published as: US5689620A; EP0740263B1; DE69610243D1; EP0740263A3; EP0740263A2; CA2171773C; CA2171773A1; JP3822277B2; DE69610243T2

Abstract

(57)【要約】【課題】学習データ準備へのユーザの関与を必要とせ
ずにテンプレートが効果的に自動生成される文字テンプ
レートセット学習マシン動作方法を提供する。【解決手段】ボックス２２０において２Ｄ画像ソース
モデルによって定義される空間位置決め情報を用いて各
２Ｄ画像内の絵文字サンプル位置を決定し、ボックス２
５０においてトランスクリプションと２Ｄ画像ソースモ
デルによって定義されたマッピングデータとを用いて２
Ｄ画像内の各絵文字サンプルの位置を決定し、これらの
ステップによって学習データとして用いられるラベル付
けされた絵文字サンプルのセットを示すデータストラク
チュアを生成し、文字テンプレートが当該ラベル付けさ
れた絵文字サンプルのセットを示すデータストラクチュ
アにより構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、コンピュ
ータによるパターン認識の分野に係り、特に、文書画像
復号化及び文字認識を実行するコンピュータによるシス
テムに用いる文字テンプレート学習（トレーニング）に
関する。

【０００２】

【従来の技術】文字認識システムは、一般に、分離され
た入力文字画像、即ち「グリフ（glyph ）」の外観が解
析され、意思決定プロセスにおいて所定の文字のセット
内の異なる文字として分類されるプロセスを含む。用語
「グリフ」は、文字の実現されたインスタンスを示す画
像を称する。その分類解析は、一般に、分離された入力
グリフの特性（例えば、そのピクセル成分又は他の特
性）を文字セット内の文字に関する参照情報のユニット
と比較することを含み、これらのユニットの各々は、画
像形成プロセスによって導入されるノイズ又は歪みが生
じない場合に画像内に出現する文字の「理想的な」視覚
表示の特性を文字の特定のサイズ、フォント及び書体に
おいて定義する。一般に、「文字テンプレート」、「テ
ンプレート」、又は「プロトタイプ」と呼ばれる各文字
に対する参照情報のユニットは、文字を文字セット内の
文字の内の一つとして固有に識別する「文字ラベル」と
呼ばれる識別情報を含む。グリフと文字ラベルを示す参
照情報との間で十分な整合がなされたことを分類解析が
決定した時、文字ラベルは入力グリフの識別として出力
される。

【０００３】文字テンプレートを備える参照情報の表現
がそのモデルと呼ばれてもよい。一つのタイプの文字テ
ンプレートモデルは一つの文字のビットマップされた又
は２値の画像として知られている。２値文字テンプレー
トモデルのカテゴリ内には、少なくとも二つの異なるタ
イプのモデルが定義されている。一つは「セグメンテー
ションベース」のモデルと呼ばれ、文字テンプレートを
「境界ボックス」と呼ばれる矩形領域内に完全にあては
まるものとして記述し、隣接文字テンプレートの結合を
「非連結」な、オーバーラップしない境界ボックスを必
要とするものとして記述している。米国特許第5,321,77
3 号は、他の２値文字テンプレートモデルを開示してお
り、このモデルは、ディジタル・タイポグラフィの分野
で使用される、文字（letter form)形状の記述及び位置
決めのサイドベアリング（字面の左右の肩部）モデルに
基づく。図１の説明において以下により詳しく記述され
たサイドベアリングモデルは、一つのテンプレートの前
景（例えば、一般に黒色）ピクセルが隣接テンプレート
の前景ピクセルによって共用されていない即ちこの隣接
テンプレートの前景ピクセルと共通している間は、オー
バーラップする矩形境界ボックスを許容するようにテン
プレートの結合を記述している。このことはテンプレー
トが実質的「非連結サポート」を持つように要求すると
きに記述される。

【０００４】学習文字テンプレートは、認識プロセスに
用いられるテンプレートを生成、作成、又は更新するた
めに学習データを使用するプロセスである。学習データ
は、文字画像サンプルの集合として広く定義されること
ができ、テンプレートを定義する文字テンプレートモデ
ルによりテンプレートを生成するのに必要な情報を提供
する。文字画像サンプルの各々は、当該サンプルが示す
文字セット内の文字を識別する割り当てられた文字ラベ
ルを有している。既存の学習プロセスの有効度は、学習
データの品質及び精度、特にグリフサンプルの品質に直
接依存する。

【０００５】良質のグリフサンプルはこれらが学習プロ
セスに入力された時に欠落した又は無縁の前景ピクセル
によって実質的に損傷を受けないグリフサンプルであ
る。走査やファクスプロセスのような周知のソースから
生成されるビットマップ画像から導入されるグリフサン
プルは、ビットマップの実際の外観の不確実性に拍車を
かける画像ノイズや歪みによって品質が低下することを
余儀なくされる。この点に関する特定の問題は、テキス
ト内の文字がブレたり、併合したり又は途切れたりする
傾向である。このような低品質画像は、本明細書中にお
いては「雑音性」画像と呼ばれる。既存の学習プロセス
への入力として良質なグリフサンプルの必要条件は、概
して、グリフサンプルのソースとして使用される入力画
像が相対的に非雑音性であること、又はノイジー画像の
使用が可能となってもグリフサンプル内のノイズ除去又
は補償のためのプロセスが存在すべきであることを限定
している。

【０００６】認識システムは、一般に、文字テンプレー
トを学習するために個別の学習サブシステムを提供して
いる。学習システムは「スーパバイズド」又は「非スー
パバイズド」であってもよい。非スーパバイズド学習
は、概して、認識及び学習の２段階のプロセスを有す
る。

【０００７】既存のスーパバイズド学習は、学習データ
の態様が学習プロセスのユーザによりある程度特別に準
備されたプロセスとして記述される。このプロセスは、
グリフサンプルの分離、グリフサンプルに割り当てられ
ようとする文字ラベルの識別、及びグリフサンプルへの
文字ラベルの実際の割当ての内のどれかを含んでいても
よいし、又はこれらの三つの態様を全て含んでいてもよ
い。スーパバイズド学習は、（学習データの）品質及び
精度に関してユーザがある程度のコントロールを実行す
る学習データを用いて新規又は既存のテンプレートを学
習する機会を提供する。

【０００８】一つのタイプの既存のスーパバイズド学習
システムにおいては、入力されたグリフサンプルは、
「セグメント化」されること即ち分離されており、個別
的、且つ相対的に非雑音性のグリフサンプルであること
と、学習プロセスへの入力の前の適切な文字ラベルによ
ってラベル付けされることが要求される。一般に、学習
データを準備する為のユーザインタフェースを有するソ
フトウェアは、ユーザに学習データの品質と精度の完全
なコントロールを委ねながら、ユーザが画像内のグリフ
サンプルの回りに境界ボックスを手描きし、それらにラ
ベルを割り当てるのを可能にする。

【０００９】学習データの準備の三態様の内の一つ以上
が、直接的なユーザの関与を減少する為に自動化されて
もよい。例えば、グリフサンプルのセグメンテーション
及び境界ボックスの決定がテキスト文書画像全体又はテ
キストのラインの画像若しくはワード画像に適用される
自動プロセスであってもよい。ユーザは、自動セグメン
テーションの結果を検査し、誤ってセグメント化された
サンプルを補正し、文字ラベルをサンプルへ割り当てる
機会を有することもある。

【００１０】画像モデルは、認識システムが設計される
使用可能な入力画像のセットの特性又は記述であると共
に、使用可能な画像のどの画像が所与の入力画像と最も
良く整合するかを決定するために使用され得る形式で提
供される。画像モデルは、使用可能な入力画像のセット
についての"priori （事前）" 情報を示すと共に、特定
の入力画像を定義する又は特定画像に対する解析及び認
識プロセッシングの実行結果を含むデータストラクチュ
アから区別できる。

【００１１】形式的画像モデルは、形式的文法又は有限
状態遷移ネットワークのような形式的記述言語を用いて
使用可能な画像のセットを記述する。形式的文法は、特
定の言語でのステートメント実行が許容される許容可能
フォーマット（シンタックス）を定義するルールのセッ
トである。文法は、非制限、文脈依存、文脈自由、及び
正規などのタイプ別に特徴付けられてもよいし、特別な
タイプの文法は多かれ少なかれ特定の画像モデルに適す
ることもある。

【００１２】あらゆるテキスト認識システムのデザイン
は、明示的画像モデル又は暗示的画像モデルに基づく。
画像モデルが当該モデルを使用するプロセッシングアル
ゴリズムとは無関係な方法で明示的且つ形式的に述べら
れているか又は画像モデルが画像解析動作を実行するコ
ード本文として暗示的に示されているにすぎないかにつ
いて区別される。この点において、形式的画像モデル
は、このモデルを使用するパーザコードとは無関係な明
示的データストラクチュアとして存在する文法ベース文
字ストリング解析システムにおける形式的文法に類似し
ている。

【００１３】形式的画像モデルは、ゼロ次元（０Ｄ）、
１次元（１Ｄ）、又は２次元（２Ｄ）の形式をとること
ができる。

【００１４】H. S. ベアード（Baird ）は、「自己補正
１００フォント判別手段（A Self-Correcting 100-Font
Classifier )」（1994年発行、文書認識SPIE Vol.2181
）において、ゼロ次元（０Ｄ）画像モデルを使用する
ポリフォント・リコグナイザのための特徴テンプレート
の学習へのアプローチを開示している。ベアードは、任
意の１００の字形（タイプフェース）を適度に認識でき
るポリフォント判別手段が読み取ろうとする単一だが未
知の字形を当該ポリフォント判別手段が自ら自動指定す
ることが可能な自己補正方法を開示している。この自己
補正方法は、多数の字形をＮ個の文字（シンボル）クラ
ス、｛Ｃ_i｝_i=1,Nに「程良い」精度をもって区別する
ことができるポリフォント判別手段を必要とすると共に
クラス別にラベル付けされた分離サンプル文字画像上で
学習可能な判別手段技術も必要とする。ベアードのテン
プレート学習システムは、分類及び学習プロセスへの入
力前に画像サンプルが分離されるのを必要とする、非ス
ーパバイズドで学ぶ形式である。

【００１５】「擬似２次元隠れマルコフモデルを用いた
低品質印刷文書におけるキーワードスポッティング（"K
eyword spotting in poorly printed documents using
pseudo 2D hidden Markov models" ）」（１９９４年８
月発行「パターン解析とマシンインテリジェンス」に関
するＩＥＥＥトランザクション第１６巻、Ｎｏ．８の８
４２乃至８４８ページ）において、S. Kuo（クオ）及び
O. E. Agazzi（アガツィ）（以下、クオ等と称する）
は、低品質印刷文書に埋め込まれたキーワードのロバス
トな（堅牢な）マシン認識のためのアルゴリズムを開示
している。モデルと呼ばれるテンプレートは、整合され
ようとする既知のキーワードのセットを示す。キーワー
ドモデル毎に、実際のキーワード及び他の全ての無縁ワ
ードをそれぞれ示す、"pseudo 2D hidden Markov model
s"（擬似２次元隠れマルコフモデル）及び" ＰＨＨＭs"
と呼ばれる二つの統計的モデルが生成される。本明細書
中に提供される用語の文脈において、キーワードテンプ
レートを示すＰＨＨＭは、形式的１次元画像モデルであ
る。

【００１６】文字境界情報に無関係な文字のストリング
（例えば、ワード）の認識に使用する１Ｄ画像モデルの
文脈における特徴ベースのテンプレート学習は、１９９
２年９月オランダで開催されたパターン認識についての
国際会議議事録の１１６乃至１１９ページの「隠れマル
コフモデルを用いた連結され且つ低下したテキスト認
識」において、C.ボース（Bose) 及びS.クオによって開
示されている。この文献に開示された認識方法は、公知
のアルゴリズムを用いたページレベルプロセッシングが
学習ステップの前に行われると共に分離されたワード又
はラインの画像がリコグナイザへ提供されると仮定して
おり、この認識手段は隠れマルコフモデルとして表現さ
れる形式的１Ｄモデルに基づいている。スーパバイズド
学習プロセスが開示されており、このプロセスは、各々
が隠れマルコフモデルとして表現される０Ｄモデルの個
別の特徴ベース学習テンプレートに基づく。

【００１７】米国特許第5,020,112 号及び第5,321,773
号は、形式的２Ｄ画像モデルに基づく認識システムを開
示している。「２次元の確率論的文法を用いた画像認識
（"Image Recognition Using Two-Dimensional Stochas
tic Grammars" ）」と題され且つ本発明の発明者の中の
一人、P. A. チュウ(Chou)へ与えられた米国特許第5,02
0,112 号は、２Ｄの確率論的文脈自由文法をベースとす
る２Ｄ画像モデルを用いてビットマップされた画像オブ
ジェクトを識別する方法を開示している。この米国特許
第5,020,112 号は、対応する画像内での発生確率を各々
が有する全ての対象となる可能性のある画像オブジェク
トの多数のｎ×ｍのビットマップされたテンプレートを
含むオブジェクト・テンプレート・ライブラリを開示し
ている。画像グリフは、それらの境界ボックスが有効に
オーバーラップしないという意味でセグメント化可能と
なるように要求される。形式的２Ｄ画像モデルは、矩形
の画像モデルによって画像内のオブジェクト同士の間の
空間関係を定義する生成ルールを有する確率論的２Ｄ文
法として示される。この文法は、オブジェクトのリスト
を解析して最大の発生確率を有する使用可能な解析ツリ
ーの内の一つを決定する為に使用される。学習のために
使用されようとする画像サンプルを認識プロセスがオリ
ジナル入力画像から分離し且つ認識手段による画像サン
プルの分類に基づいてセグメント化された画像サンプル
へ文字ラベルを割り当てると、学習プロセスは非スーパ
バイズドとなる。この説明に使用される用語の文脈にお
いて、テンプレートモデルはセグメンテーションベース
モデルであるので、２Ｄ画像モデルは、使用可能な画像
のセットを記述し、このセットはそれぞれが実質的にセ
グメント化できる画像オブジェクトを含まなければなら
ないし、これらの画像オブジェクトの各々はオーバーラ
ップされない境界ボックス内に実質的に含まれることが
可能でなければならない。

【００１８】本発明の発明者であるG. Kopec（コペッ
ク）とP. A. Chou（チュウ）へ与えられ、「有限状態ネ
ットワークを用いた画像認識方法（"Image Recognigtio
n Method Using finite State Networks" ）」と題され
た米国特許第5,321,773 号は、米国特許第5,020,112 号
に使用されている文脈自由文法とは反対に、正規文法に
よって画像生成を定義する確率論的有限状態遷移ネット
ワークとして示される形式的２Ｄ画像モデルを開示して
いる。２Ｄ画像モデルによって記述されたテンプレート
モデルは、図１に関して詳細に説明される文字形状の記
述及び位置決めのサイドベアリングモデルを定義してい
る。

【００１９】米国特許第5,321,773 号に使用されている
文字テンプレートの学習は、適切なテンプレート位置決
めに必要とされる特定のタイポグラフィ特性やパラメー
タの推定又は演算を含む。これらはフォント・メトリッ
ク（字体距離）と集合的に呼ばれる文字のサイドベアリ
ング及びベースラインの深さとして知られている。グリ
フの形状は、グリフのタイポグラフィーの原点が図１の
交差点２、５、６によって示された点（０、０）になる
ように位置合わせされた局所座標システムによって画定
される。グリフの文字「セット幅」は、グリフの起点位
置によって画定され、第１のグリフのグリフ原点の位置
から第２の隣接グリフの原点が連続文字画像形成時に通
常に配置される点までの変位ベクトルΔ＝（Δ_x，
Δ_y）である。ローマ字を含む大部分のインド−欧州ア
ルファベットにおいて、Δ_x＞０及びΔ_y＝０である。
図１において、文字”ｅ”の文字セット幅は変位Δ_xで
表記される。しかしながら、他の書き込みシステムにお
いて、Δ_xは、負（例えば、セム語）になることが可能
であり、又はΔ_yはノンゼロであってもよい（例えば、
東洋グリフ）。特定のαに対してΔ_y＝αΔ_xのとき、
テキストライン内のグリフ原点は同一直線上にあり、テ
キストラインのベースライン４を画定する。グリフの境
界ボックス３は、グリフを取り囲む文字座標軸によって
方向付けられた最小矩形である。タイポグラフィックグ
リフ画像の起点位置が境界ボックスのｘ，ｙ位置と必ず
しも同じ広がりをもたないことが図１によって示されて
いる。図１は境界ボックス３の外側のグリフ”ｅ”に対
するグリフ画像起点位置５と境界ボックス８の内側のグ
リフ”ｊ”に対するグリフ画像起点位置を示す。左のサ
イドベアリングは、グリフの原点から境界ボックスの左
端までの水平変位λである。同様に、右のサイドベアリ
ングは、境界ボックスの右端から次のグリフの原点まで
の水平変位ρである。これらのサイドベアリングの一つ
又は両方が負であってもよい。

【００２０】米国特許第5,321,773 号は、１１乃至１７
コラムにおいて文字テンプレートの学習を開示してお
り、この学習プロセスは、１９９３年１０月発行の画像
処理に関するＩＥＥＥトランザクションの５１０乃至５
１９ページ、G. Kopec（コペック）著の「画像の最小二
乗フォント・メトリック推定（"Least-Squares Font Me
tric Estimation from Images"）（以下、コペックの
「フォント・メトリック推定」と呼ぶ）に更に記述され
ている。開示されたスーパバイズド学習技術は、この特
許の図１４と、グリフサンプルがセグメント化可能であ
ったコペックの「フォント・メトリック推定」の図３に
示された特別に準備された入力画像を使用した。これら
のサンプルには、フォントサンプルページの各ライン内
のテキストライン及び個別文字が、テキスト画像エディ
タの単純連結成分ベースの解析手順を用いて導入される
コペックの「フォント・メトリック推定」の５１６ペー
ジに記述された事前学習セグメンテーションステップが
実行された。テキスト画像エディタによって分離された
各グリフサンプルは、入力画像内のグリフサンプルと１
対１ベースでペアリングされたサンプルを識別する順序
付き文字ラベルを含んだサンプルページの手書きで準備
されたテキスト・トランスクリプションを用いてラベル
付けされた。

【００２１】

【発明が解決しようとする課題】本発明は、学習に使用
されようとするグリフサンプルのソースとしてテキスト
文書の２次元（２Ｄ）画像を用い、グリフサンプルのラ
ベリングに関する情報のソースとして非制限形式のトラ
ンスクリプションを用い、且つ２Ｄ画像におけるグリフ
サンプルと当該トランスクリプション内の情報との関係
を定義する学習プロセスへの明示的入力として形式的２
Ｄ画像モデルを用いることによって、学習データ準備の
三態様全部へのユーザの関与を最小とし、これにより略
正確な文字ラベルが適切なグリフサンプルへ割り当てら
れる。実際、この学習技術は、グリフの２Ｄ画像ソース
及び２Ｄ画像に対応するトランスクリプションを提供す
るのとは別に、全てのユーザの学習データ準備への関与
を実質的に取り除くために実行されることができ、テン
プレートが効果的に自動生成される。

【００２２】学習プロセスへの明示的入力として形式的
２Ｄ画像モデルを使用することは、テンプレート学習の
ためのグリフサンプルのソースとして既存テキスト文書
の画像を使用する機会を提供し、これによってユーザが
サンプルの特定画像を手書き設計し準備する必要性が取
り除かれる。形式的２Ｄ画像モデルは、学習プロセスへ
の入力として受容される使用可能な２Ｄ入力画像のセッ
トに関する事前情報を示す。明示的な形式的２Ｄ画像モ
デルを使用することの重要な利点は、学習のためのグリ
フサンプルが得られる使用可能な２Ｄ入力画像のセット
を記述するときにフレキシビリティや詳細さを提供する
ことであり、このことは、広範囲の既存テキスト文書画
像が学習のために使用されてもよいことを同時に意味す
る。既存の学習技術に対する本発明の重要且つ固有の利
点は、学習のためのグリフサンプルのソースとしてのテ
キスト文書画像の使用によって、入力された２Ｄ画像内
のグリフサンプル又はテキストのラインの事前セグメン
テーション又は分離の必要性が取り除くかれることであ
る。学習プロセスは入力された２Ｄ画像内のグリフサン
プルの位置を配置するために２Ｄ画像モデルによって提
供された情報を使用し、これにより、グリフサンプルセ
グメンテーションが文書画像から通常ユーザによって手
動で行われるスーパバイズド学習システムにおいてユー
ザの学習データ準備への関与が減少される。

【００２３】学習手順への入力として明示的に定義され
る２Ｄ形式的画像モデルを用いる更なる利点は、学習の
ためのグリフサンプルのソースとして使用され得るテキ
スト文書画像のタイプ（例えば、構造的外観）が新しい
タイプの画像に関する情報を反映するように形式的２Ｄ
画像モデルを単純に変化させることによって変更され得
る、即ち、入力された画像のタイプが変化する時に学習
プロセスを実行する命令を上書きする必要がないことで
ある。本発明は、グリフサンプルの入力された２Ｄ画像
ソースに関する詳細な情報を、特定の実現においてはユ
ーザへアクセスすることができる入力されたデータスト
ラクチュアへ置く。

【００２４】学習プロセスへの入力としてのフレキシブ
ルに定義された制限されない形式のトランスクリプショ
ンの使用は、特定のトランスクリプションを明示的に準
備すること又は文字ラベルを特定のグリフサンプルへ明
示的に割り当てることをユーザに要求せずに、テンプレ
ート学習で使用されるグリフサンプルのラベルリングに
対して明示的コントロールを実行する機会をユーザに提
供する。学習技術は、最終的に正確な文字ラベルが特定
のグリフサンプルへ割り当てられるようにリテラル・ト
ランスクリプションをユーザが準備するのを可能にする
ように実現されてもよいが、この技術は、文字ラベルを
グリフサンプルへマップするために形式的２Ｄ画像モデ
ルによって必要とされる情報を含む適切なトランスクリ
プションをユーザが簡単に選択できるようにもっと一般
的な方法で実現され得る。

【００２５】既存の学習技術に対する本発明の学習技術
の他の重要な利点は、本発明が、従来のスーパバイズド
学習システムにおいて使用された１対１のシーケンスの
文字ラベルより広い範囲の学習用トランスクリプション
タイプの使用を提供することである。最も単純な形式に
おいて、このトランスクリプションは、各々が文字ラベ
ルを示し、各々が１対１のペアリングにおいて２Ｄ入力
画像内のグリフサンプルとそれぞれペアリングする、ト
ランスクリプションラベルのストリングであってもよ
い。トランスクリプションは、文書プロセッシング、フ
ォーマッティング又はワードプロセッシングのアプリケ
ーションのための文書の構造的ピースを識別するタグと
して知られるマークアップ（markup）情報を含むことも
でき、このタイプのトランスクリプションは本明細書中
において「タグ・トランスクリプション」と呼ばれる。

【００２６】

【課題を解決するための手段】従って、本発明によれ
ば、複数の文字テンプレートを学習するためのマシン動
作方法が提供されている。この方法によって動作される
マシンは、命令データを含むデータを記憶するメモリデ
バイスと、前記メモリ内に記憶されたデータへアクセス
すると共に前記マシンを動作するための命令を実行する
ために連結されたプロセッサと、を有する。

【００２７】本発明の学習技術の重要な利点は、文字画
像の境界ボックスの識別に加えて又はその代わりに文字
画像の起点位置の識別を必要とする文字形状の記述又は
位置決めのサイドベアリングモデルのようなテンプレー
トモデルによって定義される文字テンプレートの学習へ
の学習技術の特定アプリケーションである。サイドベア
リング文字テンプレートモデルに基づいた学習文字テン
プレートは、２Ｄ画像内で生じるグリフサンプルの画像
の起点位置を知るだけで効果的に達成されるので、特定
の文字テンプレート内に含まれようとするピクセルを識
別するためにグリフサンプルの周辺に境界ボックスを決
定することに頼る必要がない。従って、本発明の学習技
術の一つの実現は２段階プロセスである。第１のステッ
プは形式的２次元モデルとトランスクリプションを使用
して、２Ｄ画像内のグリフサンプルの画像起点位置を識
別し且つこのグリフサンプル画像起点位置へ文字ラベル
を割り当てる。この実現は、グリフサンプルが２次元入
力画像内に発生する場所に関する情報を事前に持たずに
グリフサンプルの画像起点位置を決定する。

【００２８】この実現の第２のステップにおいて、第１
のステップの出力であるラベル付けされたグリフの起点
位置が、次に、学習されたテンプレートを生成する新し
いテンプレート構成プロセスへ入力される。２値文字テ
ンプレートを学習する既存の学習システムにおいて、境
界ボックスの使用によるグリフサンプルのセグメンテー
ションは、一般に、周知のピクセル平均化プロセスを用
いて、複数の文字の分離サンプルから相対的に判りやす
い文字テンプレートの決定を許容する。本発明の学習技
術においては、グリフサンプルのグリフ起点位置を決定
するだけでよく、グリフサンプル周辺の境界ボックスを
決定することによって２Ｄ入力画像内のグリフサンプル
のセグメンテーションを実行する必要がないのである。
従って、グリフサンプル境界を知ることに依存する既存
のビットマップ平均化技術を使用することができない。
本発明の技術は、グリフセグメンテーションの関数的結
果をビットマップされたテンプレートの実際の構成と本
質的に結合させる、新しいテンプレート構成技術を用い
てグリフサンプルの画像起点位置だけに関する情報から
２値文字テンプレートを生成する技術である。この技術
において、２値文字テンプレートを記憶するのに適した
縦及び横の寸法を有するテンプレート画像領域と呼ばれ
るテンプレートピクセル位置のアレイが、学習される各
文字テンプレートごとに生成され、各文字テンプレート
に対するグリフサンプルの内の一つを各々が含む２Ｄ入
力画像内のサンプル画像領域を文字テンプレート毎に決
定するように使用される。テンプレート画像領域は、テ
ンプレート起点位置として指定されたテンプレートピク
セル位置を有し、グリフサンプルを含む２Ｄ入力画像内
のサンプル画像領域はテンプレート画像領域の局所座標
システムに相対して決定され、これにより、グリフサン
プルの画像起点位置が、当該テンプレート画像領域内の
テンプレート起点位置のピクセル位置と同じ相対的ピク
セル位置をサンプル画像領域内に有することになる。グ
リフサンプル文字セット内の文字の内のそれぞれ同じ文
字を示すサンプル画像領域の全てはサンプル画像領域の
集合と呼ばれる。この集合の中の各サンプル画像領域
は、全ての他のサンプル画像領域に位置合わせされ、画
像起点位置においては、その文字のためのテンプレート
に位置合わせされる。２値文字テンプレートは、前景ピ
クセルカラー値をテンプレート画像領域の内の選択され
た領域内のテンプレートピクセル位置へ割り当てること
により文字テンプレート毎に位置合わせされたサンプル
画像領域の集合から略同時期に生成され、このテンプレ
ート画像領域の内の選択された領域は、サンプル画像領
域に含まれたそれぞれペアの位置合わせされたサンプル
ピクセル位置を用いて演算されたテンプレート補助測定
を基本にして選択される。

【００２９】本発明の学習技術が、文字位置決めのため
の文字画像起点位置を使用する文字テンプレートモデル
によって記述された学習文字テンプレートに用いられる
時、本発明の学習技術から得られる幾つかの利点及び利
益がある。グリフの２Ｄ入力画像ソースに関する「事
前」情報を提供する明示的な形式的２Ｄ画像モデルは、
グリフサンプルのグリフ画像起点位置を検出するプロセ
スにおいて入力画像内のノイズによる妨害を最小とす
る。更に、テンプレート構成前のセグメンテーション・
ステップ除去により、ノイズのある画像でセグメンテー
ションを実行する時に導入されるセグメンテーション・
エラーを除去し、多様な品質の既存テキスト文書の画像
がグリフサンプルのソースとして使用されるのを可能に
する。ノイズのある画像内で発生する振れたり、途切れ
たり、併合されるグリフサンプル、又は文字画像が連結
されるように設計されたフォント内で自然発生する併合
されたグリフサンプルを巧妙に処理する。このテンプレ
ート連結プロセスは、２Ｄ入力画像のテキスト内で発生
する複数のグリフサンプルを使用すると共にこれらのテ
ンプレートを略同時期に生成するので、当該画像内のノ
イズから得られる一つ又は二つの振れたり途切れたり併
合されるサンプル内で発生する無縁又は紛失ピクセル
は、これらの低品質サンプルが他のノイズなしの高品質
サンプルによって処理される時に、学習された文字サン
プルの品質に殆ど影響を与えない。更に、この新しいテ
ンプレート構成方法はグリフサンプル毎に実際の境界ボ
ックスを見つけることを必要としないので、容易にセグ
メント化されない潜在的により広い範囲のシンボルセッ
ト、アルファベット、及び文字フォントが本発明の学習
技術によって供給されることができ、本発明の学習技術
はまた、既存テキスト文書の広範囲な画像がグリフサン
プルのソースとして使用されるのも可能にする。

【００３０】本発明の学習技術の一つの実現において、
学習のためのグリフサンプルのソースとして作用され得
る使用可能な画像のセットのストラクチュアを記述する
形式的２Ｄ画像モデルが、ペアのノード同士の間の一続
きのノードと遷移を含む有限状態遷移ネットワークの形
式を有するマルコフ（Markov) ソースとして示される。
文字テンプレート、メッセージストリング、遷移確率、
及びベクトル変位を含む遷移データアイテムがネットワ
ーク内の各遷移に対応付けられる。グリフサンプルに割
り当てられようとする文字ラベルに関する情報が導入さ
れ得るトランスクリプションのセットは有限状態遷移ネ
ットワークとしても示され、この有限状態遷移ネットワ
ークにおいて、各遷移は、代替トランスクリプションに
対して使用可能なトランスクリプション・ラベルに対応
付けられる。形式的２Ｄ画像モデルがトランスクリプシ
ョンの入力セットと共に使用可能な入力画像の相対的に
小さなセットを記述するために、一つ以上のトランスク
リプション・ラベルが、形式的２Ｄ画像モデルにおける
遷移に対応したメッセージ・ストリングに関連してい
る。この学習技術は、トランスクリプションのセットに
よって制約された時、２Ｄ画像モデルを介して最良の経
路を提供する遷移のセットを見つけるために形式的２Ｄ
画像モデルを使用する。各グリフサンプルの画像起点位
置は、このサンプルに対するそれぞれの文字ラベルと一
緒に最良の経路を形成する遷移のシーケンスから識別さ
れ、次いでこのラベル付けされたグリフ画像起点位置デ
ータは上記の新しいテンプレート構成プロセスへの入力
として使用される。

【００３１】本発明の態様は、認識システムに使用する
ための文字テンプレートのセットを学習するマシンを動
作する方法であって、前記マシンが、プロセッサとデー
タを記憶するメモリデバイスとを含み、前記メモリデバ
イス内に記憶されたデータが、前記マシンを動作するた
めに前記プロセッサが実行する命令データを含み、前記
プロセッサが、前記メモリデバイス内に記憶されたデー
タにアクセスするために前記メモリデバイスに連結され
ており、前記プロセッサを動作して、以下「グリフサン
プルの２Ｄ画像ソース」と呼ばれる複数のグリフサンプ
ルを含む２次元画像を定義する画像定義データストラク
チュア内に発生する各グリフサンプルのグリフサンプル
ピクセル位置を決定するステップであって、前記グリフ
サンプルの２Ｄ画像ソースがグリフの単一ラインより大
きな縦寸法を有し、前記グリフサンプルの２Ｄ画像ソー
ス内に含まれる各グリフサンプルが以下「グリフサンプ
ル文字セット」と呼ばれる複数の文字セット内の文字の
それぞれの画像インスタンスであり、学習される文字テ
ンプレートのセットの各々が前記複数のグリフサンプル
文字セット内の文字のそれぞれを示すと共に前記グリフ
サンプル文字セット内のそれぞれの文字を示す文字ラベ
ルデータアイテムにより識別され、前記プロセッサが、
前記各グリフサンプルのグリフサンプルピクセル位置を
決定する時、前記マシンの前記メモリデバイス内に記憶
された、以下「２Ｄ画像ソースモデル」と呼ばれる２次
元画像ソースモデル・データストラクチュアを使用し、
前記２Ｄ画像ソースモデルが、２次元（２Ｄ）画像のセ
ットの空間的画像ストラクチュアを文法としてモデリン
グし、前記グリフサンプルの２Ｄ画像ソースが、前記２
Ｄ画像ソースモデルによってモデリングされた２Ｄ画像
のセットの内の一つであり、前記２Ｄ画像ソースモデル
が、前記グリフサンプルの２Ｄ画像ソース内で発生する
複数のグリフの空間的位置決めをモデリングする空間的
位置決めデータを含み、前記プロセッサが、前記各グリ
フサンプルのグリフサンプルピクセル位置を決定するた
めに前記空間的位置決めデータを使用する、ステップを
有し、前記プロセッサを動作して、前記グリフサンプル
の２Ｄ画像ソース内で発生する前記各グリフサンプルの
グリフサンプルピクセル位置とペアリングされた以下
「それぞれペアリングされたグリフラベル」と呼ばれる
グリフラベルデータアイテムを生成するステップであっ
て、前記それぞれペアリングされたグリフラベルが前記
グリフサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされたグリ
フラベルを生成する時、前記グリフサンプルの２Ｄ画像
ソース内で発生するグリフのそれぞれを前記グリフサン
プル文字セット内の文字を示すグリフラベルとマッピン
グする前記２Ｄ画像ソースモデル内に含まれたマッピン
グデータを使用し、前記プロセッサが、前記それぞれペ
アリングされたグリフラベルを生成する時更に、前記グ
リフサンプルの２Ｄ画像ソースに対応し且つ以下「トラ
ンスクリプション・ラベル」と呼ばれるトランスクリプ
ションラベル・データアイテムの順序付き配列を含む、
以下「トランスクリプション」と呼ばれるトランスクリ
プション・データストラクチュアを使用し、前記プロセ
ッサが、グリフラベルを前記各グリフサンプルのグリフ
サンプルピクセル位置とペアリングするために前記トラ
ンスクリプション及び前記マッピングデータを使用す
る、ステップを有し、前記プロセッサを動作して、前記
それぞれペアリングされたグリフラベルによって識別さ
れた前記グリフサンプルの２Ｄ画像ソース内で発生する
前記グリフサンプルのグリフサンプルピクセル位置を用
いて前記グリフサンプル文字セット内の文字のそれぞれ
を示す文字テンプレートのセットを生成するステップで
あって、各それぞれがペアリングされたグリフラベル
が、前記文字テンプレートの各々に対する学習データサ
ンプルとしてグリフサンプルピクセル位置を識別する、
ステップと、を備える文字テンプレート学習マシン動作
方法である。

【００３２】

【発明の実施の形態】本明細書中においては、用語「デ
ータ」又は「データアイテム」は、情報を示す又は情報
を含む物理的信号を称する。第２のデータアイテムが第
１のデータアイテムから得られる時、第１のデータアイ
テムを用いて第２のデータアイテムにアクセスできる
時、第１のデータアイテムを復号することにより第２の
データアイテムが得られる時、又は第１のデータアイテ
ムが第２のデータアイテムの識別子であり得る時、デー
タの第１のアイテムは、第２のデータアイテムを「示す
（indicate）」。例えば、図３の有向矢印３６は、文字
テンプレートデータストラクチュア２０内の文字ラベル
データアイテム２８が文字”ａ”の画像を描く文字テン
プレート２２を示すことを図示している。データアイテ
ムが、各々が識別可能なアイテムの内の多くとも一つと
マップされ得るデータアイテムのセットの内の一つであ
る場合、当該データアイテムは、識別可能なアイテムの
セットの内の一つを「識別する」か又は当該識別可能な
アイテムのセットの内の一つの「識別子」になる。例え
ば、図３において、文字ラベルデータアイテム２８は、
文字テンプレート２２を識別するように命令されてもよ
い。

【００３３】画像を定義するデータは、「画像定義デー
タ」と呼ばれてもよい。例えば、二次元（２Ｄ）アレイ
は、このアレイ内の各データアイテムが画像の各位置の
カラーを示す値を付与することで、画像の全て又は画像
のいかなる部分をも定義することができる。このタイプ
の画像表示（representation）において、このような画
像位置の各々は、従来、「画像素子」又は「ピクセル」
と呼ばれ、画像の小さな固有領域を示す。一般に、ブラ
ック＆ホワイト（白黒）の２値画像においてピクセルの
値は黒又は白を示し、黒は前景カラーであり且つ画像内
のそれぞれのマーク又はアクティブ位置を示すように意
図されると共に、白は背景カラーである。黒は前景ピク
セルカラーとして使用される一般的なカラーなので、本
明細書中の説明を通しては、明示的に表記される場合を
除いて、黒ピクセルと前景カラーに関する言及は置換可
能に使用される。ピクセルを定義するデータアイテムの
２Ｄアレイによって示されるプロセッサ制御システムに
おける画像は、「ビットマップ画像」又は「２値画像」
と呼ばれる。

【００３４】用語「ディスプレイ特性」は、ディスプレ
イ装置によって生成されるあらゆる人間の知覚を称し、
単一ディスプレイ特性を含み、画像内のディスプレイ特
性のパターンを共に形成する複数のディスプレイ特性を
含んでいてもよい。「ディスプレイ・オブジェクト」又
は「オブジェクト」は、可干渉性（コヒーレントな）単
一物として知覚可能なディスプレイ特性である。画像
は、この画像の提示（presentation）が特徴又はオブジ
ェクトの知覚を生成することができる場合、ディスプレ
イ特徴又はオブジェクトを「含む」。

【００３５】本明細書中において使用される「文字（ch
aracter ）」は、単一で、ディスクリート（離散的）
な、抽象的な、エレメント又はシンボルを意味する。例
えば、文字は、書き込み又はプリント形式の言語で出現
する抽象的なシンボルを含むことができる。言語におけ
る文字は、アルファベットや数を示すエレメントだけで
なく、句読点、区分発音符、等式のような数学的表記に
使用される数学的且つ論理学的シンボル、及び書き込み
又はプリント形式の言語に使用される他のエレメントも
含むことができる。より一般的には、文字は、英数字の
エレメントの他に、表音文字、表意文字、又は象形文字
のエレメントを含むことができる。例えば、象形文字言
語におけるシンボルと音楽記号を示すシンボルとが、用
語「文字」に含まれる。特定の言語、又は音楽のような
他のシンボル表記に関連する文字の全てが、「文字セッ
ト」を備える。

【００３６】「文字コード」は、プロセッサに対して文
字（抽象的シンボル）を定義する又は示すプロセッサ制
御マシン又はシステムにおけるデータアイテムである。
言語に属する文字セットのような文字セットの符号化
は、当該セット内の文字毎にそれぞれの文字コードを含
む文字コードのセットの定義を必要とする。文字コード
のセットの例は、英語の言語（以下、英語と呼ぶ）を構
成するシンボルに対するアスキー（ASCII)コードのセッ
トである。

【００３７】「グリフ（glyph ）」は、例えば、用紙又
はディスプレイスクリーンのようなマーキング媒体へ画
像として実現される文字の、単一インスタンス又は例で
ある。文字の画像が印字、走査、複写、又はファクスさ
れる時、当該文字の画像がどのように生成されるかにつ
いて種々のファクタが影響を与え得るので、テキスト画
像内の文字の一つのグリフが、当該テキスト画像内の同
じ文字の他のグリフと一致しないこともある。

【００３８】用語「複数のグリフの入力された２Ｄ画像
ソースを定義する画像定義データ」（以下、「グリフサ
ンプルの２Ｄ画像ソース」、「２Ｄ画像データストラク
チュア」又は単に「２Ｄ画像」と称する）は、プロセッ
サ制御マシンのメモリデバイス内への記憶に適したデー
タストラクチュアを称する。データストラクチュアは、
文字の複数のビットマップ表示が画像により定義される
２Ｄ空間内に発生する２Ｄ画像を定義する。この２Ｄ画
像データストラクチュアの構成は、個々のピクセル位置
がプロセッサによってアクセスできるようにされている
が、個々のグリフを備えるピクセルはプロセッサへアク
セスできるデータのユニットとして初めは識別されない
し、また、２Ｄ画像内の特定のｘ，ｙ座標位置がグリフ
内に含まれたピクセルの内の一つを示すか否かについて
の情報もプロセッサは初めは入手できない。グリフサン
プルの２Ｄ画像ソースは、本発明に従って文字テンプレ
ートを学習するために使用されるグリフサンプルの入力
されたソースである。２Ｄ画像は概念的には文書のペー
ジに類似しており、グリフを２Ｄ空間に縦そして横に分
散させることで、実際の物理的ページの画像を頻繁に示
す。２Ｄ画像はグリフを含むだけに限定されない。従っ
て、グラフィカル・オブジェクト若しくは形状、絵、ハ
ーフトーン（中間調）画像、線画、写真、他の絵画的エ
レメント、又はノイズを構成する画像のような他の画像
オブジェクトが、グリフの入力された２Ｄ画像ソース内
に含まれてもよい。

【００３９】図２は、英語から成る文字セット内の文字
のビットマップ表示を含む２Ｄ画像データストラクチュ
ア１０を示す。図２において、２Ｄ画像１０内の英字
（英語の文字）の各ディスクリートな表示は、グリフで
ある。グリフ１２及び１４は、これらのグリフのそれぞ
れの画像を構成する個々のピクセルの概略的な表示を示
すように拡大されている。図２における２Ｄ画像１０
は、新聞の記事を走査することによって生成された２値
画像を示すデータストラクチュアの部分を示すと共に、
この２Ｄ画像内に含まれたラインセグメント１６、ノン
グリフ（nonglyph））を備えるピクセルを含む。

【００４０】「テンプレート」又は「文字テンプレー
ト」は、文字のビットマップされた画像を示すデータス
トラクチュアである。ビットマップされた文字テンプレ
ートの「サポート」は、テンプレートが背景とは異なる
ピクセル位置のセットである。「文字ラベル」は、文字
セット内の文字の一つを文字のビットマップされた画像
を示すそれぞれの文字テンプレートを用いて固有に識別
する情報を示すデータアイテムである。文字ラベルは、
テンプレートを識別するためにASCII コードのような文
字コードを示してもよいし、又は文字セット内の文字の
特定の一つのビットマップされた画像を示すテンプレー
トとして当該テンプレートを固有に識別する、フォント
識別情報、サイズ情報、又はタイプスタイル情報のよう
な他の情報を示すこともある。「ラベル付けされた文字
テンプレートのセット」又は「文字テンプレートのセッ
ト」は、少なくとも一つの文字テンプレートと、文字テ
ンプレートを固有に識別するそれぞれの文字ラベルと、
を含むデータストラクチュアである。

【００４１】図３は、英語の文字セット内の文字を示す
ラベル付けされた文字テンプレートのセット２０を示
す。文字テンプレート・データストラクチュア２２、２
４、及び２６は、文字テンプレート２２から文字ラベル
２８への例示した有向矢印３４によって示されているよ
うに、文字ラベルデータアイテム２８、３０、及び３２
をそれぞれ示す。文字ラベルデータアイテム２８、３
０、及び３２の各々における識別情報は引用符に囲まれ
た文字として図示されている。この表示は、文字の画像
を示すピクセルと区別されるようにプロセッサ制御マシ
ンのデータメモリ内に記憶されるそれぞれの文字コード
を示すために本明細書の図中に使用されている。

【００４２】完全な文字を示すピクセルの明示的２Ｄア
レイに対して任意の方法で文字テンプレートを示すデー
タストラクチュアは、図３の文字テンプレートの図に限
定されない。テンプレートは、縦のストローク、接合部
（ジョイン）、アセンダ、ディセンダ、及びカーブ部の
ようなビットマップされた文字の構成部分の連結から構
成されてもよい。テンプレートは、（明示的２Ｄアレイ
の）出力としての完全な文字を示すピクセルの明示的２
Ｄアレイを生成する形式的モデルによって示されてもよ
い。

【００４３】本明細書中に使用されているように、「ト
ランスクリプション・データストラクチュア」又は「ト
ランスクリプション」は、固有のメッセージストリング
Ｍを示すデータストラクチュアである。メッセージスト
リングＭは、各々が複数の文字セット内の文字の内の少
なくとも一つを示す、複数のメッセージサブストリン
グ、ｍ₁、ｍ₂、．．．ｍ_nを含む。各ストリングｍ_i
は、「トランスクリプション・ラベル・データアイテ
ム」として又は単に「トランスクリプション・ラベル」
として呼ばれる。形式的２Ｄ画像が、トランスクリプシ
ョン内の文字によって示される情報と共に、グリフの入
力された２Ｄ画像ソース内の一つ以上のグリフサンプル
と、学習される文字テンプレートのセット内の文字テン
プレートを示す一つ以上の文字ラベルと、の間でマッピ
ングを設定する時、当該トランスクリプションは、（以
下に定義される）形式的２Ｄ画像ソースモデルに「対応
付けられる」といわれる。用語「マッピング」は、第１
のセットの各メンバを第２のセットの単一メンバと対応
させる二つのセット間で設定される対応のルールを称す
るため、本明細書中では数学的意味で用いられている。
トランスクリプションが、トランスクリプションラベル
の順序がトランスクリプションタイプの定義により明示
的に示されたタイプのトランスクリプションでない場
合、トランスクリプションラベルは、対応付けられる２
Ｄ画像において、互いに、又はグリフサンプルに対し
て、含意又は推論される順序を持たない。

【００４４】トランスクリプションは、トランスクリプ
ション・データストラクチュアが以下の二つの条件の内
の一つを満たした時、グリフの特定の入力された２Ｄ画
像ソースに「対応付けられる」といわれる。（１）トランスクリプション・データストラクチュア
が、入力された２Ｄ画像上で実行される認識動作の出力
から生成される又は生成されることができる。認識動作
は、特定の２Ｄ画像上で実行されるコンピュータによる
認識又は復号動作のようなプロセッサ制御であってもよ
い。或いは、認識動作はプロセッサ制御マシンを用いて
ユーザによって実行されてもよい。例えば、ユーザは、
２Ｄ画像を目視検査することによって、及び文字コード
を示す信号を生成するキーボードのような従来の入力デ
バイスを用いて文字コードを入力することによって、ト
ランスクリプション・データストラクチュアを生成して
もよい。（２）トランスクリプション・データストラクチュア
は、２Ｄ画像を生成する文書フォーマッティング動作の
ような画像レンダリング動作への入力ソースであるデー
タストラクチュアから生成される又は生成されることが
できる。トランスクリプションが対応付けられる入力さ
れた２Ｄ画像は、「対応付けられる２Ｄ画像」と呼ばれ
る。

【００４５】「リテラル・トランスクリプション」はト
ランスクリプション・ラベルの順序付きシーケンスを含
む。これらのトランスクリプション・ラベルの各々は、
学習されるテンプレートのセット内の文字テンプレート
に対して文字ラベルを示す。これらのトランスクリプシ
ョン・ラベルの略全ては、トランスクリプション内でシ
ーケンシャルな発生順で取り込まれて、対応付けられる
入力された２Ｄ画像の目視検査によって、対応付けられ
る画像内で発生するそれぞれの個別のグリフとペアリン
グされることができ、当該対応付けられる画像は、グリ
フが対応付けられる２Ｄ画像の読み取り順に合わせたシ
ーケンスで取り込まれる時にトランスクリプション内の
それぞれの文字ラベルによって示された文字を示す。図
４は、グリフ１０（図２）の２Ｄ画像ソースに対応付け
られると共に、トランスクリプション・ラベルの単一順
序付きシーケンスを含むリテラル・トランスクリプショ
ン６０を示す。復帰改行文字６２は、この復帰改行文字
の後に続く文字ラベルが対応２Ｄ画像の次行に位置決め
されるペアリングされたグリフサンプルを有することを
示すラベルである。復帰改行文字は、一般にテキストエ
ディタを用いてテキスト文書を準備するユーザにより、
テキストを示すデータストラクチュアへ挿入される。

【００４６】「ノンリテラル・トランスクリプション」
は、リテラル・トランスクリプションではないグリフの
入力された２Ｄ画像ソースに対応付けられるトランスク
リプションのタイプである。ノンリテラル・トランスク
リプションは、例えば、エラーではないと共に目視検査
によって対応付けられる２Ｄ画像内のグリフとペアリン
グされることができない文字を示すトランスクリプショ
ン・ラベルを含んでいてもよい。非文字ラベルデータ
は、学習されるテンプレートによって示される文字セッ
ト以外の文字セット内の文字を示すことができる。例え
ば、対応付けられる入力された２Ｄ画像内のグリフとし
て出現する特別の文字、数学的シンボル、又は音楽記号
が、拡張された文字セット内の文字として又は一つ以上
のASCII 文字のストリングとして、トランスクリプショ
ンラベル内に示されてもよい。ノンリテラル・トランス
クリプションは、対応付けられる２Ｄ画像内の幾つかの
グリフに対するトランスクリプション・ラベルを意図的
に省略できる。このタイプのトランスクリプションの例
は、事前プリント形式の２Ｄ画像と対応付けられる例で
あり、この例において、トランスクリプションは、この
形式のフィールドへ挿入される情報に対するトランスク
リプション・ラベルは含むが、命令情報を提供するグラ
フィック・エレメント及びグリフのような、この形式上
の事前情報として出現するものに対するトランスクリプ
ション・ラベルは省略する。

【００４７】「タグ・トランスクリプション」は、非文
字ラベルデータが「タグ」又は「タグデータ」と呼ばれ
る情報を示すグリフの対応付けられる２Ｄ画像ソースの
ノンリテラル・トランスクリプションのタイプである。
この「タグ」又は「タグデータ」と呼ばれる情報は、文
書プロセッシング動作によって変換されると、対応付け
られる２Ｄ画像のフォーマットにおいて、又は当該対応
付けられる２Ｄ画像内のグリフの一部として、知覚可能
なディスプレイ特徴を生成する。タグデータは、ペー
ジ、段落、及び区切れの箇所（line breaks ）のような
２Ｄ画像のフォーマット特性とこの２Ｄ画像内のグリフ
の位置の決定論的な行間隔とを識別する情報、グリフが
出現するフォント又はフォントバリエーションのような
一つ以上のグリフの一つ以上の外観属性を指定する情
報、又は文書がフォーマットされる時にトランスクリプ
ション内の明示的トランスクリプションラベルが全くマ
ップされることができない２Ｄ画像内のグリフを生成す
る結果を生じる情報、を含む。タグによって示され得る
種々のタイプの情報は、本明細書中では、一般に、「マ
ークアップ情報」と呼ばれる。タグデータは、一般に、
文書プロセッシングシステム同士の間で文書ストラクチ
ュア及び内容を示すための標準文書交換フォーマットと
して作用するように意図されたデータストラクチュア内
で発生する。このようなデータストラクチュアは、入力
文書データストラクチュア又は入力画像のいずれかを標
準交換言語で文書を示すデータストラクチュアへ変換す
る動作の出力として一般に生成される。このような言語
の例は、SGML（Standard Generalized Markup Languag
e）、ODA （Office Document Architecture）、HTML（H
ypertext Markup Language ）を含む。タグデータはデ
ータストラクチュアにおいて発生し、当該データストラ
クチュアは、マークアップ言語を使って生成された文書
データストラクチュア内で発見される文書のフォーマッ
ト及び論理的ストラクチュアのための命令をデータスト
ラクチュア内に含む自動テキスト・レイアウトシステム
とも呼ばれる文書指定及びフォーマッティングシステム
によって使用又は生成される。このような文書指定及び
フォーマッティングシステムの例は、GML(Generalized
Markup Language)、TeX 及びLaTeX を含む。

【００４８】図５は、テクニカル・ディクショナリのデ
ィクショナリ・ページのためのタグ・トランスクリプシ
ョン・データストラクチュア４０を示す。タグ・トラン
スクリプション４０は、図６の２Ｄ画像５０として示さ
れたディクショナリ・ページの画像と対応付けられる。
タグ・トランスクリプション４０は、ディクショナリ・
エントリのエントリ、ネーム、カテゴリ、及びボディそ
れぞれの構造的部分を識別するタグ・データを示すトラ
ンスクリプション・ラベル４２、４４、４６、及び４８
を含む。

【００４９】図５及び図６は、トランスクリプション内
の明示的トランスクリプション・ラベルは、２Ｄ画像内
のグリフとマップされることができない当該２Ｄ画像内
のグリフが結果的に発生されるタグ・データの例を示し
ている。画像５０は、文字"electr"を描くグリフのシー
ケンスの回りに左右の括弧５４及び５５をそれぞれ含
む。タグ・トランスクリプション４０は左右の括弧５４
及び５５に対するトランスクリプション・ラベルを含ま
ないが、メッセージ・サブストリング"electr"がワード
エントリのためのカテゴリ情報であることを示すトラン
スクリプション・ラベル４７を含むことが理解され得
る。文書プロセッシング動作によってフォーマッティン
グ情報として解釈される時、メッセージ・サブストリン
グ" ＼category" は、画像５０内のディスプレイ・オブ
ジェクトとして左右の括弧５４及び５５を生成したと推
論される。

【００５０】「トランスクリプションのセット」は同じ
タイプの少なくとも二つのトランスクリプションを称
し、これらのトランスクリプションの全てが単一２Ｄ画
像に対応付けられる。数学的にトランスクリプション・
データストラクチュアのセットは正規セットであるとみ
なされる。図７は、グリフ１０の入力された２Ｄ画像ソ
ースにおいて"from"を示すグリフに対して"F(r｜n)(om
｜orn)" の代替トランスクリプション・ラベル７２を提
供して、画像１０に対して４つのトランスクリプション
・データストラクチュア７０のセットを生成する、単一
トランスクリプション・メッセージの直截的ケースを示
す。

【００５１】「形式的トランスクリプション・モデル」
又は「トランスクリプション・モデル」は、トランスク
リプションのメッセージストリングを、有限状態遷移ネ
ットワーク又は文法のような正規セットとして示すデー
タストラクチュアである。例えば、有限状態遷移ネット
ワークは、各遷移がトランスクリプション内のトランス
クリプション・ラベルに対応付けられる多数の遷移を有
している。

【００５２】トランスクリプションのセットは、形式的
トランスクリプションモデルとして示されてもよい。図
８におけるモデル８００は、図７におけるトランスクリ
プション７０のセットのための有限状態遷移ネットワー
クの例を図示し、トランスクリプション７０内のワー
ド"From"に対して発生する遷移を示す。

【００５３】「形式的２次元画像ソースモデル」又は
「形式的２Ｄ画像モデル」は、２Ｄ画像内のグリフサン
プルのグリフ位置とそれぞれの文字ラベルによって示さ
れる文字のサンプルとしてグリフを識別するテンプレー
トの文字ラベルとの間でマッピングを定義するデータス
トラクチュアである。形式的２Ｄ画像モデルは、本明細
書中の学習技術及びシステムへの明示的入力であり、且
つ形式的文法又は有限状態遷移ネットワークのような形
式的記述言語の形態における命令を含み、これらの命令
は、認識システムが定義される使用可能な２Ｄ入力画像
のセットとこの使用可能な画像のセットに対応する使用
可能なトランスクリプションのセットに関して、構造的
特徴及び関数的特性を含む「事前」情報を特徴とするか
又は記述する。形式的２Ｄ画像は、学習されようとする
テンプレートをモデリングする文字テンプレートモデル
を記述すると共に、文字テンプレートの初期セットを含
む。形式的２Ｄ画像モデルは、それを使用するパーザの
命令（即ち、コード）とは無関係の明示的データストラ
クチュアとして存在する文法ベースの文字ストリング解
析システムにおける形式的文法に類似している。

【００５４】テキストライン分離又は個別のグリフ分割
の事前学習ステップを全く必要としないように、形式的
２Ｄ画像モデルは、本発明が２Ｄ画像の定義域内で動作
するのを可能とする。構造的には、本発明の学習技術及
びシステムに使用するのに適したモデルのタイプである
ように意図された形式的２Ｄ画像モデルが、使用可能な
２Ｄ画像のセット内に含まれる画像内の使用可能な画像
オブジェクト（例：グリフ、グラフィカル・オブジェク
ト、写真、他）が２Ｄ画像内でいかにして空間配列され
るかについての画像位置情報を定義する。頻繁である
が、必ずしもそうとは限らずに、画像が英語の文書を示
す時、モデルによって定義されるグリフ位置情報は、こ
の文書が人間によって読み取られる時の当該文書に対す
る従来の読取り順と一貫性がある。下記の図示された実
施の形態において、図２におけるグリフ１０の入力され
た２Ｄ画像ソースを含む画像は矩形であり、ｘが右へ大
きくなり、ｙが下へ大きくなり、且つ上部左コーナーが
ｘ＝ｙ＝０である画像座標システム１３（図２）を有し
ていると仮定される。ノングリフ画像オブジェクトに対
する画像位置情報のモデルの記述は、所与の入力された
画像の部分又は複数の部分がグリフサンプルの使用可能
な画像位置として除去されるのを許容する。モデルのこ
の態様が広範囲の入力された２Ｄ画像がグリフサンプル
ソースとして適用されるのを許容し、当該モデルは、例
えば、プリントされた楽譜の画像、式の画像、及びビジ
ネスレター、記入用紙、電話の職業別ページのような固
定又は公知の構造的特徴を有する画像、を含む入力され
た多数の２Ｄ画像のクラスのどれか一つを記述するよう
に構成されてもよい。

【００５５】形式的２Ｄ画像モデルは、トランスクリプ
ション内のメッセージサブストリングによって示される
情報と、２Ｄ画像内に現れる文字ラベル及び画像内にサ
ブストリング毎に現れるサブストリングの外観に関する
実際のメッセージサブストリングと、のマッピングを定
義するルールのセットとして、トランスクリプションラ
ベル情報を表現する。このマッピングは、使用可能な２
Ｄ画像のセットと使用可能なトランスクリプションのセ
ットと文字テンプレートのセットとの間でマッピングを
効果的に設定し、学習技術が使用可能な２Ｄ入力画像の
内のどれか一つ、即ち、テキストストリングのラインの
どのシーケンスにおける文字のどのシーケンスが、特定
のトランスクリプションに対応付けられる特定の２Ｄ入
力画像に最良整合するかを決定するのを可能にする。こ
の最良整合情報から、モデルは、学習技術が２Ｄ画像内
のグリフサンプルの位置を決定すると共に文字ラベルを
サンプルへ割り当てるのを可能にする。学習技術によっ
て決定されなければならいグリフサンプルに関する特定
位置情報は、文字テンプレートを定義する特定テンプレ
ートモデルの関数である。テンプレートモデルは、文字
テンプレートに従ってグリフサンプルがいかにして画像
内で互いに対して空間配列されるか又は位置決めされる
かを定義する。テンプレートがセグメンテーションベー
スモデルとして定義された場合、学習技術は当該形式的
モデルによって設定されたマッピングからグリフ境界ボ
ックスを示す情報を生成することが可能でなければなら
ない。テンプレートがサイドベアリングモデルのような
ノンセグメンテーションベースモデルとして定義される
場合、学習技術は当該形式的モデルによって設定された
マッピングからグリフ起点位置を示す情報を生成するこ
とが可能でなければならない。

【００５６】学習手順への入力として使用されようとす
る形式的２Ｄ画像モデルの設計は、使用されようとする
トランスクリプションのタイプ及び内容によって影響を
受け、従って、学習データを学習手順へ提供する際によ
り一層のフレキシビリティをユーザへ許容する。トラン
スクリプションの構造的及び関数的特徴に関する形式的
２Ｄ画像モデル内に含まれる情報は、グリフサンプルと
文字ラベルの間で必要なマッピングを設定するために当
該モデルによって必要とされる情報のみであり、その情
報は、当該モデルによって定義される使用可能な画像の
セットから特定の画像を指定するために当該モデルによ
って必要とされる追加の情報でもある。トランスクリプ
ション内の情報が、グリフの対応付けられる入力された
２Ｄ画像のリテラル・トランスクリプションからさらに
遠くへ取り除かれれば取り除かれる程、正確なマッピン
グを設定するために２Ｄ画像モデル内ではもっと多くの
情報が必要とされる。

【００５７】本発明に使用されるように意図されると共
に下記の図解されている実施の形態に使用されるタイプ
の、形式的２Ｄ画像ソースモデルの実現の例は確率論的
有限状態遷移ネットワークであり、当該ネットワーク
は、正規文法としてのその生成ルールを示し、文字形状
の記述及び位置決めのサイドベアリングモデルをその文
字テンプレートモデルとして明示的に定義する。マルコ
フソースとしてのこのモデルの簡略化された一般的な説
明が、図９においてモデル８２０として略示され、本発
明の特定の実現の説明において以下により詳細に記述さ
れている。

【００５８】図１０のブロック図に示された本発明の文
字テンプレート学習方法２００は、全てが上記に定義さ
れたグリフサンプルの２Ｄ画像ソース１０と形式的トラ
ンスクリプションモデル８１０と画像モデル４０の入力
を備える。文字テンプレート学習方法２００は、文字テ
ンプレートのセット及び特定の文字セット用のこれらの
テンプレートのそれぞれの文字ラベルデータアイテムを
含む文字テンプレートデータストラクチュア２０を生成
するためにこれらの入力されたデータのソースを使用す
る。

【００５９】本発明は、グリフサンプルの２Ｄ画像ソー
スが、一般に、特定のフォントにおいて文字セット内の
固有文字の複数のサンプル画像を含み、２Ｄ画像のｘ、
ｙ座標の位置と各サンプルの文字識別を示す情報が知ら
れていた場合、これらのサンプルの特定のフォントにお
いて、２Ｄ画像内の各固有の文字毎に学習された文字テ
ンプレートが、各グリフサンプルを構成するピクセルの
セットのピクセルカラーから導入されることができる。
本発明は、２Ｄ画像に対応付けられるトランスクリプシ
ョンが、グリフサンプルのそれぞれのサンプルの文字を
識別するために使用されるかもしれない２Ｄ入力画像内
のグリフの各々に対して識別及びシーケンス情報を提供
することも認識する。本発明への入力として明示的に指
定された文法ベースの２Ｄ画像ソースモデルは、グリフ
サンプルを配置するためにグリフサンプルの２Ｄ画像ソ
ース内で発生するグリフに関する情報の空間的位置決め
を定義すると共に、２Ｄ画像内で発生するグリフのそれ
ぞれのグリフと、グリフサンプル文字セット内の文字を
示すグリフラベルの、マッピングを示すマッピングデー
タを定義する。

【００６０】文字テンプレート学習方法２００は、２Ｄ
画像１０内にグリフが発生される文字に対してのみラベ
ル付けされた文字テンプレートを生成することが可能で
あると供に、文字テンプレートが学習される文字セット
の完成度は、文字セット内の文字毎に少なくとも一つの
グリフサンプルを有するグリフサンプルの２Ｄ画像ソー
ス１０に依存する。例えば、英文字”ｊ”、”ｑ”、”
ｘ”及び”ｚ”は図２に示された２Ｄ画像１０の部分に
現れないので、文字テンプレート学習方法２００は、こ
の２Ｄ画像１０の部分のみがグリフサンプルのソースと
して使用された時はこれらのテンプレートを生成しな
い。便宜上、文字テンプレートが学習されている文字セ
ットは以下「グリフサンプル文字セット」と呼ばれて、
グリフサンプルの２Ｄ画像ソース１０内に発生するグリ
フサンプルへの依存度を示す。各学習されたテンプレー
トの品質は、一般に、このグリフサンプルの２Ｄ画像ソ
ース１０内で使用可能なグリフサンプルの数に依存す
る。

【００６１】図１１に示された文字テンプレート学習方
法の汎用ステップ２００は、ボックス２２０において、
文法ベースの２Ｄ画像ソースモデル４０によって定義さ
れる空間位置決め情報を用いて２Ｄ画像１０内の各グリ
フサンプルの位置を決定するステップを有すると供に、
ボックス２５０において、トランスクリプション７０と
２Ｄ画像１０内に発生するグリフサンプルの内の各々を
当該グリフサンプルによって示されるグリフサンプル文
字セット内の文字を示すグリフラベルへマップする２Ｄ
画像ソースモデル４０によって定義されたマッピングデ
ータとを用いて２Ｄ画像１０内の各グリフサンプルの位
置を決定するステップを有する。ステップ２２０及び２
５０の結果は、文字テンプレートが生成されるかもしれ
ない学習データであるラベル付けされたグリフサンプル
のセットを示すデータストラクチュアを生成することで
ある。次いで、ボックス２７０において、文字テンプレ
ートはラベル付けされたグリフサンプルのセットを示す
データストラクチュアを用いて構成される。文字テンプ
レート学習方法２００の特定の実現において、グリフサ
ンプルとこれらのラベルが同時期に決定されると供に、
ステップ２２０及び２５０における関数はステップ２７
０へ入力される学習データを生成するために結合される
のがビューされる。この結合された関数が点線のボック
スでステップ２２０及び２５０を囲む手順２１０によっ
て図１１に示されている。

【００６２】ステップ２２０及び２５０によって生成さ
れる学習データを示す出力されたデータストラクチュア
の編成及び内容は、文字テンプレート学習方法２００の
特定の実現の態様を反映する幾つかの相関ファクタによ
って決定される幾つかの形式の内の一つを取ってもよ
い。

【００６３】学習されている文字テンプレートの文字テ
ンプレートモデルがサイドベアリングモデルである時、
手順２１０はラベル付けされたグリフサンプルを示す学
習データを生成しなければならない。当該ラベル付けさ
れたグリフサンプルの各々は、２Ｄ画像１０内のグリフ
サンプルの画像起点位置を示すグリフサンプルの２Ｄ画
像ソース１０内のｘ、ｙ位置によって識別される。図２
１に伴う説明を手始めに詳細に記述される新しいテンプ
レートの構成技術は、ステップ２７０において、２Ｄ画
像１０内のグリフサンプルの画像起点位置を示すラベル
付けされた画像起点位置のリストを用いて２Ｄ画像文字
テンプレートを構成するために使用される。

【００６４】学習されている文字テンプレートの文字テ
ンプレートモデルがセグメンテーションベースモデルで
ある時、ステップ２２０は、２Ｄ画像１０内のグリフサ
ンプル毎に境界ボックスを発見し、ラベル付けされた境
界ボックスの座標、又は２Ｄ画像１０から抽出されたラ
ベル付けされた分離されたグリフサンプルのセットを学
習データとして生成する。任意の周知のピクセル平均化
及び閾値化技術が、ステップ２７０において、セグメン
ト化又は分離された学習データから２Ｄ画像文字テンプ
レートを生成するために使用される。一つのこのような
技術において、各サンプル内のピクセル位置毎の前景及
び背景の数が計算され、この数がサンプルの総数で割り
算され、平均値が前景又は背景の決定をもたらすかを評
価するために閾値が使用される。

【００６５】図１２に関して、米国特許第5,321,773 号
に開示されたものと同様の確率論的有限状態遷移ネット
ワークとして示される２Ｄ画像ソースモデル８３０及び
有限状態遷移ネットワーク８５０は、トランスクリプシ
ョン−画像ネットワーク８７０と呼ばれる併合された有
限状態ネットワークを生成するネットワーク併合プロセ
ス３００への入力である。併合されたネットワークは、
当該併合されたネットワークを介して遷移の最良シーケ
ンス又は経路を生成するヴィタビ復号プロセス３３０を
用いてグリフサンプル１０の２Ｄ画像ソースを復号する
ために使用される。文字テンプレート５００の初期セッ
トは復号プロセス期間中使用される。点線矢印８３２
は、前述のように文字テンプレートがネットワーク８３
０内の遷移上の属性であるかもしれないため、文字テン
プレートの初期セット５００が有限状態遷移ネットワー
ク８３０の一部であることを示す。ヴィタビ復号プロセ
ス３３０によって生成されると、プロセス３７４は、ト
ランスクリプション−画像ネットワーク８７０を介して
最良の経路を構成する遷移とこれらの遷移の２Ｄ画像１
０内で対応付けられる画像の起点位置とを識別する。プ
ロセス３８０は、非ヌル（non-null）のテンプレート属
性を有する遷移から画像起点位置とメッセージストリン
グとを決定する。これらの画像起点位置は、２Ｄ画像１
０内のグリフの推定位置を示す。学習データ即ちラベル
付けされたグリフ画像起点位置３９０は、このシーケン
スのプロセスの出力である。

【００６６】図１３におけるフローチャートは、形式的
２Ｄ画像ソースモデルとして有限状態遷移ネットワーク
を使用すると共にトランスクリプションを示すため、ト
ランスクリプションネットワーク８５０を使用する図１
１の文字テンプレート学習の実現のステップを示す。復
号ステップ３３０は、トランスクリプション−画像ネッ
トワーク８７０を介して最良の経路を決定するためにテ
ンプレートの現在セットを使用する。復号の初期反復の
間、任意の内容を有する文字テンプレートの初期セット
はトランスクリプション−画像ネットワーク８７０内の
トランスクリプションと対応するためにプロセッサによ
って発生されてもよい。ボックス３３０、３８０、４０
０、及び４９０における復号ステップ、学習データ抽出
ステップ、テンプレート構成ステップ、及び文字セット
幅決定ステップは、ボックス３８４においてテストされ
る停止条件が満たされるまで反復され続け、初期反復に
続く反復の間、復号ステップ３３０において使用される
テンプレートのセットが、テンプレート構成ステップ４
００の出力として生成されるテンプレートの現在セット
である。プロセス３７４と３８０として図１２に示され
た、２Ｄ画像１０を復号することによって生成された最
良の経路からの学習データ抽出は、図１３において組み
合わされたプロセス３８０として示されている。プロセ
ス３００、３３０、及び３８０は以下に詳細に説明され
る。

【００６７】図９に関しては、画像のセットのストラク
チュアは、画像発生を画像ソースモデル８２０としてモ
デリングすることにより形式的に捕捉され、これもマル
コフソースと呼ばれる。マルコフソースは、状態（ノー
ド、頂点）の有限セットＮと有向遷移（ブランチ、エッ
ジ）Ｂのセットから成る。各遷移ｔは、それぞれｔの先
行値（左）状態及び後続値（右）状態と呼ばれるペアの
状態Ｌ_t及びＲ_tを連結する。Ｎの二つの区分されたメ
ンバは、参照番号８２２の初期状態ｎ_Iと参照番号８２
４の最終状態ｎ_Fである。どの遷移もその先行値として
ｎ_Fを持たないため、最終状態がトラップ状態であると
仮定される。各遷移ｔは、参照番号８２６の４つの要素
から成る属性（Ｑ_t、ａ_t、ｍ_t、Δ_t）と対応付けら
れ、Ｑ_tがテンプレートであり、ａ_tが遷移確率であ
り、ｍ_tがメッセージストリングであり、参照番号８２
８で示されるΔ_tが文字のセット幅に類似するｔのベク
トル変位である。（文字セット幅の記述に付いては添付
の図１に関する前述の説明を参照。）図示されている実
現において、これらの属性の内の幾つかは特定の遷移に
対してヌルであってもよいし、画像ソースモデル８２０
の各遷移メッセージストリングｍ_tは、単一文字を含む
エンプティストリング∈、その他であると仮定され、ベ
クトル変位８２８はマイナス、ゼロ、又はプラスのスカ
ラ（scalar）成分値を有することができる。テンプレー
トＱ_tのサポート（ノンゼロのセット、前景ピクセル）
は通常局所テンプレート座標システムの起点の近くの小
さな領域内に局所化されるが、このテンプレートＱ
_tは、画像平面Ωの全体に対して定義される。

【００６８】マルコフ画像ソースモデルは完全経路上の
確率分布を定義し、

【００６９】

【外１】

【００７０】を経路πに対応するメッセージとしてメッ
セージ上の確率分布を帰納する。

【００７１】各経路πにはベクトル画像ピクセル位置ｘ
_{1 ...}ｘのシーケンスと複合画像Ｑが対応している。Ｑ
［ｘ］は、その局所座標システムの起点がｘに位置する
ようにシフトされるＱを示し、二つのテンプレート画像
の合併はこれらの二つのテンプレート画像のいずれかが
前景ピクセルを有する前景ピクセルを持っている画像で
ある。経路πに対して、

【００７２】

【外２】

【００７３】は経路の変位として定義され、

【００７４】

【外３】

【００７５】のｘ及びｙ成分をそれぞれ示す。ペア（ｘ
_i、ｔ_i）とマルコフソースの対応している遷移は、
「ラベル付けされた遷移画像起点位置」と呼ばれる。完
全経路によって定義される全てのこのようなペアのセッ
トはこの経路のラベル付けされた遷移画像起点位置のセ
ットと呼ばれる。各遷移ｔに対して、Ｎ_tはｔでラベル
付けされた経路の遷移画像起点位置の数を表し、対応し
ている遷移画像起点位置は

【００７６】

【外４】

【００７７】で示される。

【００７８】フォントは一般に文字のグリフの前景ピク
セルがテキストストリング内でオーバーラップしない
（同じ前景ピクセルを共有する）ようにデザインされる
という前提条件に基づいて、図９及び図示された実現に
おいて示されたタイプの画像ソースモデルが、（ｘ_j、
ｔ_j）において位置決めされたテンプレートのピクセル
と（ｘ_i、ｔ_i）で位置決めされたテンプレートのピク
セルの合併が全ての経路πに対してｉ≠ｊであるエンプ
ティセットとなるようにデザインされることが要求され
る。この必要条件は隣接テンプレートサポートの「テン
プレート非結合制約条件」と呼ばれてもよい。

【００７９】画像ソースモデル８２０（図９）は、双方
向である基礎的経路を介してメッセージストリングと画
像の間の関係又はマッピングを定義する。

【００８０】画像ソースモデルは、モデルによって発生
されたメッセージの言語に対して有限状態アクセプタを
定義する。従って、メッセージストリングＭが付与され
れば、

【００８１】

【外５】

【００８２】である完全経路πが存在するか否かを決定
することは簡単であり、このような経路が存在すれば、
それを見つけるのは簡単である。画像、

【００８３】

【外６】

【００８４】は、Ｍの画像である。画像ソースモデルが
メッセージ言語に対して決定論的なアクセプタを定義す
る場合、画像ソースモデルを用いたメッセージ画像形成
のプロセスは単純な手順の変換（解釈）を容認する。入
力されたメッセージ「プログラム」によって制御されな
がら、出力された画像平面内で所謂「理想的な」画像を
描く画像形成装置（イメージャ）オートメーションを想
像されたい。このイメージャのストラクチュアは、図９
に示されたタイプの有限状態画像ソースモデルによって
定義される。イメージャは、内部状態ｎ_Iにおいて出力
される画像形成平面の位置（０、０）で開始される。イ
メージャは、入力されたメッセージ内の第１の文字を検
査し、それをｎ_Iからの遷移上のメッセージラベルと比
較し、そのメッセージが入力された文字と整合されるブ
ランチを選択する。選択されたブランチと対応付けられ
たテンプレートが非ヌル（non-null）である場合、イメ
ージャは、テンプレートの起点をイメージャの現在画像
位置と位置合わせして、テンプレートのコピーを出力さ
れた画像平面上に描画する。イメージャは次にイメージ
ャの現在画像位置をブランチ変位分インクリメントし、
その内部状態を選択されたブランチの後続値ノードにな
るように更新する。このプロセスは、理想的画像、

【００８５】

【外７】

【００８６】即ち、ネットワークにわたる初期ノードｎ
_Iから最終ノードｎ_Fまでの経路が完成するまで、入力
されたメッセージの各文字に対して反復される。

【００８７】画像ソースモデル８２０は、画像デコーダ
として、画像のリテラル・テキスト・トランスクリプシ
ョン（マッチング又は論理的ストラクチュア・タグを持
たないトランスクリプション）を生成するために、参照
された画像から単純なテキストストリングを抽出するた
めに使用されてもよい。これらのテキストストリング
は、参照される画像が復号されている間、モデル８２０
を介して識別された経路内に含まれる各遷移に対応付け
られたメッセージストリング属性から抽出される。図１
４における画像ソースモデル８３０は、単純なテキスト
コラムの共通の空間的ストラクチュアを有する２Ｄ画像
のセットをモデリングすると共に、画像復号のプロセス
をより詳細に図示するために使用される。単純テキスト
コラムは、テキストラインの垂直シーケンスによって構
成され、ホワイト（背景）スペースと交互になってい
る。水平のテキストラインは、図１に示されたサイドベ
アリングモデルに応じた文字タイプセットのシーケンス
である。グリフサンプルの２Ｄ画像ソース１０は、画像
ソースモデル８３０によってモデリングされるタイプの
代表的画像である。モデル８３０は、英文テキスト用の
従来の読出し順序に追従するテキストの単一列の２Ｄ画
像を介して経路をモデリングするが、この場合、経路が
画像を介して当該画像の上部左コーナでスタートし、下
部右コーナへ進み、反復される１Ｄ（１次元）ラインの
シーケンスにおいて当該画像の左から右へ進むと仮定さ
れる。ネットワーク内のノード同士間の各遷移ｔ_iは、
図１４に示される対応付けられた４つの要素から成る属
性を［ａ_t］（Δ_t）、ｍ_t、Ｑ_tの順に有し、テンプ
レートＱ_tが一つの遷移に対応付けられる時、メッセー
ジストリングｍ_tは、当該テンプレートによって示され
る文字を識別する。これらの属性の内のいくつかはいく
つかの遷移に対してヌルであることが理解されよう。

【００８８】図１４に関しては、状態ｎ₁は垂直ホワイ
トスペースの作成に対応している。どの画像テンプレー
トもｔ₁と対応されないので、ブランチｔ₁が走査され
る度に、イメージャは出力される画像形成平面上に何も
描かないで、１行（ロー）下へ下がる。ある点におい
て、イメージャはテキストラインのトップへ到達し、ブ
ランチｔ₂に追従する。ｔ₂の変位（０、Ｂ）はカーソ
ルをテキストベースラインへ下ろす。Ｂはベースライン
より上のフォント高さである。状態ｎ₂は水平テキスト
ラインの作成を示す。ｎ₂からｎ₂までの自己遷移には
２つのタイプがある。画像テンプレートＱ_iでラベル付
けされたＦの遷移ｔ_i及び単一文字メッセージストリン
グ”ｃ_iが、出力された画像平面上に個々のグリフを描
くために使用される。これらのブランチの各々に対応付
けられる水平の変位は、文字セット幅、

【００８９】

【外８】

【００９０】である。ブランチｔ₃とｔ₄は、これらに
対応付けられるブランクテンプレートを有すると共にホ
ワイトスペースを示す。ブランチｔ₃は最小（１ピクセ
ル）幅のホワイトスペースを示し、微細な空間調整のた
めに使用される。ブランチｔ₄はフォント依存幅Ｗ_sの
実際の空間文字に対応しており、スペースメッセー
ジ””でラベル付けされる。テキストラインの終りで
は、イメージャは、ｔ₅（ラインフィード"line feed"
）を走査し、キャリッジリターン("carriage return")
状態ｎ₃を実行する。ｔ₅上のメッセージは新しいライ
ン文字("＼ｎ" ）である。ｔ₅に対応付けられる垂直の
変位はフォントデプスＤである。ブランチｔ₆の走査毎
にイメージャは１ピクセルずつ左へ移動する。最後に、
遷移ｔ₇はイメージャを状態ｎ₁へ戻し、このプロセス
は次のテキストラインにも反復される。最後のテキスト
ラインが作成された後、イメージャはｔ₈を走査して最
終状態ｎ_Fを生成する。

【００９１】グリフサンプルの２Ｄ画像ソース１０と対
応付けられた使用可能なトランスクリプションのセット
を示すトランスクリプション・データストラクチュア７
０も以下に「トランスクリプション・ネットワーク」と
呼ばれる有限状態ネットワークとして示される。トラン
スクリプション・ネットワーク８５０は、図９に示され
たタイプの有限状態画像ソースモデルの簡略化された形
式であり、この形式において、各遷移はメッセージスト
リングｍ_tに対応付けられるが、他の属性には対応付け
られない。図１５は、シンボル”＼ｎ”がニューライン
文字を示す二つのトランスクリプションストリング”ｏ
ｒｎ＼ｎ”と”ｏｍ＼ｎ”を含むセットを示しながら、
トランスクリプション７０に対してトランスクリプショ
ン・ネットワーク８５０の一部８５２の単純な例を示し
ている。画像ソースモデル８３０の場合と同様に、図示
されている実現において、トランスクリプション・ネッ
トワーク８５０の各遷移メッセージストリングｍ_tは、
単一文字を含むエンプティストリング∈、その他である
と仮定される。トランスクリプションネットワーク８５
０を示すデータストラクチュアは、ボックス２９２で、
図示された実施の形態におけるテンプレート学習方法へ
の入力として受信され且つ記憶される。トランスクリプ
ションネットワーク８５０は、従来の手動又は自動プロ
セス、例えば、有限状態ストリング文法及び遷移ネット
ワークを生成するための従来のツールを使用するプロセ
スによってトランスクリプション・データストラクチュ
ア７０から生成されてもよい。

【００９２】画像ソースモデル８３０及びトランスクリ
プションネットワーク８５０は、理想的な画像内の指定
された画像位置に配置され且つトランスクリプションと
一致しているメッセージストリングに応じて選択された
文字テンプレートのコピーの空間的配列である理想的な
画像を結合定義し、また、この理想的な画像は、当該ト
ランスクリプションが対応付けられた実際の入力された
２Ｄ画像の近似である。これにより、経路に一致してい
る理想的な画像、つまりは経路、つまりはトランスクリ
プションネットワーク８５０によって発生されるメッセ
ージストリングを発生するように復号を制約することが
可能であった場合、画像ソースモデル８３０を用いた２
Ｄ画像１０の復号が最も効率的であることがわかる。画
像ソースモデル８３０をトランスクリプションネットワ
ーク８５０に併合することにより、画像ソースモデル８
３０を用いる復号プロセスにこのような制約条件を課す
ことができる。

【００９３】ネットワーク併合ステップ３００への入力
（図１２及び図１３）は、２Ｄ画像ソースモデル８３０
及びトランスクリプションネットワーク８５０である。
このステップの出力は、トランスクリプション−画像ネ
ットワーク８７０と呼ばれる図９に示されたタイプの第
２のマルコフ画像ソースモデルである。トランスクリプ
ション−画像ネットワーク８７０は、以下の二つの特性
によって定義される。（ａ）トランスクリプション−画像ネットワーク内の各
完成経路πに対して、πと同じトランスクリプションス
トリング及び画像を有する完全経路が画像ソースモデル
８３０内にあること、（ｂ）画像ソースモデル８３０内
の完成経路π毎に、πのトランスクリプションが、トラ
ンスクリプションネットワーク８５０によって発生され
たトランスクリプションのセット内にある場合、πと同
じトランスクリプションストリング及び画像を有する完
全経路がトランスクリプション−画像ネットワーク８７
０内にあること。トランスクリプション−画像ネットワ
ークによって発生されたトランスクリプションのセット
は、画像ソースモデル８３０によって発生されたトラン
スクリプションのセットとトランスクリプションネット
ワーク８５０によって発生されたトランスクリプション
のセットの交差点である。所与のトランスクリプション
を有するトランスクリプション−画像ネットワークによ
って発生された理想的な画像は、このトランスクリプシ
ョンを有する画像ソースモデル８３０によって発生され
た理想的な画像と同じである。

【００９４】ネットワーク併合ステップ３００は、トラ
ンスクリプションネットワーク状態が上記に定義された
二つの特性（ａ）と（ｂ）を満たすように併合されたト
ランスクリプション−画像ネットワーク内のペアの画像
ソース及びトランスクリプションネットワーク状態同士
の間で遷移を構成することに本質的に関与している。こ
れらのトランスクリプションは以下の三つのステップに
よって構成される。（１）ｍ_t＝∈である（ｔに対応付けられたメッセージ
がヌルストリングである）画像ソースモデル８３０の各
遷移ｔに対して、ｊ＝０．．．Ｔ−１の各々に対して、
ノード（Ｌ_t，ｓ_j）からノード（Ｒ_t，ｓ_j）までの
遷移をトランスクリプション−画像ネットワークに加算
する。当該トランスクリプション−画像ネットワークの
このような遷移毎に対応付けられたメッセージ、テンプ
レート、及び変位は、ｔのメッセージ、テンプレート、
及び変位と同じである。（２）ｍ_t≠∈である（ｔに対応付けられたメッセージ
は単一文字ストリングである）画像ソースモデル８３０
の各遷移ｔに対して、及びｍ_t'＝ｍ_tであるトランスク
リプションネットワーク８５０の各遷移ｔ’に対して、
ノード（Ｌ_tＬ_t'）からノード（Ｒ_tＲ_t'）までの遷移
を当該トランスクリプション−画像ネットワークに加算
する。当該トランスクリプション−画像ネットワークの
このような各遷移に対応付けられたメッセージ、テンプ
レート、及び変位は、ｔのメッセージ、テンプレート、
及び変位と同じである。（３）ｍ_t＝∈であるトランスクリプションネットワー
ク８５０の各遷移ｔ’に対して、及びｉ＝０．．．Ｎ−
１の各々に対して、ノード（ｎ_iＬ_t'）からノード（ｎ
_iＲ_t'）までの遷移をトランスクリプション−画像ネッ
トワークに加算する。当該トランスクリプション−画像
ネットワークのこのような各遷移に対応付けられたメッ
セージとテンプレートは共にエンプティであり、そのベ
クトル変位は０である。

【００９５】トランスクリプション−画像ネットワーク
８７０の部分の構成は、図１５に示されたトランスクリ
プションネットワーク８５０の単純なテキストコラム及
び部分８５２に図１４における画像ソースモデルを用い
て、図１６、１７、１８、及び１９において概略的に示
されている。図１６は、２次元（２Ｄ）格子８６０にお
いて、ネットワーク併合プロセス３００によって構成さ
れたトランスクリプション−画像ネットワークのノード
をドット又は点として示し、２Ｄ格子８６０において、
画像ソースモデルノード８６２を水平に位置すると共に
トランスクリプションネットワークノード８６４を垂直
に位置する。初期状態（ｎ_Iｓ_I）と最終状態（ｎ_Fｓ
_F）のそれぞれに対する格子点８６６と８６８は、ドッ
ト回りの円によってそれぞれ表される。図１７は、トラ
ンスクリプション−画像ネットワーク内の遷移を上記手
順のステップ（１）により構成した後のトランスクリプ
ション−画像ネットワークを示している。簡略化するた
め、遷移確率は図示しない。図１８は、ネットワーク併
合プロセスのステップ（１）に追加された図１７の遷移
を点線で示し、上記手順のステップ（２）におけるトラ
ンスクリプション−画像ネットワークに追加された遷移
を実線で示している。遷移確率と変位はここでも図示し
ない。図１５におけるトランスクリプションネットワー
ク８５０がエンプティメッセージストリングを有する遷
移を含まないので、遷移を構成するための上記手順のス
テップ（３）はこの実施の形態には適用されない。

【００９６】完全経路上に置くことができないあるノー
ドがそのノードが復号に使用される前に結合されたトラ
ンスクリプション−画像ネットワークからデリートされ
てもよい。デリートされたノードに入出力する全ての遷
移も同様である。図１９は、この簡略化が実行された後
に残っている結合されたトランスクリプション−画像ネ
ットワークの部分８７２を図示している。この簡略化又
は併合されたネットワークが、図１８の結合されたトラ
ンスクリプション−画像ネットワークよりもかなり少な
い状態及び遷移だけしか含まないことに注目されたい。
従って、ネットワークの簡略化又は併合によって、グリ
フサンプルの入力ソースの復号化がより迅速に行われる
ことになる。

【００９７】復号プロセス３３０（図１３）は、２Ｄ画
像内のグリフサンプル１０を示すラベル付けされたグリ
フ画像起点位置を生成するために、併合されたトランス
クリプション−画像ネットワークを使って２Ｄ画像１０
を復号するのに適したあらゆるタイプのソフトウェア又
はハードウェア実現デコーダを用いて実行され得る。特
に、オリジナルの入力された２Ｄ画像と目標となる理想
的２Ｄ画像、

【００９８】

【外９】

【００９９】の間のエラー確率を最小にするダイナミッ
クプログラミングアルゴリズムに基づいたデコーダは、
特定の実現に使用するのに最適な復号プロセスになる確
率が高い。

【０１００】概して、本発明に使用するのに適したタイ
プの復号プロセスは、各々が目標の理想的２Ｄ画像、

【０１０１】

【外１０】

【０１０２】を示すトランスクリプション−画像ネット
ワークを介した完全なトランスクリプション−画像経路
の内のいくつか又は全てを識別すると共に、定義付けら
れた整合基準に応じて目標の理想的２Ｄ画像の内のどれ
がグリフサンプルの２Ｄ画像ソースに最良整合するかを
決定することにより、識別された経路の内のどれが最良
経路であるかを決定する。ネットワークを介した最良経
路は、最良整合された目標の理想的２Ｄ画像を示すトラ
ンスクリプション−画像経路である。グリフサンプルの
２Ｄ画像ソース内の遷移画像起点位置は、この最良経路
を構成する遷移から演算されることができ、グリフ画像
起点位置とこれらのラベルは、また、これら遷移の内の
選択された遷移及びこれらの遷移画像起点位置から使用
可能である。整合基準は任意の適切な画像測定値であっ
てもよい。一般に、整合基準は、グリフサンプルの２Ｄ
画像ソースと比較された目標の理想的画像に対するピク
セル整合スコアを最適化することを含む。

【０１０３】図示された実現において、復号プロセス３
３０（図１３）は、仮定された非対称ビットのフリップ
チャネルモデルを用いて、トランスクリプション−画像
ネットワークを介して最大事後経路（ＭＡＰ）を発見す
る。ヴィタビ・デコーダの目的は、ネットーワークを介
して最も尤度が高い経路を決定するためにトランスクリ
プション−画像ネットワークを介して全ての完全経路に
わたって再帰的ＭＡＰ決定関数を最大にすることであ
る。画像ソースモデル８３０を用いた復号の説明におい
て上記に述べたように、トランスクリプション−画像ネ
ットワークを介した各経路は、復号の間に形成された理
想的画像に対応している。従って、ヴィタビデコーダ
は、ネットワークを介した完全経路から生成された使用
可能な理想的な画像の内のどれが、復号されている入力
画像即ち２Ｄ画像１０に最も近い外観（ピクセルによ
る）を有するかを決定する。ヴィタビ・デコーダは、経
路内の個別の遷移に対するスコアの総和である理想的な
画像を定義する経路に対して、尤度測定値又は尤度スコ
アを演算することによってこれを実行する。

【０１０４】図２０は、図示された実施の形態の復号プ
ロセス３３０のヴィタビ・デコーダを実現する複数のス
テップのシーケンスを示すフローチャートである。ヴィ
タビ画像復号には、復号トレリス（trellis ）と呼ばれ
る３次元復号格子内での経路発見も含まれる。この復号
格子は、一つがソースモデルの各ノード又は状態に対応
している画像平面のスタックを形成するとビューできる
ノードによって構成されている。トランスクリプション
−画像ネットワーク内の状態及び経路と格子内のノード
及び経路との間で１対１で対応付けされ、格子内のノー
ド同士の間で対応している遷移は、トランスクリプショ
ン−画像ネットワーク内の状態同士の間の遷移と同じ属
性情報を有している。従って、ステップ３３４におい
て、トランスクリプション−画像ネットワーク８７０
は、最初、データストラクチュア内に復号格子として示
される。次いで、ボックス３３８においては、格子内の
ノードに対するスコアが演算される順序が決定されなけ
ればならない。これは、再帰に対するスコア演算スケジ
ュールを作成し、格子のノードが参照される順序を示
し、結果的には、そのノードスコアが演算される順序を
示すことによって達成される。次いで、ボックス３４０
においては、前記スケジュールで既述された順序でノー
ド毎の最尤スコアが演算される。ノード毎に、尤度スコ
アを最大化するノードへの遷移が識別され、記憶され
る。復号プロセス３３０のステップは、図示されている
実現による復号の間、実行される関数を記述するための
特定のシーケンスにおいて実行されるものとして図示さ
れている。これらのステップは、通常、実際のソフトウ
ェア実現において同時期に実行される。

【０１０５】復号の終りに、復号格子内のｎ_F画像平面
に対する尤度スコアが演算された後、ボックス３８０に
おいて、復号格子内で最終ノードから初期ノードまでの
記憶された遷移を介してバックトレースする（後戻りす
る）ことによりヴィタビ・デコーダによって発見された
最尤完全経路が検索され、最良経路を構成する遷移を識
別すると共に、上記の式（５）と（６）を用いて２Ｄ画
像１０内の遷移画像起点位置（ｘ_i、ｔ_i）を演算す
る。最良経路の各遷移が遷移画像起点位置を定義する。
しかしながら、２Ｄ画像１０内のこれらの画像位置のす
べてが対象になるとは限らない。フィルタリングステッ
プは、２Ｄ画像１０内の推定グリフ画像起点位置を示す
遷移（グリフサンプル文字セット内の文字に対して非ヌ
ル文字テンプレートを属性として含む遷移）を識別し、
識別された遷移画像起点位置の全てからこれらの画像起
点位置を抽出し、これらの画像起点位置を、識別された
各遷移上のテンプレート属性のそれぞれの文字ラベル
と、ペアリングする。

【０１０６】復号は、２Ｄ画像内のグリフサンプルの画
像起点位置の推定値を提供するが、当該画像内のグリフ
サンプルの広がり又はサイズに関する情報を提供しな
い。例えば、間違いだらけのトランスクリプション又は
ノイジーな２Ｄ画像１０が学習手順への入力である場
合、復号は不完全な結果を生成し得るので、画像起点位
置は入力画像内のグリフサンプルの位置の推定値である
と考えらる。

【０１０７】文字テンプレート構成プロセス２７０（図
１１）は、図１３において、全く新しいテンプレート構
成方法４００として実現されており、学習データの分離
グリフサンプルへの事前セグメンテーションやサンプル
に対する境界ボックスの識別を行わずに、学習及びラベ
ル付けされた文字テンプレートのセットを生成する。テ
ンプレート構成方法４００は、画像起点位置を示すグリ
フサンプルの２Ｄ画像１０内のｘ、ｙ座標位置と、それ
ぞれの画像起点位置に位置されたグリフサンプルによっ
て示された文字を識別するラベルのみを使って、学習デ
ータ内の各グリフサンプルを識別する。

【０１０８】図２１に関して、テンプレート構成におけ
る第１のステップは、ボックス４１０において、学習デ
ータから生成されようとする各２値文字を記憶するため
のテンプレート画像領域を作成することである。各テン
プレート画像領域内の各ピクセル位置は、最初に、背景
ピクセルカラー値を示す。原則として、文字毎のテンプ
レート画像領域は、全方向に境界付けされない画像平面
全体に渡って拡がる。しかしながら、一般に、テンプレ
ートのサポートがこのテンプレートの起点ピクセル位置
を取り囲む比較的小さな領域へ局所化されることによ
り、テンプレート画像領域が、画像平面全体よりも小さ
いがテンプレートのサポート全体を含む程十分に大きい
境界付けされた画像領域となるように選択される。図２
２は、各テンプレートＱ_tのサポートが、高さＨ及び幅
Ｗの矩形内に置かれると仮定する模式的なテンプレート
画像領域５０２を示す。テンプレート画像領域５０２
は、テンプレートの「カンバス」と呼ばれる。テンプレ
ートカンバスの形状は基本的には任意形状であり、一般
に、テンプレートが学習されている文字セットについて
及び当該学習データ内のサンプルについての仮説を基本
にして選択される。

【０１０９】カンバスの垂直及び水平サイズ寸法即ち高
さＨ及び幅Ｗのカンバスパラメータの選択は、学習され
ている文字セット内の文字に関する情報を利用する二つ
のファクタを基本として行われる。まず第１に、Ｈ及び
Ｗのカンバスパラメータは、作成された結果的に得られ
た画像領域が単一テンプレートのサポートの全体を含む
程の十分な大きさであるように選択される。実際、Ｈと
Ｗのカンバスパラメータの選択は、カンバスの外のピク
セルがテンプレートの一部ではなく背景（ホワイト）カ
ラーであると仮定される決定を反映する。ＨとＷのカン
バスパラメータは、２Ｄ入力画像内に作成された結果的
に得られた画像領域が少なくとも単一の画像サンプル全
体を含む程の十分な大きさであるように選択される。

【０１１０】テンプレートカンバス５０２は当該テンプ
レートカンバス５０２に対応付けられた局所座標システ
ムを有しており、このシステムにおいて、ｘは右に行く
につれて大きくなり、ｙは下へ行くにつれて大きくな
り、この座標システムの起点５０６は、カンバス５０２
の下部左コーナ５０８に相対して（ｘ、−ψ）である。
従って、０≦ｘ＜Ｗ及び０≦ψ＜Ｈである、カンバス５
０２の下部左コーナ５０８はこの局所座標システムに相
対して（−ｘ、ψ）の座標を有する。このカンバス矩形
５０２はＣで表され、Ｃ＝［−ｘ、−ｘ＋Ｗ−１］×［ψ−Ｈ＋１，ψ］（１）となる。カンバス・パラメータＨ、Ｗ、ｘ及びψは全て
のテンプレートに対して一様である必要はなく、特定の
文字テンプレートが記憶されることによって変化しても
よい。通常、テンプレート毎に同じカンバスパラメータ
を使用することが一層便利である。

【０１１１】各文字テンプレートはカンバス５０２内に
置かれると仮定されるテンプレートの起点として指定さ
れたピクセル位置を含む。テンプレート起点ピクセル位
置はテンプレート起点５０６として図２２に示されてい
る。カンバス矩形５０２内のテンプレート起点５０６の
指定は任意であるが、カンバス矩形５０２内に記憶され
ようとするテンプレートは、そのテンプレートの起点が
選択されたテンプレート起点５０６に位置する時、全体
がカンバス矩形５０２内に含まれなければならないとい
う制約条件を受ける。

【０１１２】図２１では、ボックス４３０において、本
発明のテンプレート構成手順における次のステップは、
上記に示されたネットワークの併合及び復号プロセスの
出力として生成される学習データ内に含まれる各ラベル
付きグリフ画像起点位置に対してグリフの２Ｄ画像ソー
ス１０内のサンプル画像領域を決定することである。テ
ンプレート画像領域５０２はサンプル画像領域の各々の
二つの重要な特性を決定する時のパターン又はガイドと
して使用される。第１に、学習データ内の各ラベル付け
されたグリフ画像起点位置に対する２Ｄ画像１０内のサ
ンプル画像領域は、カンバス矩形５０２の垂直及び水平
サイズ寸法（Ｈ及びＷのカンバスパラメータ）に一致し
た垂直及び水平サイズ寸法を有している。第２に、グリ
フサンプルのグリフ画像起点位置は、テンプレート起点
位置５０６として指定されたカンバス矩形５０２内にピ
クセル位置と一致しているか、又はそれぞれペアリング
されるピクセル位置におけるサンプル画像領域内に位置
している。サンプル画像領域を識別して得られた結果
は、学習データ内のグリフ画像起点位置と対応付けられ
たグリフラベルによって識別された各固有の文字に対し
て２Ｄ画像１０内のサンプル画像領域の集合を生成する
ことである。

【０１１３】図２３は、２Ｄ画像１０の画像領域１８内
のグリフ画像起点位置８５、８７及び８９に対して識別
された三つのサンプル画像領域８０、８２及び８４を示
し、これらのサンプル画像領域は、それぞれ、文字”
ｒ”を示すグリフラベルを有している。各サンプル画像
領域は、サンプル画像領域８４の周辺でＨ及びＷの指定
によって示されたカンバス矩形５０２の同一高さＨ及び
幅Ｗを有している。各サンプル画像領域は、図２３に示
されているように、代表的サンプル画像領域８０の起点
８５によってその起点をグリフ起点位置に位置合わせし
た局所座標システムを有している。グリフ画像起点位置
８５、８７及び８９はサンプル画像領域８０、８２及び
８４内のピクセル位置に位置され、当該サンプル画像領
域８０、８２及び８４内のピクセル位置は、テンプレー
トカンバス矩形５０２の下部左コーナ５０８からのテン
プレート起点５０６のｘとｙの変位に一致したサンプル
画像領域のそれぞれの下部左コーナからのｘとｙの変位
を有している。

【０１１４】ラベル付けされたグリフ画像起点位置に対
するサンプル画像領域を識別すると、以下のように要約
されることができる。ベクトルｘ_i＝（ｘ_i、ｙ_i）が
テキストの画像内のグリフ起点位置である場合、対応し
ているグリフサンプル画像領域は、以下の式によって定
義される領域内のテキスト画像のその部分であると定義
される。

【０１１５】ｘ_i−ｘ≦ｘ_i＜ｘ_i−ｘ＋Ｗ、及びｙ_i
＋ψ−Ｈ＜ｙ≦ｙ_i＋ψ。即ち、テンプレート起点がグ
リフ起点と一致している時、グリフ位置に対するグリフ
サンプル画像はテンプレートカンバス内のテキスト画像
のその部分である。

【０１１６】用語「位置合わせされたサンプル画像領
域」は、テンプレートカンバス矩形５０２の下部左コー
ナー５０８からのテンプレート画像起点５０６のｘとｙ
の変位に一致しているサンプル画像領域の下部左コーナ
からのｘとｙの変位を有するサンプル画像領域内のピク
セル位置に位置されているグリフサンプルの画像起点位
置の各サンプル画像領域の特性を示すために導入され
る。位置合わせされたサンプル画像領域の概念は図２４
に示され、この図において、カンバス矩形５０２より上
で、一つの層が他の層の上になって層状にスタックされ
た図２３からの２Ｄ画像１０のサンプル画像領域８０、
８２及び８４が示されている。サンプル画像領域８０、
８２及び８４のそれぞれの画像起点位置８５、８７及び
８９は互いに且つテンプレート起点位置５０６から点線
で示した軸８８に沿って「垂直に」位置合わせされてい
る。このように、それぞれの画像起点位置における同じ
サイズのサンプル画像領域の位置合わせは、サンプル画
像領域の局所座標システムに相対するサンプル画像領域
の各々におけるそれぞれのピクセル位置の中で空間的な
関係又はペアリングを設定すると共に、サンプル画像領
域の集合内のペアリングされたピクセル位置のセットと
テンプレート座標システムに相対するカンバス矩形５０
２内のピクセル値との間で同一の空間的関係又はペアリ
ングを設定する。このように関係付けられた位置合わせ
されたサンプル画像領域内のピクセルの各セットは、
「それぞれペアリングされたピクセル」又は「位置合わ
せされたピクセル」と呼ばれる。

【０１１７】テンプレートが学習されている文字セット
内の文字の内の特定の一つに対して２Ｄ画像１０内で識
別されたサンプル画像領域の全てが、サンプル画像領域
の「集合」と呼ばれる。図示された実現において、サン
プル画像領域の集合は、互いに、そして画像起点位置で
テンプレート画像領域５０２に、位置合わせされたサン
プル画像領域の分離したデータストラクチュア内で示さ
れる。図２５は、２Ｄ画像１０によって示された画像で
ある全体が走査された新聞記事内の文字”ａ”に対する
サンプル画像領域の集合であるデータストラクチュア９
０を示す。図２５においては、データストラクチュア９
０が、カンバス矩形５０２によって提供されたパターン
に応じて２Ｄ画像１０からクリッピングされた連鎖及び
位置合わせされたサンプル画像領域のロー（行）及びコ
ラム（列）において示されている。サンプル画像領域は
図示するためにボーダーで示されている。

【０１１８】図２１を再度参照すると、ボックス４５０
において、本発明のテンプレート構成手順における次の
ステップは、サンプル画像領域内のピクセルカラー値を
基本にして前景ピクセルカラー値を各カンバス矩形５０
２の内のピクセルへ生成される文字テンプレート毎に割
り当てることである。本発明のテンプレート構成手順
は、これらの文字の各々のグリフサンプル画像の集合が
与えられた場合、文字テンプレートのセット内の各ピク
セルへカラーを割り当てることによって略同時期に文字
テンプレートのセットを構成する。従来の方法とは異な
り、本発明の技術におけるグリフサンプル画像は図２５
に示されるように隣接するグリフの部分を含むことが許
容される。本発明のテンプレート構成手順は、文字テン
プレートが構成される間、グリフサンプル画像内の前景
ピクセルの内のどれが中心グリフ（テンプレートの起点
に起点が一致しているグリフ）に属するか及びどれが隣
接グリフに属しているかを効果的に決定する。

【０１１９】ｑ_t（ｘ）は、テンプレートＱ_tの位置ｘ
におけるピクセルのカラーを示し、ここで、ｔ∈Ｂがマ
ルコフ画像ソースの遷移である。前景ピクセルカラーは
ビット値１で示され、背景ピクセルカラーはビット値０
（ゼロ）で示される。ラベル付けされたグリフサンプル
起点位置（ｘ₁、ｔ_i）、ｉ＝１．．．Ｐのセットが付
与された場合、テンプレート構成の目的は、遷移ｔ∈Ｂ
毎に、及び遷移ｘ∈Ｃ毎に、値をｑ_t（ｘ）に割り当て
ることである。

【０１２０】

【外１１】

【０１２１】式（５）の左側はＱ_tに対して位置合わせ
されたサンプル画像領域の集合内の黒（前景ピクセル）
である位置ｘにおけるピクセルの割合である。従って、
Ｓ_t（ｘ；Ｚ）は、テンプレートＱ_tに対する位置ｘに
おける「位置合わせされたピクセルスコア」又は「テン
プレート補助測定値」と呼ばれる。ＭＬ決定ルール
（３）は、位置合わせされたサンプル画像領域内の位置
ｘにおける黒ピクセルの割合が閾値を越えた場合、ｘに
おけるテンプレートピクセルは黒でなければならないこ
とを定める。単に、テンプレートの非結合制約条件が無
視された場合、テンプレートに対してピクセル毎ベース
で位置合わせされた画像領域の集合を平均し且つ閾値化
することにより各ＭＬテンプレートは個別に計算されて
もよい。

【０１２２】図２６は、テンプレート非結合制約条件を
参照せずに決定ルール（３）を用いて、文字”ｅ”、”
ａ”、及び”ｒ”のそれぞれに対するサンプル画像領域
の集合から構成されるテンプレートのセットから選択さ
れた三つのテンプレート９４、９６、及び９８を示す。
使用されるサンプル画像領域は、図２５におけるサンプ
ル画像領域に類似しており、２Ｄ画像１０に類似してい
る新聞のコラムの走査された画像から抽出された。テン
プレート９４、９６、及び９８は、（”＋”によって示
された）各カンバス矩形の起点に位置合わせされた「正
確な」テンプレート画像９３、９５、及び９７を明確に
含んでいるのが理解されよう。しかしながら、各テンプ
レートカンバスが、テンプレートに明確に属さない黒ピ
クセルを含んでいるのも理解されよう。これらの余分な
黒ピクセルは、決定ルール（３）の平均化及び閾値化動
作がテンプレートに対する集合内の各サンプル画像領域
内の隣接しているグリフにおいて実行される時、当該テ
ンプレート内に発生する。これらの余分なピクセルは、
単一の分離したグリフとは対照的に、複数のグリフを含
むサンプル画像領域を使用した結果として明確に発生す
る。例えば、従来のテンプレート構成方法に要求された
ようにサンプル画像領域が対象となる中心ピクセルのみ
を含んでいた場合、これらの余分なピクセルは消えてし
まう。

【０１２３】テンプレートの非結合制約を条件として、
式（２）を最大化することは、ＮＰ−完成であるという
形式的な意味では、演算上困難な問題である。制約され
たＭＬテンプレート構成問題を正確に解くためには、指
数アルゴリズムを使用するより、本発明のテンプレート
構成方法を使えば、テンプレートの非結合制約を実質的
に参照するテンプレートを生成する概算ではあるが効果
的な解決法を提供する。この解決法は、図２１のボック
ス４５０において詳細に図示し、図２７ではフローチャ
ート形式で示されている。

【０１２４】基本的な戦略は以下の通りである。ピクセ
ル毎ベースで単一テンプレート内に含まれた各テンプレ
ートピクセルへ式（３）を個別に適用するより、Ｓ
_t（ｘ；Ｚ）＞０であるあらゆるテンプレート内の各テ
ンプレートピクセルへ値１がある順序で割り当てられ、
これにより割り当てられたテンプレートピクセルを生成
する。このような各割当ての後、参照された画像Ｚ（図
示された実施の形態におけるグリフサンプルの２Ｄ画像
ソースからクリッピングされたサンプル画像領域）は、
新しく割り当てられたテンプレートピクセルとペアリン
グ又は一致する位置において全ての位置合わせされたサ
ンプルピクセルをゼロにセットすることによって変更さ
れる。例えば、テンプレートピクセルｑ_s（Ｗ）＝１
が、たった今、位置合わせされたと仮定する。次いで、
次のテンプレートピクセルの割当てが未だ割り当てられ
ていないテンプレートピクセルに対して実行される前
に、位置Ｗ＋ｘ_i ^(S)、ｉ＝１．．．．Ｎ_Sにおける画
像Ｚのピクセルは、０にセットされる。一致しているテ
ンプレート割当てが実行された後で、参照された画像内
のサンプルピクセルをゼロにセットした効果は、「Ｚの
ピクセルのクリアリング」と呼ばれ、１にまだセットさ
れていないオーバーラップしているテンプレートピクセ
ルに対する引き続く演算Ｓ_t（ｘ；Ｚ）に対してＳ
_t（ｘ；Ｚ）の値を減算することであり、これによって
オーバーラップするピクセルが引き続き１へセットされ
る尤度を減少させることになる。シーケンシャルな割当
ては、幾つかの未だ割り当てられていないテンプレート
ピクセルに対して、Ｓ_t（ｘ；Ｚ）＞０の場合はシーケ
ンシャルな割当てが続く。本発明のテンプレート構成方
法の正味の結果は、プラスのＳ_t（ｘ；Ｚ）が全く残ら
なくなるまで一つのテンプレートも完成されないまま、
学習された文字テンプレートのセット全体を同時期に生
成することである。

【０１２５】図２７に関しては、ボックス４５２におい
て、各テンプレートカンバス内のピクセル位置に対応付
けられたピクセルスコア又はテンプレート補助測定値Ｓ
_t（ｘ；Ｚ）をゼロより大きい値に初期化した後で、Ｓ
_t（ｘ；Ｚ）が、このテンプレートに対して位置合わせ
されたサンプル画像領域の集合内のそれぞれペアリング
された位置合わせされたサンプルピクセル位置を用い
て、現在のプラスのピクセルスコアを有する各テンプレ
ート内の各未だ割り当てられてないテンプレートピクセ
ルに対して計算される。ピクセルスコアは、ボックス４
６０において、演算されたピクセルスコアの内のどれか
がゼロよりも大きい場合、手順は、任意のテンプレート
の最高のプラスのピクセルスコアを有するテンプレート
ピクセルが選択されるボックス４７０へ進み、前景カラ
ー値はこの選択されたテンプレートピクセルへ割り当て
られる。ボックス４８０において、選択されたテンプレ
ートピクセルとペアリングされた位置合わせされたサン
プル画像領域の集合内の位置合わせされたピクセルのカ
ラー値はゼロ（背景カラー値）にセットされる。次い
で、処理は、ピクセススコアが残っている未だ割り当て
られてないテンプレートピクセルに対して再び演算され
るボックス４５６へ戻る。

【０１２６】図２８は、テンプレートピクセルカラー割
当てのアルゴリズムを、図２６に示されたテンプレート
を発生するために使用された同じグリフサンプル画像デ
ータへ、適用した結果を示す。図２８におけるテンプレ
ート５１０のセットは「スペース」、小文字、大文字、
数字、及び句読点の順に配列される。文字が入力された
画像内に発生されない場合、そのテンプレートは実線の
黒い四角として提供される。図２６と比較すると、図２
８におけるテンプレートは余分な黒のピクセルを殆ど含
んでおらず、このアルゴリズムの「Ｚピクセル・クリア
リング」の効果が出ている。特に、文字”ｅ”、”
ａ”、及び”ｒ”のそれぞれを示すテンプレート５１
６、５１４、及び５１８は、それらを図２６のテンプレ
ート９４、９６、及び９８と比較するために呼び出され
た。ピクセルスコアの演算には、γ＞０及びβ＜０であ
るγ及びβ係数の使用が必要とされる。図２６に示され
たテンプレートを生成した図示された実施の形態におい
ては、これらの係数のために使用された値はそれぞれ
２．２３７と−１．６２９であって、チャネルノイズパ
ラメータα₀＝．９及びα₁＝．５１に対応している。

【０１２７】有限状態画像モデルネットワークにおける
ノード同士の間の各遷移ｔ₁は、図１４に示された対応
付けられた４つの要素から成る属性を［ａ_t］
（Δ_t）、ｍ_t、Ｑ_tの順に有している。テンプレート
Ｑ_tが、図１４においてＦの遷移ｔ₁で示されるような
一つの遷移ｔ₁に対応付けられる時、この遷移に対応付
けられた水平の変位Δ_iはテンプレートの文字セット
幅、

【０１２８】

【外１２】

【０１２９】である。文字セット幅は、グリフ起点位置
から、ワードの連続文字を画像形成する時に次のグリフ
の起点が通常配置される点まで、のベクトル変位Δ＝
（Δ_x、Δ_y）である。この文字セット幅は、文字形状
の記述や位置決めのサイドベアリングモデルによってモ
デリングされた文字テンプレートを完全に記述するため
に必要とされる字体距離の内の一つである。従って、テ
ンプレート構成手順４００により文字テンプレートを構
成することの他にこの構成されたテンプレートに対する
文字セット幅を決定することも必要である。

【０１３０】各２値テンプレートの文字セット幅はこの
テンプレートに対して識別されたサンプル画像領域の集
合を用いて決定される。２Ｄ入力画像内のグリフサンプ
ルのグリフ画像起点位置を識別することが推定のプロセ
スであるので、当該識別されたサンプルの少なくとも幾
つかが不正確な画像起点位置を識別してしまうことも予
想される。しかしながら、サンプル画像領域内に含まれ
た各グリフサンプルのセット幅が２Ｄ画像内の次の隣接
するグリフサンプルの判っている画像起点位置から演算
されることができる。従って、テンプレートに対するセ
ット幅の演算には、サンプル画像領域の集合と、各サン
プル内の各画像起点位置から２Ｄ画像内の次の隣接グリ
フの画像起点位置までの変位と、を用いてこのテンプレ
ートに対して識別された各サンプルに対するセット幅を
計算することが含まれる。グリフサンプルに対して演算
されたセット幅の集合は、当該テンプレートに対するセ
ット幅に達するように使用される。例えば、全てのサン
プルに対する平均値又は中間値のセット幅は当該テンプ
レートに対するセット幅であるように決定されてもよ
い。或いは、これらのサンプルを用いて演算される最小
のセット幅はテンプレートのセット幅として使用されて
もよい。

【０１３１】図１３は、テンプレート構成手順４００に
続いて、文字セット幅を決定するこのステップをボック
ス４９０として示している。しかしながら、記述されて
いるように、図示されている実現において、各テンプレ
ートのセット幅はサンプル画像領域の集合を用いて決定
されるが、構成されたテンプレートからは決定されな
い。従って、文字セット幅の決定は、テンプレート構成
の完成に依存せずに、２Ｄ入力画像内のグリフサンプル
に対してラベル付けされたグリフ画像起点位置を生成す
る、復号やバックトレーシングステップの後の、任意点
で行われてもよい。さらに、図１３は、復号、バックト
レーシング（戻り）、及びテンプレート構成ステップ３
３０、３８０、及び４００をそれぞれ反復する反復処理
ループ内に含まれているステップとしてこのステップを
示している。セット幅を演算するための好ましい方法
は、復号プロセスの引き続く反復の間の文字の位置決め
に使用されるセット幅が、入力された２Ｄ画像入力画像
内のグリフを位置決めするために使用される実際のセッ
ト幅よりも常に少なくなることを確実とするため、サン
プル画像領域の集合に対して演算されるセット幅から最
小セット幅を決定し、次いでこのテンプレートに対する
セット幅としてその最小値のパーセント、例えば９０パ
ーセント、を取ることである。

【０１３２】前述のように、図９、図１４、及び図１９
に示されたタイプの２Ｄ画像ソースモデルを用いて参照
された２Ｄ画像の画像復号が文字テンプレートの初期セ
ットの使用を仮定するので、文字テンプレート学習方法
２００の図示されている実施の形態は、基本的には反復
プロセスである。学習の状態において一般的であるよう
に、テンプレートの初期セットが使用不可能である時、
図示されている実施の形態は、復号ステップ３３０の前
に、復号の間に使用するための文字テンプレートの初期
セットを示す文字テンプレートデータストラクチュアを
発生するための処理を含む。文字テンプレートの初期セ
ット内の各セットは、復号プロセス３３０によって実践
的に使用されるあらゆる任意ピクセルの内容を有してい
てもよいし、図示されている実施の形態において各テン
プレートは実線の黒の矩形の前記任意の初期ピクセル内
容を有しており、且つ文字が示す当該文字に関する特定
のピクセル情報は有していない。このような矩形の黒画
像のテンプレートの初期セットが付与された場合、復号
ステップ３３０及びバックトレーシングステップ３８０
はそれぞれ、先行する反復において構成された文字テン
プレートを用いて、各引き続く反復を有する２Ｄ画像内
のグリフサンプル１０のラベル付けされたグリフ画像起
点位置の改良された推定値を生成しやすい。

【０１３３】文字テンプレート構成の完成を制御するた
めに使用される停止条件は、ヒューリスティックに決定
されてもよいし又は一つ又はそれより多くの処理パラメ
ータの関数であってもよい。図示されている実施の形態
においては、停止条件は、最高の品質のテンプレートを
生成し、それに引き続く当該テンプレートに対する参照
可能な改良点が殆どないか又は有効度を持たないような
反復回数であることを経験から証明した固定された反復
回数である。停止条件は、復号の間に演算された最尤ス
コアに関連する閾値をベースにしている。

【０１３４】２Ｄ画像ソースモデルと形式的モデルとし
て示されたトランスクリプションの両方を有すると共に
学習手順への明示的入力として示された２Ｄ画像ソース
モデルを有するフレキシビリティが、従来、学習テンプ
レートに適したトランスクリプション即ちリテラルトラ
ンスクリプションのタイプとして考えられてきた概念を
拡張し、広範囲の他のメッセージストリングの含むよう
になった。例えば、学習のために使用されるグリフサン
プルの２Ｄ入力画像ソースが常に公知の固定されたトラ
ンスクリプションを有する特定のドキュメントのセット
の内の一つである状態が発生し得る。これらの所定のト
ランスクリプションをモデリングするトランスクリプシ
ョンネットワーク又はトランスクリプション−画像ネッ
トワークは、これらの特定のトランスクリプションの各
々を学習する前に生成され且つ記憶されてもよいと共
に、ユーザが「トランスクリプション」として入力する
ものは、実際には、学習において使用されようとするグ
リフサンプルの２Ｄ画像ソースに対応付けられようとす
る特定のトランスクリプションを識別するネームであ
る。

【０１３５】他の例において、２Ｄ画像内の文字コード
に対する論理構造及びフォーマット情報を示すマークア
ップラベル又はタグを含む使用可能なデータストラクチ
ュアも入力トランスクリプションとして使用され、ユー
ザがタグをマニュアルで取り除いたり、データストラク
チュアをリテラルトランスクリプションへ変換する必要
がない。これらのマークアップデータストラクチュア
が、それらのドキュメント画像と共にドキュメントデポ
ジトリ内で使用可能である場合、本発明の学習技術は、
このようなドキュメント画像とその対応するタグトラン
スクリプションを用いて文字テンプレートを学習するこ
とを可能にする。

【０１３６】本発明のテンプレート学習方法におけるタ
グ付けされたトランスクリプションの使用は、収容タグ
が本質的に画像ソースネットワーク内のメッセージスト
リングの処理を含むので、このようにして記述された画
像モデルに対して関数的な変更を全く要求しないし、図
９において提供されたマルコフ画像ソースモデルの一般
的な形式が、各遷移に対してメッセージストリング及び
テンプレートの独立仕様を可能とする。また、メッセー
ジ及びテンプレートのいずれか又は両方が遷移属性セッ
トから省略されてもよい。従って、以下に示されるよう
に、タグがモデリングフレームワークに対する変更をせ
ずに収容されてもよい。

【０１３７】図２９は、サブスクリプトを含む単純テキ
ストラインを画像形成するライン画像ソースモデル７７
０を示す。遷移確率はこのモデルから省略されている。
モデル７７０によって定義されるこれらのライン画像
は、様々な文字間スペースを有する文字”ａ”のグリフ
の全体から成る。モデル７７０における状態及びこれら
の状態の遷移は、サブスクリプトをシミュレートするた
めにグリフがベースライン上又は５ピクセル下へ配置さ
れることができることを示す。モデル７７０内に示され
た遷移属性から、状態ｎ₂とその自己遷移７７７及び７
７８が、主要ベースライン上で位置合わせされた文字”
ａ”の連続テンプレートを画像形成すると共に、”ａ”
のメッセージストリングを発生するのが理解されよう。
遷移７７８上のベクトル変位から、水平ｘ方向の”ａ”
のセット幅が２５で付与されるのがさらに理解されよ
う。モデル７７０は、状態ｎ₁から状態ｎ₄までの遷移
によってサブスクリプトベースライン上でのグリフの画
像形成を可能とする。この状態ｎ₁から状態ｎ₄までの
遷移は、画像平面において現在画像形成位置を下へ移動
する５のプラスのｙ変位を遷移属性として示し、メッセ
ージストリング７７２”｛”も示すがテンプレートはな
い。状態ｎ₄とその自己遷移７７９及び７８０は、サブ
スクリプトベースライン上で位置合わせされた文字”
ａ”の連続テンプレートを画像形成すると共に、”ａ”
のメッセージストリングも発生する。状態ｎ ₄から状態
ｎ₃までの遷移は、変位７７６によって示されるよう
に、現在画像形成位置を主要ベースラインへ戻す。この
遷移はメッセージストリング属性７７４”｛”を有する
がテンプレートは有さない。遷移状態ｎ₃から状態ｎ₁
までの遷移のため、ラインはベースライン上のストリン
グと交互に形成される任意数のサブスクリプト・ストリ
ングを含んでいてもよい。（モデル７７０が主要テキス
トベースラインの下で画像形成されるテキストを含む画
像のセットをモデリングするので、全てのブランチ変位
が２次元ベクトルとして指定される。しかしながら、モ
デル７７０を介する全ての完全経路がゼロのｙ変位を有
すること、即ち、πが完全経路とすると、

【０１３８】

【外１３】

【０１３９】をベリファイすることは容易である。従っ
て、このモデルはラインモデルであることの定義条件を
満たす。即ち全ての完全経路が同一ｙ変位を有する。）

【０１４０】図３０は、ライン画像ソースモデル７７０
によってモデリングされたライン画像のセット内に含ま
れるライン画像７１２、７１４、及び７１６の幾つかの
例を示す。図示目的のため、図４４内のサブスクリプト
のベクトル変位が誇張されており、ライン７１８のよう
なダッシュラインが主要テキストベースラインを図示す
るために示されている。その復号モードにおいて、モデ
ル７７０はライン画像７１２、７１４、及び７１６をそ
れぞれメッセージストリング（トランスクリプショ
ン）”ａａａ｛ａａ｝ａ”、”ａ｛ａ｝ａａ｛ａ｝
ａ”、及び”ａ｛ａ｝ａ”として復号する。或いはこれ
とは逆に、当該ライン画像７１２、７１４、及び７１６
は、入力メッセージストリング”ａａａ｛ａａ｝
ａ”、”ａ｛ａ｝ａａ｛ａ｝ａ”、及び”ａ｛ａ｝ａ”
が付与された場合、その画像合成モードにおいてモデル
７７０が発生するライン画像としてビューされることが
できる。いずれの事象においても、状態ｎ₁から状態ｎ
₄までの遷移と状態ｎ₄から状態ｎ₃までの遷移上で消
失されているテンプレートによってサポートされている
事実から、実際のメッセージストリング”｛”ａｎ
ｄ”｝”は図４４におけるライン画像７１２、７１４、
及び７１６のいずれかにおけるグリフと視覚的にペアリ
ングされることは不可能である。モデル７７０に遭遇し
た場合、メッセージストリング”｛”ａｎｄ”｝”は、
当該モデルによって発生された画像内の一つ又はそれよ
り多くのグリフの画像形成における知覚可能な変化を示
す。メッセージストリング”｛”ａｎｄ”｝”は従っ
て、これらのタグに先行又は後行するテキストからの画
像形成におけるフォーマッティング又は論理的変化を有
しつつ、当該タグ同士の間のテキストをマークするタグ
として機能する。この場合、これらのタグはサブスクリ
プトとして変換又はタイプセットされようとするテキス
トをマークする。

【０１４１】タグ付けされたトランスクリプションネッ
トワークを有するタグメッセージストリングを収容する
画像ソースモデルの併合は、２Ｄネットワークとライン
ネットワークの併合に関して前述した方法と同様に進め
られる。併合されたタグトランスクリプション画像ネッ
トワークの関数的特性は２Ｄ実現に関して前もって提供
された特性と同じである（ネットワーク特性（ａ）及び
（ｂ）として参照される）。ネットワーク併合手順は、
タグトランスクリプションネットワークによって定義さ
れたトランスクリプションのセットからトランスクリプ
ションのみを発生するように制約された変更された画像
ソースモデルを生成する。

【０１４２】テンプレート学習手順のために生成された
学習データのためのグリフラベルの入力ソースとしてタ
グ付けされたトランスクリプションの使用は画像及びト
ランスクリプションモデルが以下にして定義され且つ併
合されるかによって完全に処理されると供に、復号プロ
セス又は最良経路からのグリフ画像起点位置の抽出に対
して全く変更を要求しない。テンプレート学習手順の残
りの部分は、入力されたライン画像内に含まれるグリフ
のグリフ画像起点位置をテンプレート構成手順へ提供す
るためにタグトランスクリプション画像ネットワークを
用いて、前述のように処理される。

【０１４３】

【発明の効果】ユーザの学習データ準備への関与を実質
的に取り除くと供にテンプレートが効果的に自動生成さ
れる文字テンプレートセット学習マシン動作方法を提供
する。

【図面の簡単な説明】

【図１】文字形状記述及び配置のサイドベアリングモデ
ルの単純化されたバージョンを示す図である。

【図２】本発明による学習文字テンプレートのためのグ
リフサンプルのソースとして使用するための複数のグリ
フの２Ｄ画像を示す図である。

【図３】本発明によって生成された文字テンプレートデ
ータストラクチュアの例を示す図である。

【図４】本発明の学習方法及びシステムへの入力として
使用するのに適した図２の２Ｄ画像のためのトランスク
リプションデータストラクチュアの例を示す図である。

【図５】本発明の学習方法への入力トランスクリプショ
ンとして使用するのに適したディクショナリの部分に対
するトランスクリプションデータストラクチュアの他の
例を示す図である。

【図６】図６がトランスクリプションであるディクショ
ナリページの２Ｄ画像を示す図である。

【図７】図２の２Ｄ画像に対する他のトランスクリプシ
ョンメッセージを示すトランスクリプションデータスト
ラクチュアのセットを示す図である。

【図８】簡単化された有限状態遷移ネットワークの部分
として示される図７に示されたトランスクリプションの
セットを示す図である。

【図９】簡単化された有限状態遷移ネットワークの部分
としてその一般的な形式で示された形式的２Ｄ画像ソー
スモデルを示す図である。

【図１０】本発明の学習方法及びシステムの入力及び出
力を示す略ブロック図を示す図である。

【図１１】本発明の文字テンプレート学習方法の一般的
なステップを示すフローチャートである。

【図１２】テンプレート構成への学習データ入力を生成
する本発明の学習方法及びシステムの図示されたソフト
ウェア実現の一部の入力及び出力データストラクチュア
を示す略ブロック図である。

【図１３】ラベル付けされたグリフ画像起点位置を学習
データとして生成する本発明の図示された実現の部分の
一般的なステップを示すフローチャートである。

【図１４】本発明の文字テンプレート学習方法の図示さ
れた実現に使用される図２の２Ｄ画像のような単一テキ
ストコラムの空間ストラクチュアを有する２Ｄ画像のク
ラスをモデリングする有限状態遷移ネットワークを示す
図である。

【図１５】本発明の文字テンプレート学習方法の図示さ
れた実現に使用される図８のトランスクリプションネッ
トワークの簡単化された部分を示す図である。

【図１６】本発明の図示された実現に従って、図１４の
有限状態遷移ネットワークと図１５のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。

【図１７】本発明の図示された実現に従って、図１４の
有限状態遷移ネットワークと図１５のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。

【図１８】本発明の図示された実現に従って、図１４の
有限状態遷移ネットワークと図１５のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。

【図１９】本発明の図示された実現に従って、図１４の
有限状態遷移ネットワークと図１５のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。

【図２０】本発明の図示された実現によって図１３にお
けるフローチャートの復号ステップをヴィタビ・デコー
ダとして示すフローチャートである。

【図２１】本発明の図示された実現において使用された
テンプレート構成方法の一般的なステップを示す図であ
る。

【図２２】図２１に示されたテンプレート構成方法の間
に学習されたテンプレートを記憶するために使用された
テンプレート画像領域の概念を示す図である。

【図２３】グリフサンプルの２Ｄ画像ソース内で識別さ
れるサンプル画像領域を示すと共に、当該グリフサンプ
ルの２Ｄ画像ソースから図２１に示されたテンプレート
構成方法によってテンプレートが学習される図である。

【図２４】本発明の図示された実現によってグリフサン
プルの画像起点位置において整合されたサンプル画像領
域の概念を示す、図２２のテンプレート画像領域よりも
上に層状になった図２の２Ｄ画像の三つのサンプル画像
領域の概略的な画像を示す図である。

【図２５】本発明の図示された実現によってテンプレー
ト学習の際に使用するための２Ｄ画像からクリッピング
されたサンプルの画像領域の集合の画像を提供する図で
ある。

【図２６】文字テンプレートに課された重要な数学的制
約条件を参照しない方法を用いて生成された三つの模範
的だが不満足なテンプレートを示す図である。

【図２７】本発明の図示された実現のテンプレート構成
方法によって、図２２のテンプレート画像領域と図２４
及び図２５の整合されたサンプル画像領域とを用いて、
文字テンプレートの全てを同時期に構成するステップを
示すフローチャートである。

【図２８】図２７に示された新しいテンプレート構成方
法によって生成された学習されたテンプレートの最終セ
ットを示す図である。

【図２９】単一テキストラインの空間ステップを有する
と共に模範的タグトランスクリプションと一貫性を有す
るメッセージストリングを収容するライン画像のセット
をモデリングする有限状態遷移ネットワークを示す図で
ある。

【図３０】図２９の有限状態遷移ネットワークによって
モデリングされたサンプルライン画像を示す図である。

【符号の説明】

１０２Ｄ画像データストラクチュア１２、１４グリフ１３画像座標システム１６ラインセグメント

───────────────────────────────────────────────────── フロントページの続き (72)発明者フィリップアンドリューチョーアメリカ合衆国 94025 カリフォルニア州メンロパークブラックバーンアベニュー 116 (72)発明者レスリーティー．ニルスアメリカ合衆国 94306 カリフォルニア州パロアルトベンチュラアベニュー 264

Claims

【特許請求の範囲】

【請求項１】認識システムに使用するための文字テン
プレートのセットを学習するマシンを動作する方法であ
って、前記マシンが、プロセッサとデータを記憶するメモリデ
バイスとを含み、前記メモリデバイス内に記憶されたデータが、前記マシ
ンを動作するために前記プロセッサが実行する命令デー
タを含み、前記プロセッサが、前記メモリデバイス内に記憶された
データにアクセスするために前記メモリデバイスに連結
されており、前記プロセッサを動作して、以下「文字画像インスタン
スサンプルの２次元画像ソース」と呼ばれる複数の文字
画像インスタンスサンプルを含む２次元画像を定義する
画像定義データストラクチュア内に発生する各文字画像
インスタンスサンプルの文字画像インスタンスサンプル
ピクセル位置を決定するステップであって、前記文字画
像インスタンスサンプルの２次元画像ソースが、文字画
像インスタンスの単一ラインより大きな縦寸法を有し、
前記文字画像インスタンスサンプルの２次元画像ソース
内に含まれる各文字画像インスタンスサンプルが、以下
「文字画像インスタンスサンプル文字セット」と呼ばれ
る複数の文字セット内の文字のそれぞれの画像インスタ
ンスであり、学習される文字テンプレートのセットの各
々が、前記複数の文字画像インスタンスサンプル文字セ
ット内の文字のそれぞれを示すと共に前記文字画像イン
スタンスサンプル文字セット内のそれぞれの文字を示す
文字ラベルデータアイテムにより識別され、前記プロセッサが、前記各文字画像インスタンスサンプ
ルの文字画像インスタンスサンプルピクセル位置を決定
する時、前記マシンの前記メモリデバイス内に記憶され
た、以下「２次元画像ソースモデル」と呼ばれる２次元
画像ソースモデル・データストラクチュアを使用し、前
記２次元画像ソースモデルが、２次元画像のセットの空
間的画像ストラクチュアを文法としてモデリングし、前
記文字画像インスタンスサンプルの２次元画像ソース
が、前記２次元画像ソースモデルよってモデリングされ
た２次元画像のセットの内の一つであり、前記２次元画
像ソースモデルが、前記文字画像インスタンスサンプル
の２次元画像ソース内で発生する複数の文字画像インス
タンスの空間的位置決めをモデリングする空間的位置決
めデータを含み、前記プロセッサが、前記各文字画像イ
ンスタンスサンプルの文字画像インスタンスサンプルピ
クセル位置を決定するために前記空間的位置決めデータ
を使用する、ステップを有し、前記プロセッサを動作して、前記文字画像インスタンス
サンプルの２次元画像ソース内で発生する前記各文字画
像インスタンスサンプルの文字画像インスタンスサンプ
ルピクセル位置とペアリングされた以下「それぞれペア
リングされた文字画像インスタンスラベル」と呼ばれる
文字画像インスタンスラベルデータアイテムを生成する
ステップであって、前記それぞれペアリングされた文字
画像インスタンスラベルが、前記文字画像インスタンス
サンプル文字セット内の文字のそれぞれを示し、前記プロセッサが、前記それぞれペアリングされた文字
画像インスタンスラベルを生成する時、前記文字画像イ
ンスタンスサンプルの２次元画像ソース内で発生する文
字画像インスタンスのそれぞれを前記文字画像インスタ
ンスサンプル文字セット内の文字を示す文字画像インス
タンスラベルとマッピングする前記２次元画像ソースモ
デル内に含まれたマッピングデータを使用し、前記プロセッサが、前記それぞれペアリングされた文字
画像インスタンスラベルを生成する時更に、前記文字画
像インスタンスサンプルの２次元画像ソースに対応し且
つ以下「トランスクリプション・ラベル」と呼ばれるト
ランスクリプションラベル・データアイテムの順序付き
配列を含む、以下「トランスクリプション」と呼ばれる
トランスクリプション・データストラクチュアを使用
し、前記プロセッサが、文字画像インスタンスラベルを
前記各文字画像インスタンスサンプルの文字画像インス
タンスサンプルピクセル位置とペアリングするために前
記トランスクリプション及び前記マッピングデータを使
用する、ステップを有し、前記プロセッサを動作して、前記それぞれペアリングさ
れた文字画像インスタンスラベルによって識別された前
記文字画像インスタンスサンプルの２次元画像ソース内
で発生する前記文字画像インスタンスサンプルの文字画
像インスタンスサンプルピクセル位置を用いて前記文字
画像インスタンスサンプル文字セット内の文字のそれぞ
れを示す文字テンプレートのセットを生成するステップ
であって、それぞれがペアリングされた各文字画像インスタンスラ
ベルが、前記文字テンプレートの各々に対する学習デー
タサンプルとして文字画像インスタンスサンプルピクセ
ル位置を識別する、ステップと、を備える文字テンプレート学習マシン動作方法。
【請求項２】第２の文字テンプレートのテンプレート
画像起点位置が、先行の第１文字テンプレートのテンプ
レート画像起点位置からこの先行の第１文字テンプレー
トの文字セット幅だけ変位され、当該第２の文字テンプ
レートが画像内に位置決めされる時、及び前記第１の文
字テンプレートを完全に収容する第１の境界ボックス
が、前記第２の文字テンプレートを完全に収める第２の
境界ボックスと前記画像内でオーバーラップする時、前
記第１と第２の文字テンプレートが実質的にオーバーラ
ップしない前景ピクセルを有するように、前記文字テン
プレートのセット内の各文字テンプレートが特性文字画
像位置決め性を有する文字テンプレートモデルをベース
とし、前記文字画像インスタンスサンプルの２次元画像ソース
内で発生する前記各文字画像インスタンスサンプルの文
字画像インスタンスサンプルピクセル位置が、前記文字
画像インスタンスサンプルの画像起点位置を示す前記文
字画像インスタンスサンプルの２次元画像ソース内の単
一２次元画像位置であり、前記プロセッサを動作して、前記文字テンプレートのセ
ットを生成するステップが、前記文字画像インスタンスサンプルの２次元画像ソース
内のサンプル画像領域を決定し、各サンプル画像領域
が、「サンプルピクセル位置」と呼ばれる前記文字画像
インスタンスサンプルの２次元画像ソース内に複数の画
像ピクセル位置を含み、前記サンプルピクセル位置の内
の第１のサンプルピクセル位置が第１の文字画像インス
タンスサンプルの画像起点位置であり、各サンプル画像
領域が更に前記サンプルピクセル位置の内の第２のサン
プルピクセル位置が第２の文字画像インスタンスサンプ
ルの画像起点位置となる程十分大きいことと、全ての文
字テンプレートが、前記テンプレートモデルの特性画像
形成性を観測するように一つのテンプレートピクセル位
置に対して一つのピクセルカラー値を決定するためにサ
ンプル画像領域が使用されるサンプル画像位置を決定す
るテンプレートピクセル割当て基準をベースとして、前
記サンプル画像領域内に含まれる前記サンプルピクセル
位置によって示されたピクセルカラー値を用いて、前記
文字テンプレートのそれぞれに含まれるテンプレートピ
クセル位置へピクセルカラー値を割当てることと、を有
することよりなる請求項１に記載の文字テンプレートセ
ット学習マシン動作方法。
【請求項３】前記文字画像インスタンスサンプルの２
次元画像ソースに対応付けられるトランスクリプション
は、前記文字画像インスタンスサンプルの２次元画像内
のそれぞれの文字画像インスタンスが、前記文字画像イ
ンスタンスサンプルの２次元画像内のそれぞれの文字画
像インスタンスの目視検査によってペアリングされない
文字を示す少なくとも一つの文字コードを示す、以下
「タグ」と呼ばれる少なくとも一つのノンリテラル・ト
ランスクリプション・ラベルを含むタグ・トランスクリ
プションであり、前記タグによって示された前記少なく
とも一つの文字コードが、前記文字画像インスタンスサ
ンプルの２次元画像ソースに関するマークアップ情報を
示すと共に、前記プロセッサが、前記トランスクリプション及び前記
マッピングデータを用いて前記文字画像インスタンスラ
ベルを生成する時、前記タグに関連した少なくとも一つ
の文字画像インスタンスサンプルを識別するために前記
文字画像インスタンスサンプルの２次元画像ソース内に
発生する前記複数の文字画像インスタンスサンプルに関
する空間的位置決め情報を使用し且つ文字画像インスタ
ンスラベルを前記文字画像インスタンスサンプルとペア
リングするために前記タグを使用する、請求項１に記載の文字テンプレートセット学習マシン動
作方法。