JP3822277B2

JP3822277B2 - 文字テンプレートセット学習マシン動作方法

Info

Publication number: JP3822277B2
Application number: JP09869096A
Authority: JP
Inventors: イー．コペックゲイリー; アンドリューチョーフィリップ; ティー．ニルスレスリー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-04-28
Filing date: 1996-04-19
Publication date: 2006-09-13
Anticipated expiration: 2016-04-19
Also published as: CA2171773A1; CA2171773C; DE69610243T2; DE69610243D1; JPH08305803A; EP0740263B1; US5689620A; EP0740263A3; EP0740263A2

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に、コンピュータによるパターン認識の分野に係り、特に、文書画像復号化及び文字認識を実行するコンピュータによるシステムに用いる文字テンプレート学習（トレーニング）に関する。
【０００２】
【従来の技術】
文字認識システムは、一般に、分離された入力文字画像、即ち「グリフ（glyph ）」の外観が解析され、意思決定プロセスにおいて所定の文字のセット内の異なる文字として分類されるプロセスを含む。用語「グリフ」は、文字の実現されたインスタンスを示す画像を称する。その分類解析は、一般に、分離された入力グリフの特性（例えば、そのピクセル成分又は他の特性）を文字セット内の文字に関する参照情報のユニットと比較することを含み、これらのユニットの各々は、画像形成プロセスによって導入されるノイズ又は歪みが生じない場合に画像内に出現する文字の「理想的な」視覚表示の特性を文字の特定のサイズ、フォント及び書体において定義する。一般に、「文字テンプレート」、「テンプレート」、又は「プロトタイプ」と呼ばれる各文字に対する参照情報のユニットは、文字を文字セット内の文字の内の一つとして固有に識別する「文字ラベル」と呼ばれる識別情報を含む。グリフと文字ラベルを示す参照情報との間で十分な整合がなされたことを分類解析が決定した時、文字ラベルは入力グリフの識別として出力される。
【０００３】
文字テンプレートを備える参照情報の表現がそのモデルと呼ばれてもよい。一つのタイプの文字テンプレートモデルは一つの文字のビットマップされた又は２値の画像として知られている。２値文字テンプレートモデルのカテゴリ内には、少なくとも二つの異なるタイプのモデルが定義されている。一つは「セグメンテーションベース」のモデルと呼ばれ、文字テンプレートを「境界ボックス」と呼ばれる矩形領域内に完全にあてはまるものとして記述し、隣接文字テンプレートの結合を「非連結」な、オーバーラップしない境界ボックスを必要とするものとして記述している。米国特許第5,321,773 号は、他の２値文字テンプレートモデルを開示しており、このモデルは、ディジタル・タイポグラフィの分野で使用される、文字（letter form)形状の記述及び位置決めのサイドベアリング（字面の左右の肩部）モデルに基づく。図１の説明において以下により詳しく記述されたサイドベアリングモデルは、一つのテンプレートの前景（例えば、一般に黒色）ピクセルが隣接テンプレートの前景ピクセルによって共用されていない即ちこの隣接テンプレートの前景ピクセルと共通している間は、オーバーラップする矩形境界ボックスを許容するようにテンプレートの結合を記述している。このことはテンプレートが実質的「非連結サポート」を持つように要求するときに記述される。
【０００４】
学習文字テンプレートは、認識プロセスに用いられるテンプレートを生成、作成、又は更新するために学習データを使用するプロセスである。学習データは、文字画像サンプルの集合として広く定義されることができ、テンプレートを定義する文字テンプレートモデルによりテンプレートを生成するのに必要な情報を提供する。文字画像サンプルの各々は、当該サンプルが示す文字セット内の文字を識別する割り当てられた文字ラベルを有している。既存の学習プロセスの有効度は、学習データの品質及び精度、特にグリフサンプルの品質に直接依存する。
【０００５】
良質のグリフサンプルはこれらが学習プロセスに入力された時に欠落した又は無縁の前景ピクセルによって実質的に損傷を受けないグリフサンプルである。走査やファクスプロセスのような周知のソースから生成されるビットマップ画像から導入されるグリフサンプルは、ビットマップの実際の外観の不確実性に拍車をかける画像ノイズや歪みによって品質が低下することを余儀なくされる。この点に関する特定の問題は、テキスト内の文字がブレたり、併合したり又は途切れたりする傾向である。このような低品質画像は、本明細書中においては「雑音性」画像と呼ばれる。既存の学習プロセスへの入力として良質なグリフサンプルの必要条件は、概して、グリフサンプルのソースとして使用される入力画像が相対的に非雑音性であること、又はノイジー画像の使用が可能となってもグリフサンプル内のノイズ除去又は補償のためのプロセスが存在すべきであることを限定している。
【０００６】
認識システムは、一般に、文字テンプレートを学習するために個別の学習サブシステムを提供している。学習システムは「スーパバイズド」又は「非スーパバイズド」であってもよい。非スーパバイズド学習は、概して、認識及び学習の２段階のプロセスを有する。
【０００７】
既存のスーパバイズド学習は、学習データの態様が学習プロセスのユーザによりある程度特別に準備されたプロセスとして記述される。このプロセスは、グリフサンプルの分離、グリフサンプルに割り当てられようとする文字ラベルの識別、及びグリフサンプルへの文字ラベルの実際の割当ての内のどれかを含んでいてもよいし、又はこれらの三つの態様を全て含んでいてもよい。スーパバイズド学習は、（学習データの）品質及び精度に関してユーザがある程度のコントロールを実行する学習データを用いて新規又は既存のテンプレートを学習する機会を提供する。
【０００８】
一つのタイプの既存のスーパバイズド学習システムにおいては、入力されたグリフサンプルは、「セグメント化」されること即ち分離されており、個別的、且つ相対的に非雑音性のグリフサンプルであることと、学習プロセスへの入力の前の適切な文字ラベルによってラベル付けされることが要求される。一般に、学習データを準備する為のユーザインタフェースを有するソフトウェアは、ユーザに学習データの品質と精度の完全なコントロールを委ねながら、ユーザが画像内のグリフサンプルの回りに境界ボックスを手描きし、それらにラベルを割り当てるのを可能にする。
【０００９】
学習データの準備の三態様の内の一つ以上が、直接的なユーザの関与を減少する為に自動化されてもよい。例えば、グリフサンプルのセグメンテーション及び境界ボックスの決定がテキスト文書画像全体又はテキストのラインの画像若しくはワード画像に適用される自動プロセスであってもよい。ユーザは、自動セグメンテーションの結果を検査し、誤ってセグメント化されたサンプルを補正し、文字ラベルをサンプルへ割り当てる機会を有することもある。
【００１０】
画像モデルは、認識システムが設計される使用可能な入力画像のセットの特性又は記述であると共に、使用可能な画像のどの画像が所与の入力画像と最も良く整合するかを決定するために使用され得る形式で提供される。画像モデルは、使用可能な入力画像のセットについての"priori （事前）" 情報を示すと共に、特定の入力画像を定義する又は特定画像に対する解析及び認識プロセッシングの実行結果を含むデータストラクチュアから区別できる。
【００１１】
形式的画像モデルは、形式的文法又は有限状態遷移ネットワークのような形式的記述言語を用いて使用可能な画像のセットを記述する。形式的文法は、特定の言語でのステートメント実行が許容される許容可能フォーマット（シンタックス）を定義するルールのセットである。文法は、非制限、文脈依存、文脈自由、及び正規などのタイプ別に特徴付けられてもよいし、特別なタイプの文法は多かれ少なかれ特定の画像モデルに適することもある。
【００１２】
あらゆるテキスト認識システムのデザインは、明示的画像モデル又は暗示的画像モデルに基づく。画像モデルが当該モデルを使用するプロセッシングアルゴリズムとは無関係な方法で明示的且つ形式的に述べられているか又は画像モデルが画像解析動作を実行するコード本文として暗示的に示されているにすぎないかについて区別される。この点において、形式的画像モデルは、このモデルを使用するパーザコードとは無関係な明示的データストラクチュアとして存在する文法ベース文字ストリング解析システムにおける形式的文法に類似している。
【００１３】
形式的画像モデルは、ゼロ次元（０Ｄ）、１次元（１Ｄ）、又は２次元（２Ｄ）の形式をとることができる。
【００１４】
H. S. ベアード（Baird ）は、「自己補正１００フォント判別手段（A Self- Correcting 100-Font Classifier )」（1994年発行、文書認識SPIE Vol.2181 ）において、ゼロ次元（０Ｄ）画像モデルを使用するポリフォント・リコグナイザのための特徴テンプレートの学習へのアプローチを開示している。ベアードは、任意の１００の字形（タイプフェース）を適度に認識できるポリフォント判別手段が読み取ろうとする単一だが未知の字形を当該ポリフォント判別手段が自ら自動指定することが可能な自己補正方法を開示している。この自己補正方法は、多数の字形をＮ個の文字（シンボル）クラス、｛Ｃ_i｝_i=1,Nに「程良い」精度をもって区別することができるポリフォント判別手段を必要とすると共にクラス別にラベル付けされた分離サンプル文字画像上で学習可能な判別手段技術も必要とする。ベアードのテンプレート学習システムは、分類及び学習プロセスへの入力前に画像サンプルが分離されるのを必要とする、非スーパバイズドで学ぶ形式である。
【００１５】
「擬似２次元隠れマルコフモデルを用いた低品質印刷文書におけるキーワードスポッティング（"Keyword spotting in poorly printed documents using pseudo 2D hidden Markov models" ）」（１９９４年８月発行「パターン解析とマシンインテリジェンス」に関するＩＥＥＥトランザクション第１６巻、Ｎｏ．８の８４２乃至８４８ページ）において、S. Kuo（クオ）及びO. E. Agazzi（アガツィ）（以下、クオ等と称する）は、低品質印刷文書に埋め込まれたキーワードのロバストな（堅牢な）マシン認識のためのアルゴリズムを開示している。モデルと呼ばれるテンプレートは、整合されようとする既知のキーワードのセットを示す。キーワードモデル毎に、実際のキーワード及び他の全ての無縁ワードをそれぞれ示す、"pseudo 2D hidden Markov models"（擬似２次元隠れマルコフモデル）及び" ＰＨＨＭs"と呼ばれる二つの統計的モデルが生成される。本明細書中に提供される用語の文脈において、キーワードテンプレートを示すＰＨＨＭは、形式的１次元画像モデルである。
【００１６】
文字境界情報に無関係な文字のストリング（例えば、ワード）の認識に使用する１Ｄ画像モデルの文脈における特徴ベースのテンプレート学習は、１９９２年９月オランダで開催されたパターン認識についての国際会議議事録の１１６乃至１１９ページの「隠れマルコフモデルを用いた連結され且つ低下したテキスト認識」において、C.ボース（Bose) 及びS.クオによって開示されている。この文献に開示された認識方法は、公知のアルゴリズムを用いたページレベルプロセッシングが学習ステップの前に行われると共に分離されたワード又はラインの画像がリコグナイザへ提供されると仮定しており、この認識手段は隠れマルコフモデルとして表現される形式的１Ｄモデルに基づいている。スーパバイズド学習プロセスが開示されており、このプロセスは、各々が隠れマルコフモデルとして表現される０Ｄモデルの個別の特徴ベース学習テンプレートに基づく。
【００１７】
米国特許第5,020,112 号及び第5,321,773 号は、形式的２Ｄ画像モデルに基づく認識システムを開示している。「２次元の確率論的文法を用いた画像認識（"Image Recognition Using Two-Dimensional Stochastic Grammars" ）」と題され且つ本発明の発明者の中の一人、P. A. チュウ(Chou)へ与えられた米国特許第5,020,112 号は、２Ｄの確率論的文脈自由文法をベースとする２Ｄ画像モデルを用いてビットマップされた画像オブジェクトを識別する方法を開示している。この米国特許第5,020,112 号は、対応する画像内での発生確率を各々が有する全ての対象となる可能性のある画像オブジェクトの多数のｎ×ｍのビットマップされたテンプレートを含むオブジェクト・テンプレート・ライブラリを開示している。画像グリフは、それらの境界ボックスが有効にオーバーラップしないという意味でセグメント化可能となるように要求される。形式的２Ｄ画像モデルは、矩形の画像モデルによって画像内のオブジェクト同士の間の空間関係を定義する生成ルールを有する確率論的２Ｄ文法として示される。この文法は、オブジェクトのリストを解析して最大の発生確率を有する使用可能な解析ツリーの内の一つを決定する為に使用される。学習のために使用されようとする画像サンプルを認識プロセスがオリジナル入力画像から分離し且つ認識手段による画像サンプルの分類に基づいてセグメント化された画像サンプルへ文字ラベルを割り当てると、学習プロセスは非スーパバイズドとなる。この説明に使用される用語の文脈において、テンプレートモデルはセグメンテーションベースモデルであるので、２Ｄ画像モデルは、使用可能な画像のセットを記述し、このセットはそれぞれが実質的にセグメント化できる画像オブジェクトを含まなければならないし、これらの画像オブジェクトの各々はオーバーラップされない境界ボックス内に実質的に含まれることが可能でなければならない。
【００１８】
本発明の発明者であるG. Kopec（コペック）とP. A. Chou（チュウ）へ与えられ、「有限状態ネットワークを用いた画像認識方法（"Image Recognigtion Method Using finite State Networks" ）」と題された米国特許第5,321,773 号は、米国特許第5,020,112 号に使用されている文脈自由文法とは反対に、正規文法によって画像生成を定義する確率論的有限状態遷移ネットワークとして示される形式的２Ｄ画像モデルを開示している。２Ｄ画像モデルによって記述されたテンプレートモデルは、図１に関して詳細に説明される文字形状の記述及び位置決めのサイドベアリングモデルを定義している。
【００１９】
米国特許第5,321,773 号に使用されている文字テンプレートの学習は、適切なテンプレート位置決めに必要とされる特定のタイポグラフィ特性やパラメータの推定又は演算を含む。これらはフォント・メトリック（字体距離）と集合的に呼ばれる文字のサイドベアリング及びベースラインの深さとして知られている。グリフの形状は、グリフのタイポグラフィーの原点が図１の交差点２、５、６によって示された点（０、０）になるように位置合わせされた局所座標システムによって画定される。グリフの文字「セット幅」は、グリフの起点位置によって画定され、第１のグリフのグリフ原点の位置から第２の隣接グリフの原点が連続文字画像形成時に通常に配置される点までの変位ベクトルΔ＝（Δ_x，Δ_y）である。ローマ字を含む大部分のインド−欧州アルファベットにおいて、Δ_x＞０及びΔ_y＝０である。図１において、文字”ｅ”の文字セット幅は変位Δ_xで表記される。しかしながら、他の書き込みシステムにおいて、Δ_xは、負（例えば、セム語）になることが可能であり、又はΔ_yはノンゼロであってもよい（例えば、東洋グリフ）。特定のαに対してΔ_y＝αΔ_xのとき、テキストライン内のグリフ原点は同一直線上にあり、テキストラインのベースライン４を画定する。グリフの境界ボックス３は、グリフを取り囲む文字座標軸によって方向付けられた最小矩形である。タイポグラフィックグリフ画像の起点位置が境界ボックスのｘ，ｙ位置と必ずしも同じ広がりをもたないことが図１によって示されている。図１は境界ボックス３の外側のグリフ”ｅ”に対するグリフ画像起点位置５と境界ボックス８の内側のグリフ”ｊ”に対するグリフ画像起点位置を示す。左のサイドベアリングは、グリフの原点から境界ボックスの左端までの水平変位λである。同様に、右のサイドベアリングは、境界ボックスの右端から次のグリフの原点までの水平変位ρである。これらのサイドベアリングの一つ又は両方が負であってもよい。
【００２０】
米国特許第5,321,773 号は、１１乃至１７コラムにおいて文字テンプレートの学習を開示しており、この学習プロセスは、１９９３年１０月発行の画像処理に関するＩＥＥＥトランザクションの５１０乃至５１９ページ、G. Kopec（コペック）著の「画像の最小二乗フォント・メトリック推定（"Least-Squares Font Metric Estimation from Images"）（以下、コペックの「フォント・メトリック推定」と呼ぶ）に更に記述されている。開示されたスーパバイズド学習技術は、この特許の図１４と、グリフサンプルがセグメント化可能であったコペックの「フォント・メトリック推定」の図３に示された特別に準備された入力画像を使用した。これらのサンプルには、フォントサンプルページの各ライン内のテキストライン及び個別文字が、テキスト画像エディタの単純連結成分ベースの解析手順を用いて導入されるコペックの「フォント・メトリック推定」の５１６ページに記述された事前学習セグメンテーションステップが実行された。テキスト画像エディタによって分離された各グリフサンプルは、入力画像内のグリフサンプルと１対１ベースでペアリングされたサンプルを識別する順序付き文字ラベルを含んだサンプルページの手書きで準備されたテキスト・トランスクリプションを用いてラベル付けされた。
【００２１】
【発明が解決しようとする課題】
本発明は、学習に使用されようとするグリフサンプルのソースとしてテキスト文書の２次元（２Ｄ）画像を用い、グリフサンプルのラベリングに関する情報のソースとして非制限形式のトランスクリプションを用い、且つ２Ｄ画像におけるグリフサンプルと当該トランスクリプション内の情報との関係を定義する学習プロセスへの明示的入力として形式的２Ｄ画像モデルを用いることによって、学習データ準備の三態様全部へのユーザの関与を最小とし、これにより略正確な文字ラベルが適切なグリフサンプルへ割り当てられる。実際、この学習技術は、グリフの２Ｄ画像ソース及び２Ｄ画像に対応するトランスクリプションを提供するのとは別に、全てのユーザの学習データ準備への関与を実質的に取り除くために実行されることができ、テンプレートが効果的に自動生成される。
【００２２】
学習プロセスへの明示的入力として形式的２Ｄ画像モデルを使用することは、テンプレート学習のためのグリフサンプルのソースとして既存テキスト文書の画像を使用する機会を提供し、これによってユーザがサンプルの特定画像を手書き設計し準備する必要性が取り除かれる。形式的２Ｄ画像モデルは、学習プロセスへの入力として受容される使用可能な２Ｄ入力画像のセットに関する事前情報を示す。明示的な形式的２Ｄ画像モデルを使用することの重要な利点は、学習のためのグリフサンプルが得られる使用可能な２Ｄ入力画像のセットを記述するときにフレキシビリティや詳細さを提供することであり、このことは、広範囲の既存テキスト文書画像が学習のために使用されてもよいことを同時に意味する。既存の学習技術に対する本発明の重要且つ固有の利点は、学習のためのグリフサンプルのソースとしてのテキスト文書画像の使用によって、入力された２Ｄ画像内のグリフサンプル又はテキストのラインの事前セグメンテーション又は分離の必要性が取り除くかれることである。学習プロセスは入力された２Ｄ画像内のグリフサンプルの位置を配置するために２Ｄ画像モデルによって提供された情報を使用し、これにより、グリフサンプルセグメンテーションが文書画像から通常ユーザによって手動で行われるスーパバイズド学習システムにおいてユーザの学習データ準備への関与が減少される。
【００２３】
学習手順への入力として明示的に定義される２Ｄ形式的画像モデルを用いる更なる利点は、学習のためのグリフサンプルのソースとして使用され得るテキスト文書画像のタイプ（例えば、構造的外観）が新しいタイプの画像に関する情報を反映するように形式的２Ｄ画像モデルを単純に変化させることによって変更され得る、即ち、入力された画像のタイプが変化する時に学習プロセスを実行する命令を上書きする必要がないことである。本発明は、グリフサンプルの入力された２Ｄ画像ソースに関する詳細な情報を、特定の実現においてはユーザへアクセスすることができる入力されたデータストラクチュアへ置く。
【００２４】
学習プロセスへの入力としてのフレキシブルに定義された制限されない形式のトランスクリプションの使用は、特定のトランスクリプションを明示的に準備すること又は文字ラベルを特定のグリフサンプルへ明示的に割り当てることをユーザに要求せずに、テンプレート学習で使用されるグリフサンプルのラベルリングに対して明示的コントロールを実行する機会をユーザに提供する。学習技術は、最終的に正確な文字ラベルが特定のグリフサンプルへ割り当てられるようにリテラル・トランスクリプションをユーザが準備するのを可能にするように実現されてもよいが、この技術は、文字ラベルをグリフサンプルへマップするために形式的２Ｄ画像モデルによって必要とされる情報を含む適切なトランスクリプションをユーザが簡単に選択できるようにもっと一般的な方法で実現され得る。
【００２５】
既存の学習技術に対する本発明の学習技術の他の重要な利点は、本発明が、従来のスーパバイズド学習システムにおいて使用された１対１のシーケンスの文字ラベルより広い範囲の学習用トランスクリプションタイプの使用を提供することである。最も単純な形式において、このトランスクリプションは、各々が文字ラベルを示し、各々が１対１のペアリングにおいて２Ｄ入力画像内のグリフサンプルとそれぞれペアリングする、トランスクリプションラベルのストリングであってもよい。トランスクリプションは、文書プロセッシング、フォーマッティング又はワードプロセッシングのアプリケーションのための文書の構造的ピースを識別するタグとして知られるマークアップ（markup）情報を含むこともでき、このタイプのトランスクリプションは本明細書中において「タグ・トランスクリプション」と呼ばれる。
【００２６】
【課題を解決するための手段】
従って、本発明によれば、複数の文字テンプレートを学習するためのマシン動作方法が提供されている。この方法によって動作されるマシンは、命令データを含むデータを記憶するメモリデバイスと、前記メモリ内に記憶されたデータへアクセスすると共に前記マシンを動作するための命令を実行するために連結されたプロセッサと、を有する。
【００２７】
本発明の学習技術の重要な利点は、文字画像の境界ボックスの識別に加えて又はその代わりに文字画像の起点位置の識別を必要とする文字形状の記述又は位置決めのサイドベアリングモデルのようなテンプレートモデルによって定義される文字テンプレートの学習への学習技術の特定アプリケーションである。サイドベアリング文字テンプレートモデルに基づいた学習文字テンプレートは、２Ｄ画像内で生じるグリフサンプルの画像の起点位置を知るだけで効果的に達成されるので、特定の文字テンプレート内に含まれようとするピクセルを識別するためにグリフサンプルの周辺に境界ボックスを決定することに頼る必要がない。従って、本発明の学習技術の一つの実現は２段階プロセスである。第１のステップは形式的２次元モデルとトランスクリプションを使用して、２Ｄ画像内のグリフサンプルの画像起点位置を識別し且つこのグリフサンプル画像起点位置へ文字ラベルを割り当てる。この実現は、グリフサンプルが２次元入力画像内に発生する場所に関する情報を事前に持たずにグリフサンプルの画像起点位置を決定する。
【００２８】
この実現の第２のステップにおいて、第１のステップの出力であるラベル付けされたグリフの起点位置が、次に、学習されたテンプレートを生成する新しいテンプレート構成プロセスへ入力される。２値文字テンプレートを学習する既存の学習システムにおいて、境界ボックスの使用によるグリフサンプルのセグメンテーションは、一般に、周知のピクセル平均化プロセスを用いて、複数の文字の分離サンプルから相対的に判りやすい文字テンプレートの決定を許容する。本発明の学習技術においては、グリフサンプルのグリフ起点位置を決定するだけでよく、グリフサンプル周辺の境界ボックスを決定することによって２Ｄ入力画像内のグリフサンプルのセグメンテーションを実行する必要がないのである。従って、グリフサンプル境界を知ることに依存する既存のビットマップ平均化技術を使用することができない。本発明の技術は、グリフセグメンテーションの関数的結果をビットマップされたテンプレートの実際の構成と本質的に結合させる、新しいテンプレート構成技術を用いてグリフサンプルの画像起点位置だけに関する情報から２値文字テンプレートを生成する技術である。この技術において、２値文字テンプレートを記憶するのに適した縦及び横の寸法を有するテンプレート画像領域と呼ばれるテンプレートピクセル位置のアレイが、学習される各文字テンプレートごとに生成され、各文字テンプレートに対するグリフサンプルの内の一つを各々が含む２Ｄ入力画像内のサンプル画像領域を文字テンプレート毎に決定するように使用される。テンプレート画像領域は、テンプレート起点位置として指定されたテンプレートピクセル位置を有し、グリフサンプルを含む２Ｄ入力画像内のサンプル画像領域はテンプレート画像領域の局所座標システムに相対して決定され、これにより、グリフサンプルの画像起点位置が、当該テンプレート画像領域内のテンプレート起点位置のピクセル位置と同じ相対的ピクセル位置をサンプル画像領域内に有することになる。グリフサンプル文字セット内の文字の内のそれぞれ同じ文字を示すサンプル画像領域の全てはサンプル画像領域の集合と呼ばれる。この集合の中の各サンプル画像領域は、全ての他のサンプル画像領域に位置合わせされ、画像起点位置においては、その文字のためのテンプレートに位置合わせされる。２値文字テンプレートは、前景ピクセルカラー値をテンプレート画像領域の内の選択された領域内のテンプレートピクセル位置へ割り当てることにより文字テンプレート毎に位置合わせされたサンプル画像領域の集合から略同時期に生成され、このテンプレート画像領域の内の選択された領域は、サンプル画像領域に含まれたそれぞれペアの位置合わせされたサンプルピクセル位置を用いて演算されたテンプレート補助測定を基本にして選択される。
【００２９】
本発明の学習技術が、文字位置決めのための文字画像起点位置を使用する文字テンプレートモデルによって記述された学習文字テンプレートに用いられる時、本発明の学習技術から得られる幾つかの利点及び利益がある。グリフの２Ｄ入力画像ソースに関する「事前」情報を提供する明示的な形式的２Ｄ画像モデルは、グリフサンプルのグリフ画像起点位置を検出するプロセスにおいて入力画像内のノイズによる妨害を最小とする。更に、テンプレート構成前のセグメンテーション・ステップ除去により、ノイズのある画像でセグメンテーションを実行する時に導入されるセグメンテーション・エラーを除去し、多様な品質の既存テキスト文書の画像がグリフサンプルのソースとして使用されるのを可能にする。ノイズのある画像内で発生する振れたり、途切れたり、併合されるグリフサンプル、又は文字画像が連結されるように設計されたフォント内で自然発生する併合されたグリフサンプルを巧妙に処理する。このテンプレート連結プロセスは、２Ｄ入力画像のテキスト内で発生する複数のグリフサンプルを使用すると共にこれらのテンプレートを略同時期に生成するので、当該画像内のノイズから得られる一つ又は二つの振れたり途切れたり併合されるサンプル内で発生する無縁又は紛失ピクセルは、これらの低品質サンプルが他のノイズなしの高品質サンプルによって処理される時に、学習された文字サンプルの品質に殆ど影響を与えない。更に、この新しいテンプレート構成方法はグリフサンプル毎に実際の境界ボックスを見つけることを必要としないので、容易にセグメント化されない潜在的により広い範囲のシンボルセット、アルファベット、及び文字フォントが本発明の学習技術によって供給されることができ、本発明の学習技術はまた、既存テキスト文書の広範囲な画像がグリフサンプルのソースとして使用されるのも可能にする。
【００３０】
本発明の学習技術の一つの実現において、学習のためのグリフサンプルのソースとして作用され得る使用可能な画像のセットのストラクチュアを記述する形式的２Ｄ画像モデルが、ペアのノード同士の間の一続きのノードと遷移を含む有限状態遷移ネットワークの形式を有するマルコフ（Markov) ソースとして示される。文字テンプレート、メッセージストリング、遷移確率、及びベクトル変位を含む遷移データアイテムがネットワーク内の各遷移に対応付けられる。グリフサンプルに割り当てられようとする文字ラベルに関する情報が導入され得るトランスクリプションのセットは有限状態遷移ネットワークとしても示され、この有限状態遷移ネットワークにおいて、各遷移は、代替トランスクリプションに対して使用可能なトランスクリプション・ラベルに対応付けられる。形式的２Ｄ画像モデルがトランスクリプションの入力セットと共に使用可能な入力画像の相対的に小さなセットを記述するために、一つ以上のトランスクリプション・ラベルが、形式的２Ｄ画像モデルにおける遷移に対応したメッセージ・ストリングに関連している。この学習技術は、トランスクリプションのセットによって制約された時、２Ｄ画像モデルを介して最良の経路を提供する遷移のセットを見つけるために形式的２Ｄ画像モデルを使用する。各グリフサンプルの画像起点位置は、このサンプルに対するそれぞれの文字ラベルと一緒に最良の経路を形成する遷移のシーケンスから識別され、次いでこのラベル付けされたグリフ画像起点位置データは上記の新しいテンプレート構成プロセスへの入力として使用される。
【００３１】
本発明の態様は、認識システムに使用するための文字テンプレートのセットを学習するマシンを動作する方法であって、
前記マシンが、プロセッサとデータを記憶するメモリデバイスとを含み、
前記メモリデバイス内に記憶されたデータが、前記マシンを動作するために前記プロセッサが実行する命令データを含み、
前記プロセッサが、前記メモリデバイス内に記憶されたデータにアクセスするために前記メモリデバイスに連結されており、
前記プロセッサを動作して、以下「グリフサンプルの２Ｄ画像ソース」と呼ばれる複数のグリフサンプルを含む２次元画像を定義する画像定義データストラクチュア内に発生する各グリフサンプルのグリフサンプルピクセル位置を決定するステップであって、前記グリフサンプルの２Ｄ画像ソースがグリフの単一ラインより大きな縦寸法を有し、前記グリフサンプルの２Ｄ画像ソース内に含まれる各グリフサンプルが以下「グリフサンプル文字セット」と呼ばれる複数の文字セット内の文字のそれぞれの画像インスタンスであり、学習される文字テンプレートのセットの各々が前記複数のグリフサンプル文字セット内の文字のそれぞれを示すと共に前記グリフサンプル文字セット内のそれぞれの文字を示す文字ラベルデータアイテムにより識別され、
前記プロセッサが、前記各グリフサンプルのグリフサンプルピクセル位置を決定する時、前記マシンの前記メモリデバイス内に記憶された、以下「２Ｄ画像ソースモデル」と呼ばれる２次元画像ソースモデル・データストラクチュアを使用し、前記２Ｄ画像ソースモデルが、２次元（２Ｄ）画像のセットの空間的画像ストラクチュアを文法としてモデリングし、前記グリフサンプルの２Ｄ画像ソースが、前記２Ｄ画像ソースモデルによってモデリングされた２Ｄ画像のセットの内の一つであり、前記２Ｄ画像ソースモデルが、前記グリフサンプルの２Ｄ画像ソース内で発生する複数のグリフの空間的位置決めをモデリングする空間的位置決めデータを含み、前記プロセッサが、前記各グリフサンプルのグリフサンプルピクセル位置を決定するために前記空間的位置決めデータを使用する、ステップを有し、
前記プロセッサを動作して、前記グリフサンプルの２Ｄ画像ソース内で発生する前記各グリフサンプルのグリフサンプルピクセル位置とペアリングされた以下「それぞれペアリングされたグリフラベル」と呼ばれるグリフラベルデータアイテムを生成するステップであって、前記それぞれペアリングされたグリフラベルが前記グリフサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされたグリフラベルを生成する時、前記グリフサンプルの２Ｄ画像ソース内で発生するグリフのそれぞれを前記グリフサンプル文字セット内の文字を示すグリフラベルとマッピングする前記２Ｄ画像ソースモデル内に含まれたマッピングデータを使用し、
前記プロセッサが、前記それぞれペアリングされたグリフラベルを生成する時更に、前記グリフサンプルの２Ｄ画像ソースに対応し且つ以下「トランスクリプション・ラベル」と呼ばれるトランスクリプションラベル・データアイテムの順序付き配列を含む、以下「トランスクリプション」と呼ばれるトランスクリプション・データストラクチュアを使用し、前記プロセッサが、グリフラベルを前記各グリフサンプルのグリフサンプルピクセル位置とペアリングするために前記トランスクリプション及び前記マッピングデータを使用する、ステップを有し、
前記プロセッサを動作して、前記それぞれペアリングされたグリフラベルによって識別された前記グリフサンプルの２Ｄ画像ソース内で発生する前記グリフサンプルのグリフサンプルピクセル位置を用いて前記グリフサンプル文字セット内の文字のそれぞれを示す文字テンプレートのセットを生成するステップであって、
各それぞれがペアリングされたグリフラベルが、前記文字テンプレートの各々に対する学習データサンプルとしてグリフサンプルピクセル位置を識別する、ステップと、
を備える文字テンプレート学習マシン動作方法である。
【００３２】
【発明の実施の形態】
本明細書中においては、用語「データ」又は「データアイテム」は、情報を示す又は情報を含む物理的信号を称する。第２のデータアイテムが第１のデータアイテムから得られる時、第１のデータアイテムを用いて第２のデータアイテムにアクセスできる時、第１のデータアイテムを復号することにより第２のデータアイテムが得られる時、又は第１のデータアイテムが第２のデータアイテムの識別子であり得る時、データの第１のアイテムは、第２のデータアイテムを「示す（indicate）」。例えば、図３の有向矢印３６は、文字テンプレートデータストラクチュア２０内の文字ラベルデータアイテム２８が文字”ａ”の画像を描く文字テンプレート２２を示すことを図示している。データアイテムが、各々が識別可能なアイテムの内の多くとも一つとマップされ得るデータアイテムのセットの内の一つである場合、当該データアイテムは、識別可能なアイテムのセットの内の一つを「識別する」か又は当該識別可能なアイテムのセットの内の一つの「識別子」になる。例えば、図３において、文字ラベルデータアイテム２８は、文字テンプレート２２を識別するように命令されてもよい。
【００３３】
画像を定義するデータは、「画像定義データ」と呼ばれてもよい。例えば、二次元（２Ｄ）アレイは、このアレイ内の各データアイテムが画像の各位置のカラーを示す値を付与することで、画像の全て又は画像のいかなる部分をも定義することができる。このタイプの画像表示（representation）において、このような画像位置の各々は、従来、「画像素子」又は「ピクセル」と呼ばれ、画像の小さな固有領域を示す。一般に、ブラック＆ホワイト（白黒）の２値画像においてピクセルの値は黒又は白を示し、黒は前景カラーであり且つ画像内のそれぞれのマーク又はアクティブ位置を示すように意図されると共に、白は背景カラーである。黒は前景ピクセルカラーとして使用される一般的なカラーなので、本明細書中の説明を通しては、明示的に表記される場合を除いて、黒ピクセルと前景カラーに関する言及は置換可能に使用される。ピクセルを定義するデータアイテムの２Ｄアレイによって示されるプロセッサ制御システムにおける画像は、「ビットマップ画像」又は「２値画像」と呼ばれる。
【００３４】
用語「ディスプレイ特性」は、ディスプレイ装置によって生成されるあらゆる人間の知覚を称し、単一ディスプレイ特性を含み、画像内のディスプレイ特性のパターンを共に形成する複数のディスプレイ特性を含んでいてもよい。「ディスプレイ・オブジェクト」又は「オブジェクト」は、可干渉性（コヒーレントな）単一物として知覚可能なディスプレイ特性である。画像は、この画像の提示（presentation）が特徴又はオブジェクトの知覚を生成することができる場合、ディスプレイ特徴又はオブジェクトを「含む」。
【００３５】
本明細書中において使用される「文字（character ）」は、単一で、ディスクリート（離散的）な、抽象的な、エレメント又はシンボルを意味する。例えば、文字は、書き込み又はプリント形式の言語で出現する抽象的なシンボルを含むことができる。言語における文字は、アルファベットや数を示すエレメントだけでなく、句読点、区分発音符、等式のような数学的表記に使用される数学的且つ論理学的シンボル、及び書き込み又はプリント形式の言語に使用される他のエレメントも含むことができる。より一般的には、文字は、英数字のエレメントの他に、表音文字、表意文字、又は象形文字のエレメントを含むことができる。例えば、象形文字言語におけるシンボルと音楽記号を示すシンボルとが、用語「文字」に含まれる。特定の言語、又は音楽のような他のシンボル表記に関連する文字の全てが、「文字セット」を備える。
【００３６】
「文字コード」は、プロセッサに対して文字（抽象的シンボル）を定義する又は示すプロセッサ制御マシン又はシステムにおけるデータアイテムである。言語に属する文字セットのような文字セットの符号化は、当該セット内の文字毎にそれぞれの文字コードを含む文字コードのセットの定義を必要とする。文字コードのセットの例は、英語の言語（以下、英語と呼ぶ）を構成するシンボルに対するアスキー（ASCII)コードのセットである。
【００３７】
「グリフ（glyph ）」は、例えば、用紙又はディスプレイスクリーンのようなマーキング媒体へ画像として実現される文字の、単一インスタンス又は例である。文字の画像が印字、走査、複写、又はファクスされる時、当該文字の画像がどのように生成されるかについて種々のファクタが影響を与え得るので、テキスト画像内の文字の一つのグリフが、当該テキスト画像内の同じ文字の他のグリフと一致しないこともある。
【００３８】
用語「複数のグリフの入力された２Ｄ画像ソースを定義する画像定義データ」（以下、「グリフサンプルの２Ｄ画像ソース」、「２Ｄ画像データストラクチュア」又は単に「２Ｄ画像」と称する）は、プロセッサ制御マシンのメモリデバイス内への記憶に適したデータストラクチュアを称する。データストラクチュアは、文字の複数のビットマップ表示が画像により定義される２Ｄ空間内に発生する２Ｄ画像を定義する。この２Ｄ画像データストラクチュアの構成は、個々のピクセル位置がプロセッサによってアクセスできるようにされているが、個々のグリフを備えるピクセルはプロセッサへアクセスできるデータのユニットとして初めは識別されないし、また、２Ｄ画像内の特定のｘ，ｙ座標位置がグリフ内に含まれたピクセルの内の一つを示すか否かについての情報もプロセッサは初めは入手できない。グリフサンプルの２Ｄ画像ソースは、本発明に従って文字テンプレートを学習するために使用されるグリフサンプルの入力されたソースである。２Ｄ画像は概念的には文書のページに類似しており、グリフを２Ｄ空間に縦そして横に分散させることで、実際の物理的ページの画像を頻繁に示す。２Ｄ画像はグリフを含むだけに限定されない。従って、グラフィカル・オブジェクト若しくは形状、絵、ハーフトーン（中間調）画像、線画、写真、他の絵画的エレメント、又はノイズを構成する画像のような他の画像オブジェクトが、グリフの入力された２Ｄ画像ソース内に含まれてもよい。
【００３９】
図２は、英語から成る文字セット内の文字のビットマップ表示を含む２Ｄ画像データストラクチュア１０を示す。図２において、２Ｄ画像１０内の英字（英語の文字）の各ディスクリートな表示は、グリフである。グリフ１２及び１４は、これらのグリフのそれぞれの画像を構成する個々のピクセルの概略的な表示を示すように拡大されている。図２における２Ｄ画像１０は、新聞の記事を走査することによって生成された２値画像を示すデータストラクチュアの部分を示すと共に、この２Ｄ画像内に含まれたラインセグメント１６、ノングリフ（nonglyph））を備えるピクセルを含む。
【００４０】
「テンプレート」又は「文字テンプレート」は、文字のビットマップされた画像を示すデータストラクチュアである。ビットマップされた文字テンプレートの「サポート」は、テンプレートが背景とは異なるピクセル位置のセットである。「文字ラベル」は、文字セット内の文字の一つを文字のビットマップされた画像を示すそれぞれの文字テンプレートを用いて固有に識別する情報を示すデータアイテムである。文字ラベルは、テンプレートを識別するためにASCII コードのような文字コードを示してもよいし、又は文字セット内の文字の特定の一つのビットマップされた画像を示すテンプレートとして当該テンプレートを固有に識別する、フォント識別情報、サイズ情報、又はタイプスタイル情報のような他の情報を示すこともある。「ラベル付けされた文字テンプレートのセット」又は「文字テンプレートのセット」は、少なくとも一つの文字テンプレートと、文字テンプレートを固有に識別するそれぞれの文字ラベルと、を含むデータストラクチュアである。
【００４１】
図３は、英語の文字セット内の文字を示すラベル付けされた文字テンプレートのセット２０を示す。文字テンプレート・データストラクチュア２２、２４、及び２６は、文字テンプレート２２から文字ラベル２８への例示した有向矢印３４によって示されているように、文字ラベルデータアイテム２８、３０、及び３２をそれぞれ示す。文字ラベルデータアイテム２８、３０、及び３２の各々における識別情報は引用符に囲まれた文字として図示されている。この表示は、文字の画像を示すピクセルと区別されるようにプロセッサ制御マシンのデータメモリ内に記憶されるそれぞれの文字コードを示すために本明細書の図中に使用されている。
【００４２】
完全な文字を示すピクセルの明示的２Ｄアレイに対して任意の方法で文字テンプレートを示すデータストラクチュアは、図３の文字テンプレートの図に限定されない。テンプレートは、縦のストローク、接合部（ジョイン）、アセンダ、ディセンダ、及びカーブ部のようなビットマップされた文字の構成部分の連結から構成されてもよい。テンプレートは、（明示的２Ｄアレイの）出力としての完全な文字を示すピクセルの明示的２Ｄアレイを生成する形式的モデルによって示されてもよい。
【００４３】
本明細書中に使用されているように、「トランスクリプション・データストラクチュア」又は「トランスクリプション」は、固有のメッセージストリングＭを示すデータストラクチュアである。メッセージストリングＭは、各々が複数の文字セット内の文字の内の少なくとも一つを示す、複数のメッセージサブストリング、ｍ₁、ｍ₂、．．．ｍ_nを含む。各ストリングｍ_iは、「トランスクリプション・ラベル・データアイテム」として又は単に「トランスクリプション・ラベル」として呼ばれる。形式的２Ｄ画像が、トランスクリプション内の文字によって示される情報と共に、グリフの入力された２Ｄ画像ソース内の一つ以上のグリフサンプルと、学習される文字テンプレートのセット内の文字テンプレートを示す一つ以上の文字ラベルと、の間でマッピングを設定する時、当該トランスクリプションは、（以下に定義される）形式的２Ｄ画像ソースモデルに「対応付けられる」といわれる。用語「マッピング」は、第１のセットの各メンバを第２のセットの単一メンバと対応させる二つのセット間で設定される対応のルールを称するため、本明細書中では数学的意味で用いられている。トランスクリプションが、トランスクリプションラベルの順序がトランスクリプションタイプの定義により明示的に示されたタイプのトランスクリプションでない場合、トランスクリプションラベルは、対応付けられる２Ｄ画像において、互いに、又はグリフサンプルに対して、含意又は推論される順序を持たない。
【００４４】
トランスクリプションは、トランスクリプション・データストラクチュアが以下の二つの条件の内の一つを満たした時、グリフの特定の入力された２Ｄ画像ソースに「対応付けられる」といわれる。
（１）トランスクリプション・データストラクチュアが、入力された２Ｄ画像上で実行される認識動作の出力から生成される又は生成されることができる。認識動作は、特定の２Ｄ画像上で実行されるコンピュータによる認識又は復号動作のようなプロセッサ制御であってもよい。或いは、認識動作はプロセッサ制御マシンを用いてユーザによって実行されてもよい。例えば、ユーザは、２Ｄ画像を目視検査することによって、及び文字コードを示す信号を生成するキーボードのような従来の入力デバイスを用いて文字コードを入力することによって、トランスクリプション・データストラクチュアを生成してもよい。
（２）トランスクリプション・データストラクチュアは、２Ｄ画像を生成する文書フォーマッティング動作のような画像レンダリング動作への入力ソースであるデータストラクチュアから生成される又は生成されることができる。トランスクリプションが対応付けられる入力された２Ｄ画像は、「対応付けられる２Ｄ画像」と呼ばれる。
【００４５】
「リテラル・トランスクリプション」はトランスクリプション・ラベルの順序付きシーケンスを含む。これらのトランスクリプション・ラベルの各々は、学習されるテンプレートのセット内の文字テンプレートに対して文字ラベルを示す。これらのトランスクリプション・ラベルの略全ては、トランスクリプション内でシーケンシャルな発生順で取り込まれて、対応付けられる入力された２Ｄ画像の目視検査によって、対応付けられる画像内で発生するそれぞれの個別のグリフとペアリングされることができ、当該対応付けられる画像は、グリフが対応付けられる２Ｄ画像の読み取り順に合わせたシーケンスで取り込まれる時にトランスクリプション内のそれぞれの文字ラベルによって示された文字を示す。図４は、グリフ１０（図２）の２Ｄ画像ソースに対応付けられると共に、トランスクリプション・ラベルの単一順序付きシーケンスを含むリテラル・トランスクリプション６０を示す。復帰改行文字６２は、この復帰改行文字の後に続く文字ラベルが対応２Ｄ画像の次行に位置決めされるペアリングされたグリフサンプルを有することを示すラベルである。復帰改行文字は、一般にテキストエディタを用いてテキスト文書を準備するユーザにより、テキストを示すデータストラクチュアへ挿入される。
【００４６】
「ノンリテラル・トランスクリプション」は、リテラル・トランスクリプションではないグリフの入力された２Ｄ画像ソースに対応付けられるトランスクリプションのタイプである。ノンリテラル・トランスクリプションは、例えば、エラーではないと共に目視検査によって対応付けられる２Ｄ画像内のグリフとペアリングされることができない文字を示すトランスクリプション・ラベルを含んでいてもよい。非文字ラベルデータは、学習されるテンプレートによって示される文字セット以外の文字セット内の文字を示すことができる。例えば、対応付けられる入力された２Ｄ画像内のグリフとして出現する特別の文字、数学的シンボル、又は音楽記号が、拡張された文字セット内の文字として又は一つ以上のASCII 文字のストリングとして、トランスクリプションラベル内に示されてもよい。ノンリテラル・トランスクリプションは、対応付けられる２Ｄ画像内の幾つかのグリフに対するトランスクリプション・ラベルを意図的に省略できる。このタイプのトランスクリプションの例は、事前プリント形式の２Ｄ画像と対応付けられる例であり、この例において、トランスクリプションは、この形式のフィールドへ挿入される情報に対するトランスクリプション・ラベルは含むが、命令情報を提供するグラフィック・エレメント及びグリフのような、この形式上の事前情報として出現するものに対するトランスクリプション・ラベルは省略する。
【００４７】
「タグ・トランスクリプション」は、非文字ラベルデータが「タグ」又は「タグデータ」と呼ばれる情報を示すグリフの対応付けられる２Ｄ画像ソースのノンリテラル・トランスクリプションのタイプである。この「タグ」又は「タグデータ」と呼ばれる情報は、文書プロセッシング動作によって変換されると、対応付けられる２Ｄ画像のフォーマットにおいて、又は当該対応付けられる２Ｄ画像内のグリフの一部として、知覚可能なディスプレイ特徴を生成する。タグデータは、ページ、段落、及び区切れの箇所（line breaks ）のような２Ｄ画像のフォーマット特性とこの２Ｄ画像内のグリフの位置の決定論的な行間隔とを識別する情報、グリフが出現するフォント又はフォントバリエーションのような一つ以上のグリフの一つ以上の外観属性を指定する情報、又は文書がフォーマットされる時にトランスクリプション内の明示的トランスクリプションラベルが全くマップされることができない２Ｄ画像内のグリフを生成する結果を生じる情報、を含む。タグによって示され得る種々のタイプの情報は、本明細書中では、一般に、「マークアップ情報」と呼ばれる。タグデータは、一般に、文書プロセッシングシステム同士の間で文書ストラクチュア及び内容を示すための標準文書交換フォーマットとして作用するように意図されたデータストラクチュア内で発生する。このようなデータストラクチュアは、入力文書データストラクチュア又は入力画像のいずれかを標準交換言語で文書を示すデータストラクチュアへ変換する動作の出力として一般に生成される。このような言語の例は、SGML（Standard Generalized Markup Language）、ODA （Office Document Architecture）、HTML（Hypertext Markup Language ）を含む。タグデータはデータストラクチュアにおいて発生し、当該データストラクチュアは、マークアップ言語を使って生成された文書データストラクチュア内で発見される文書のフォーマット及び論理的ストラクチュアのための命令をデータストラクチュア内に含む自動テキスト・レイアウトシステムとも呼ばれる文書指定及びフォーマッティングシステムによって使用又は生成される。このような文書指定及びフォーマッティングシステムの例は、GML(Generalized Markup Language)、TeX 及びLaTeX を含む。
【００４８】
図５は、テクニカル・ディクショナリのディクショナリ・ページのためのタグ・トランスクリプション・データストラクチュア４０を示す。タグ・トランスクリプション４０は、図６の２Ｄ画像５０として示されたディクショナリ・ページの画像と対応付けられる。タグ・トランスクリプション４０は、ディクショナリ・エントリのエントリ、ネーム、カテゴリ、及びボディそれぞれの構造的部分を識別するタグ・データを示すトランスクリプション・ラベル４２、４４、４６、及び４８を含む。
【００４９】
図５及び図６は、トランスクリプション内の明示的トランスクリプション・ラベルは、２Ｄ画像内のグリフとマップされることができない当該２Ｄ画像内のグリフが結果的に発生されるタグ・データの例を示している。画像５０は、文字"electr"を描くグリフのシーケンスの回りに左右の括弧５４及び５５をそれぞれ含む。タグ・トランスクリプション４０は左右の括弧５４及び５５に対するトランスクリプション・ラベルを含まないが、メッセージ・サブストリング"electr"がワードエントリのためのカテゴリ情報であることを示すトランスクリプション・ラベル４７を含むことが理解され得る。文書プロセッシング動作によってフォーマッティング情報として解釈される時、メッセージ・サブストリング" ＼category" は、画像５０内のディスプレイ・オブジェクトとして左右の括弧５４及び５５を生成したと推論される。
【００５０】
「トランスクリプションのセット」は同じタイプの少なくとも二つのトランスクリプションを称し、これらのトランスクリプションの全てが単一２Ｄ画像に対応付けられる。数学的にトランスクリプション・データストラクチュアのセットは正規セットであるとみなされる。図７は、グリフ１０の入力された２Ｄ画像ソースにおいて"from"を示すグリフに対して"F(r｜n)(om ｜orn)" の代替トランスクリプション・ラベル７２を提供して、画像１０に対して４つのトランスクリプション・データストラクチュア７０のセットを生成する、単一トランスクリプション・メッセージの直截的ケースを示す。
【００５１】
「形式的トランスクリプション・モデル」又は「トランスクリプション・モデル」は、トランスクリプションのメッセージストリングを、有限状態遷移ネットワーク又は文法のような正規セットとして示すデータストラクチュアである。例えば、有限状態遷移ネットワークは、各遷移がトランスクリプション内のトランスクリプション・ラベルに対応付けられる多数の遷移を有している。
【００５２】
トランスクリプションのセットは、形式的トランスクリプションモデルとして示されてもよい。図８におけるモデル８００は、図７におけるトランスクリプション７０のセットのための有限状態遷移ネットワークの例を図示し、トランスクリプション７０内のワード"From"に対して発生する遷移を示す。
【００５３】
「形式的２次元画像ソースモデル」又は「形式的２Ｄ画像モデル」は、２Ｄ画像内のグリフサンプルのグリフ位置とそれぞれの文字ラベルによって示される文字のサンプルとしてグリフを識別するテンプレートの文字ラベルとの間でマッピングを定義するデータストラクチュアである。形式的２Ｄ画像モデルは、本明細書中の学習技術及びシステムへの明示的入力であり、且つ形式的文法又は有限状態遷移ネットワークのような形式的記述言語の形態における命令を含み、これらの命令は、認識システムが定義される使用可能な２Ｄ入力画像のセットとこの使用可能な画像のセットに対応する使用可能なトランスクリプションのセットに関して、構造的特徴及び関数的特性を含む「事前」情報を特徴とするか又は記述する。形式的２Ｄ画像は、学習されようとするテンプレートをモデリングする文字テンプレートモデルを記述すると共に、文字テンプレートの初期セットを含む。形式的２Ｄ画像モデルは、それを使用するパーザの命令（即ち、コード）とは無関係の明示的データストラクチュアとして存在する文法ベースの文字ストリング解析システムにおける形式的文法に類似している。
【００５４】
テキストライン分離又は個別のグリフ分割の事前学習ステップを全く必要としないように、形式的２Ｄ画像モデルは、本発明が２Ｄ画像の定義域内で動作するのを可能とする。構造的には、本発明の学習技術及びシステムに使用するのに適したモデルのタイプであるように意図された形式的２Ｄ画像モデルが、使用可能な２Ｄ画像のセット内に含まれる画像内の使用可能な画像オブジェクト（例：グリフ、グラフィカル・オブジェクト、写真、他）が２Ｄ画像内でいかにして空間配列されるかについての画像位置情報を定義する。頻繁であるが、必ずしもそうとは限らずに、画像が英語の文書を示す時、モデルによって定義されるグリフ位置情報は、この文書が人間によって読み取られる時の当該文書に対する従来の読取り順と一貫性がある。下記の図示された実施の形態において、図２におけるグリフ１０の入力された２Ｄ画像ソースを含む画像は矩形であり、ｘが右へ大きくなり、ｙが下へ大きくなり、且つ上部左コーナーがｘ＝ｙ＝０である画像座標システム１３（図２）を有していると仮定される。ノングリフ画像オブジェクトに対する画像位置情報のモデルの記述は、所与の入力された画像の部分又は複数の部分がグリフサンプルの使用可能な画像位置として除去されるのを許容する。モデルのこの態様が広範囲の入力された２Ｄ画像がグリフサンプルソースとして適用されるのを許容し、当該モデルは、例えば、プリントされた楽譜の画像、式の画像、及びビジネスレター、記入用紙、電話の職業別ページのような固定又は公知の構造的特徴を有する画像、を含む入力された多数の２Ｄ画像のクラスのどれか一つを記述するように構成されてもよい。
【００５５】
形式的２Ｄ画像モデルは、トランスクリプション内のメッセージサブストリングによって示される情報と、２Ｄ画像内に現れる文字ラベル及び画像内にサブストリング毎に現れるサブストリングの外観に関する実際のメッセージサブストリングと、のマッピングを定義するルールのセットとして、トランスクリプションラベル情報を表現する。このマッピングは、使用可能な２Ｄ画像のセットと使用可能なトランスクリプションのセットと文字テンプレートのセットとの間でマッピングを効果的に設定し、学習技術が使用可能な２Ｄ入力画像の内のどれか一つ、即ち、テキストストリングのラインのどのシーケンスにおける文字のどのシーケンスが、特定のトランスクリプションに対応付けられる特定の２Ｄ入力画像に最良整合するかを決定するのを可能にする。この最良整合情報から、モデルは、学習技術が２Ｄ画像内のグリフサンプルの位置を決定すると共に文字ラベルをサンプルへ割り当てるのを可能にする。学習技術によって決定されなければならいグリフサンプルに関する特定位置情報は、文字テンプレートを定義する特定テンプレートモデルの関数である。テンプレートモデルは、文字テンプレートに従ってグリフサンプルがいかにして画像内で互いに対して空間配列されるか又は位置決めされるかを定義する。テンプレートがセグメンテーションベースモデルとして定義された場合、学習技術は当該形式的モデルによって設定されたマッピングからグリフ境界ボックスを示す情報を生成することが可能でなければならない。テンプレートがサイドベアリングモデルのようなノンセグメンテーションベースモデルとして定義される場合、学習技術は当該形式的モデルによって設定されたマッピングからグリフ起点位置を示す情報を生成することが可能でなければならない。
【００５６】
学習手順への入力として使用されようとする形式的２Ｄ画像モデルの設計は、使用されようとするトランスクリプションのタイプ及び内容によって影響を受け、従って、学習データを学習手順へ提供する際により一層のフレキシビリティをユーザへ許容する。トランスクリプションの構造的及び関数的特徴に関する形式的２Ｄ画像モデル内に含まれる情報は、グリフサンプルと文字ラベルの間で必要なマッピングを設定するために当該モデルによって必要とされる情報のみであり、その情報は、当該モデルによって定義される使用可能な画像のセットから特定の画像を指定するために当該モデルによって必要とされる追加の情報でもある。トランスクリプション内の情報が、グリフの対応付けられる入力された２Ｄ画像のリテラル・トランスクリプションからさらに遠くへ取り除かれれば取り除かれる程、正確なマッピングを設定するために２Ｄ画像モデル内ではもっと多くの情報が必要とされる。
【００５７】
本発明に使用されるように意図されると共に下記の図解されている実施の形態に使用されるタイプの、形式的２Ｄ画像ソースモデルの実現の例は確率論的有限状態遷移ネットワークであり、当該ネットワークは、正規文法としてのその生成ルールを示し、文字形状の記述及び位置決めのサイドベアリングモデルをその文字テンプレートモデルとして明示的に定義する。マルコフソースとしてのこのモデルの簡略化された一般的な説明が、図９においてモデル８２０として略示され、本発明の特定の実現の説明において以下により詳細に記述されている。
【００５８】
図１０のブロック図に示された本発明の文字テンプレート学習方法２００は、全てが上記に定義されたグリフサンプルの２Ｄ画像ソース１０と形式的トランスクリプションモデル８１０と画像モデル４０の入力を備える。文字テンプレート学習方法２００は、文字テンプレートのセット及び特定の文字セット用のこれらのテンプレートのそれぞれの文字ラベルデータアイテムを含む文字テンプレートデータストラクチュア２０を生成するためにこれらの入力されたデータのソースを使用する。
【００５９】
本発明は、グリフサンプルの２Ｄ画像ソースが、一般に、特定のフォントにおいて文字セット内の固有文字の複数のサンプル画像を含み、２Ｄ画像のｘ、ｙ座標の位置と各サンプルの文字識別を示す情報が知られていた場合、これらのサンプルの特定のフォントにおいて、２Ｄ画像内の各固有の文字毎に学習された文字テンプレートが、各グリフサンプルを構成するピクセルのセットのピクセルカラーから導入されることができる。本発明は、２Ｄ画像に対応付けられるトランスクリプションが、グリフサンプルのそれぞれのサンプルの文字を識別するために使用されるかもしれない２Ｄ入力画像内のグリフの各々に対して識別及びシーケンス情報を提供することも認識する。本発明への入力として明示的に指定された文法ベースの２Ｄ画像ソースモデルは、グリフサンプルを配置するためにグリフサンプルの２Ｄ画像ソース内で発生するグリフに関する情報の空間的位置決めを定義すると共に、２Ｄ画像内で発生するグリフのそれぞれのグリフと、グリフサンプル文字セット内の文字を示すグリフラベルの、マッピングを示すマッピングデータを定義する。
【００６０】
文字テンプレート学習方法２００は、２Ｄ画像１０内にグリフが発生される文字に対してのみラベル付けされた文字テンプレートを生成することが可能であると供に、文字テンプレートが学習される文字セットの完成度は、文字セット内の文字毎に少なくとも一つのグリフサンプルを有するグリフサンプルの２Ｄ画像ソース１０に依存する。例えば、英文字”ｊ”、”ｑ”、”ｘ”及び”ｚ”は図２に示された２Ｄ画像１０の部分に現れないので、文字テンプレート学習方法２００は、この２Ｄ画像１０の部分のみがグリフサンプルのソースとして使用された時はこれらのテンプレートを生成しない。便宜上、文字テンプレートが学習されている文字セットは以下「グリフサンプル文字セット」と呼ばれて、グリフサンプルの２Ｄ画像ソース１０内に発生するグリフサンプルへの依存度を示す。各学習されたテンプレートの品質は、一般に、このグリフサンプルの２Ｄ画像ソース１０内で使用可能なグリフサンプルの数に依存する。
【００６１】
図１１に示された文字テンプレート学習方法の汎用ステップ２００は、ボックス２２０において、文法ベースの２Ｄ画像ソースモデル４０によって定義される空間位置決め情報を用いて２Ｄ画像１０内の各グリフサンプルの位置を決定するステップを有すると供に、ボックス２５０において、トランスクリプション７０と２Ｄ画像１０内に発生するグリフサンプルの内の各々を当該グリフサンプルによって示されるグリフサンプル文字セット内の文字を示すグリフラベルへマップする２Ｄ画像ソースモデル４０によって定義されたマッピングデータとを用いて２Ｄ画像１０内の各グリフサンプルの位置を決定するステップを有する。ステップ２２０及び２５０の結果は、文字テンプレートが生成されるかもしれない学習データであるラベル付けされたグリフサンプルのセットを示すデータストラクチュアを生成することである。次いで、ボックス２７０において、文字テンプレートはラベル付けされたグリフサンプルのセットを示すデータストラクチュアを用いて構成される。文字テンプレート学習方法２００の特定の実現において、グリフサンプルとこれらのラベルが同時期に決定されると供に、ステップ２２０及び２５０における関数はステップ２７０へ入力される学習データを生成するために結合されるのがビューされる。この結合された関数が点線のボックスでステップ２２０及び２５０を囲む手順２１０によって図１１に示されている。
【００６２】
ステップ２２０及び２５０によって生成される学習データを示す出力されたデータストラクチュアの編成及び内容は、文字テンプレート学習方法２００の特定の実現の態様を反映する幾つかの相関ファクタによって決定される幾つかの形式の内の一つを取ってもよい。
【００６３】
学習されている文字テンプレートの文字テンプレートモデルがサイドベアリングモデルである時、手順２１０はラベル付けされたグリフサンプルを示す学習データを生成しなければならない。当該ラベル付けされたグリフサンプルの各々は、２Ｄ画像１０内のグリフサンプルの画像起点位置を示すグリフサンプルの２Ｄ画像ソース１０内のｘ、ｙ位置によって識別される。図２１に伴う説明を手始めに詳細に記述される新しいテンプレートの構成技術は、ステップ２７０において、２Ｄ画像１０内のグリフサンプルの画像起点位置を示すラベル付けされた画像起点位置のリストを用いて２Ｄ画像文字テンプレートを構成するために使用される。
【００６４】
学習されている文字テンプレートの文字テンプレートモデルがセグメンテーションベースモデルである時、ステップ２２０は、２Ｄ画像１０内のグリフサンプル毎に境界ボックスを発見し、ラベル付けされた境界ボックスの座標、又は２Ｄ画像１０から抽出されたラベル付けされた分離されたグリフサンプルのセットを学習データとして生成する。任意の周知のピクセル平均化及び閾値化技術が、ステップ２７０において、セグメント化又は分離された学習データから２Ｄ画像文字テンプレートを生成するために使用される。一つのこのような技術において、各サンプル内のピクセル位置毎の前景及び背景の数が計算され、この数がサンプルの総数で割り算され、平均値が前景又は背景の決定をもたらすかを評価するために閾値が使用される。
【００６５】
図１２に関して、米国特許第5,321,773 号に開示されたものと同様の確率論的有限状態遷移ネットワークとして示される２Ｄ画像ソースモデル８３０及び有限状態遷移ネットワーク８５０は、トランスクリプション−画像ネットワーク８７０と呼ばれる併合された有限状態ネットワークを生成するネットワーク併合プロセス３００への入力である。併合されたネットワークは、当該併合されたネットワークを介して遷移の最良シーケンス又は経路を生成するヴィタビ復号プロセス３３０を用いてグリフサンプル１０の２Ｄ画像ソースを復号するために使用される。文字テンプレート５００の初期セットは復号プロセス期間中使用される。点線矢印８３２は、前述のように文字テンプレートがネットワーク８３０内の遷移上の属性であるかもしれないため、文字テンプレートの初期セット５００が有限状態遷移ネットワーク８３０の一部であることを示す。ヴィタビ復号プロセス３３０によって生成されると、プロセス３７４は、トランスクリプション−画像ネットワーク８７０を介して最良の経路を構成する遷移とこれらの遷移の２Ｄ画像１０内で対応付けられる画像の起点位置とを識別する。プロセス３８０は、非ヌル（non-null）のテンプレート属性を有する遷移から画像起点位置とメッセージストリングとを決定する。これらの画像起点位置は、２Ｄ画像１０内のグリフの推定位置を示す。学習データ即ちラベル付けされたグリフ画像起点位置３９０は、このシーケンスのプロセスの出力である。
【００６６】
図１３におけるフローチャートは、形式的２Ｄ画像ソースモデルとして有限状態遷移ネットワークを使用すると共にトランスクリプションを示すため、トランスクリプションネットワーク８５０を使用する図１１の文字テンプレート学習の実現のステップを示す。復号ステップ３３０は、トランスクリプション−画像ネットワーク８７０を介して最良の経路を決定するためにテンプレートの現在セットを使用する。復号の初期反復の間、任意の内容を有する文字テンプレートの初期セットはトランスクリプション−画像ネットワーク８７０内のトランスクリプションと対応するためにプロセッサによって発生されてもよい。ボックス３３０、３８０、４００、及び４９０における復号ステップ、学習データ抽出ステップ、テンプレート構成ステップ、及び文字セット幅決定ステップは、ボックス３８４においてテストされる停止条件が満たされるまで反復され続け、初期反復に続く反復の間、復号ステップ３３０において使用されるテンプレートのセットが、テンプレート構成ステップ４００の出力として生成されるテンプレートの現在セットである。プロセス３７４と３８０として図１２に示された、２Ｄ画像１０を復号することによって生成された最良の経路からの学習データ抽出は、図１３において組み合わされたプロセス３８０として示されている。プロセス３００、３３０、及び３８０は以下に詳細に説明される。
【００６７】
図９に関しては、画像のセットのストラクチュアは、画像発生を画像ソースモデル８２０としてモデリングすることにより形式的に捕捉され、これもマルコフソースと呼ばれる。マルコフソースは、状態（ノード、頂点）の有限セットＮと有向遷移（ブランチ、エッジ）Ｂのセットから成る。各遷移ｔは、それぞれｔの先行値（左）状態及び後続値（右）状態と呼ばれるペアの状態Ｌ_t及びＲ_tを連結する。Ｎの二つの区分されたメンバは、参照番号８２２の初期状態ｎ_Iと参照番号８２４の最終状態ｎ_Fである。どの遷移もその先行値としてｎ_Fを持たないため、最終状態がトラップ状態であると仮定される。各遷移ｔは、参照番号８２６の４つの要素から成る属性（Ｑ_t、ａ_t、ｍ_t、Δ_t）と対応付けられ、Ｑ_tがテンプレートであり、ａ_tが遷移確率であり、ｍ_tがメッセージストリングであり、参照番号８２８で示されるΔ_tが文字のセット幅に類似するｔのベクトル変位である。（文字セット幅の記述に付いては添付の図１に関する前述の説明を参照。）図示されている実現において、これらの属性の内の幾つかは特定の遷移に対してヌルであってもよいし、画像ソースモデル８２０の各遷移メッセージストリングｍ_tは、単一文字を含むエンプティストリング∈、その他であると仮定され、ベクトル変位８２８はマイナス、ゼロ、又はプラスのスカラ（scalar）成分値を有することができる。テンプレートＱ_tのサポート（ノンゼロのセット、前景ピクセル）は通常局所テンプレート座標システムの起点の近くの小さな領域内に局所化されるが、このテンプレートＱ_tは、画像平面Ωの全体に対して定義される。
【００６８】
マルコフ画像ソースモデルは完全経路上の確率分布を定義し、
【００６９】
【外１】

【００７０】
を経路πに対応するメッセージとしてメッセージ上の確率分布を帰納する。
【００７１】
各経路πにはベクトル画像ピクセル位置ｘ_{1 ...}ｘのシーケンスと複合画像Ｑが対応している。Ｑ［ｘ］は、その局所座標システムの起点がｘに位置するようにシフトされるＱを示し、二つのテンプレート画像の合併はこれらの二つのテンプレート画像のいずれかが前景ピクセルを有する前景ピクセルを持っている画像である。
経路πに対して、
【００７２】
【外２】

【００７３】
は経路の変位として定義され、
【００７４】
【外３】

【００７５】
のｘ及びｙ成分をそれぞれ示す。ペア（ｘ_i、ｔ_i）とマルコフソースの対応している遷移は、「ラベル付けされた遷移画像起点位置」と呼ばれる。完全経路によって定義される全てのこのようなペアのセットはこの経路のラベル付けされた遷移画像起点位置のセットと呼ばれる。各遷移ｔに対して、Ｎ_tはｔでラベル付けされた経路の遷移画像起点位置の数を表し、対応している遷移画像起点位置は
【００７６】
【外４】

【００７７】
で示される。
【００７８】
フォントは一般に文字のグリフの前景ピクセルがテキストストリング内でオーバーラップしない（同じ前景ピクセルを共有する）ようにデザインされるという前提条件に基づいて、図９及び図示された実現において示されたタイプの画像ソースモデルが、（ｘ_j、ｔ_j）において位置決めされたテンプレートのピクセルと（ｘ_i、ｔ_i）で位置決めされたテンプレートのピクセルの合併が全ての経路πに対してｉ≠ｊであるエンプティセットとなるようにデザインされることが要求される。この必要条件は隣接テンプレートサポートの「テンプレート非結合制約条件」と呼ばれてもよい。
【００７９】
画像ソースモデル８２０（図９）は、双方向である基礎的経路を介してメッセージストリングと画像の間の関係又はマッピングを定義する。
【００８０】
画像ソースモデルは、モデルによって発生されたメッセージの言語に対して有限状態アクセプタを定義する。従って、メッセージストリングＭが付与されれば、
【００８１】
【外５】

【００８２】
である完全経路πが存在するか否かを決定することは簡単であり、このような経路が存在すれば、それを見つけるのは簡単である。画像、
【００８３】
【外６】

【００８４】
は、Ｍの画像である。画像ソースモデルがメッセージ言語に対して決定論的なアクセプタを定義する場合、画像ソースモデルを用いたメッセージ画像形成のプロセスは単純な手順の変換（解釈）を容認する。入力されたメッセージ「プログラム」によって制御されながら、出力された画像平面内で所謂「理想的な」画像を描く画像形成装置（イメージャ）オートメーションを想像されたい。このイメージャのストラクチュアは、図９に示されたタイプの有限状態画像ソースモデルによって定義される。イメージャは、内部状態ｎ_Iにおいて出力される画像形成平面の位置（０、０）で開始される。イメージャは、入力されたメッセージ内の第１の文字を検査し、それをｎ_Iからの遷移上のメッセージラベルと比較し、そのメッセージが入力された文字と整合されるブランチを選択する。選択されたブランチと対応付けられたテンプレートが非ヌル（non-null）である場合、イメージャは、テンプレートの起点をイメージャの現在画像位置と位置合わせして、テンプレートのコピーを出力された画像平面上に描画する。イメージャは次にイメージャの現在画像位置をブランチ変位分インクリメントし、その内部状態を選択されたブランチの後続値ノードになるように更新する。このプロセスは、理想的画像、
【００８５】
【外７】

【００８６】
即ち、ネットワークにわたる初期ノードｎ_Iから最終ノードｎ_Fまでの経路が完成するまで、入力されたメッセージの各文字に対して反復される。
【００８７】
画像ソースモデル８２０は、画像デコーダとして、画像のリテラル・テキスト・トランスクリプション（マッチング又は論理的ストラクチュア・タグを持たないトランスクリプション）を生成するために、参照された画像から単純なテキストストリングを抽出するために使用されてもよい。これらのテキストストリングは、参照される画像が復号されている間、モデル８２０を介して識別された経路内に含まれる各遷移に対応付けられたメッセージストリング属性から抽出される。図１４における画像ソースモデル８３０は、単純なテキストコラムの共通の空間的ストラクチュアを有する２Ｄ画像のセットをモデリングすると共に、画像復号のプロセスをより詳細に図示するために使用される。単純テキストコラムは、テキストラインの垂直シーケンスによって構成され、ホワイト（背景）スペースと交互になっている。水平のテキストラインは、図１に示されたサイドベアリングモデルに応じた文字タイプセットのシーケンスである。グリフサンプルの２Ｄ画像ソース１０は、画像ソースモデル８３０によってモデリングされるタイプの代表的画像である。モデル８３０は、英文テキスト用の従来の読出し順序に追従するテキストの単一列の２Ｄ画像を介して経路をモデリングするが、この場合、経路が画像を介して当該画像の上部左コーナでスタートし、下部右コーナへ進み、反復される１Ｄ（１次元）ラインのシーケンスにおいて当該画像の左から右へ進むと仮定される。ネットワーク内のノード同士間の各遷移ｔ_iは、図１４に示される対応付けられた４つの要素から成る属性を［ａ_t］（Δ_t）、ｍ_t、Ｑ_tの順に有し、テンプレートＱ_tが一つの遷移に対応付けられる時、メッセージストリングｍ_tは、当該テンプレートによって示される文字を識別する。これらの属性の内のいくつかはいくつかの遷移に対してヌルであることが理解されよう。
【００８８】
図１４に関しては、状態ｎ₁は垂直ホワイトスペースの作成に対応している。どの画像テンプレートもｔ₁と対応されないので、ブランチｔ₁が走査される度に、イメージャは出力される画像形成平面上に何も描かないで、１行（ロー）下へ下がる。ある点において、イメージャはテキストラインのトップへ到達し、ブランチｔ₂に追従する。ｔ₂の変位（０、Ｂ）はカーソルをテキストベースラインへ下ろす。Ｂはベースラインより上のフォント高さである。状態ｎ₂は水平テキストラインの作成を示す。ｎ₂からｎ₂までの自己遷移には２つのタイプがある。画像テンプレートＱ_iでラベル付けされたＦの遷移ｔ_i及び単一文字メッセージストリング”ｃ_iが、出力された画像平面上に個々のグリフを描くために使用される。これらのブランチの各々に対応付けられる水平の変位は、文字セット幅、
【００８９】
【外８】

【００９０】
である。ブランチｔ₃とｔ₄は、これらに対応付けられるブランクテンプレートを有すると共にホワイトスペースを示す。ブランチｔ₃は最小（１ピクセル）幅のホワイトスペースを示し、微細な空間調整のために使用される。ブランチｔ₄はフォント依存幅Ｗ_sの実際の空間文字に対応しており、スペースメッセージ””でラベル付けされる。テキストラインの終りでは、イメージャは、ｔ₅（ラインフィード"line feed" ）を走査し、キャリッジリターン("carriage return") 状態ｎ₃を実行する。ｔ₅上のメッセージは新しいライン文字("＼ｎ" ）である。ｔ₅に対応付けられる垂直の変位はフォントデプスＤである。ブランチｔ₆の走査毎にイメージャは１ピクセルずつ左へ移動する。最後に、遷移ｔ₇はイメージャを状態ｎ₁へ戻し、このプロセスは次のテキストラインにも反復される。最後のテキストラインが作成された後、イメージャはｔ₈を走査して最終状態ｎ_Fを生成する。
【００９１】
グリフサンプルの２Ｄ画像ソース１０と対応付けられた使用可能なトランスクリプションのセットを示すトランスクリプション・データストラクチュア７０も以下に「トランスクリプション・ネットワーク」と呼ばれる有限状態ネットワークとして示される。トランスクリプション・ネットワーク８５０は、図９に示されたタイプの有限状態画像ソースモデルの簡略化された形式であり、この形式において、各遷移はメッセージストリングｍ_tに対応付けられるが、他の属性には対応付けられない。図１５は、シンボル”＼ｎ”がニューライン文字を示す二つのトランスクリプションストリング”ｏｒｎ＼ｎ”と”ｏｍ＼ｎ”を含むセットを示しながら、トランスクリプション７０に対してトランスクリプション・ネットワーク８５０の一部８５２の単純な例を示している。画像ソースモデル８３０の場合と同様に、図示されている実現において、トランスクリプション・ネットワーク８５０の各遷移メッセージストリングｍ_tは、単一文字を含むエンプティストリング∈、その他であると仮定される。トランスクリプションネットワーク８５０を示すデータストラクチュアは、ボックス２９２で、図示された実施の形態におけるテンプレート学習方法への入力として受信され且つ記憶される。トランスクリプションネットワーク８５０は、従来の手動又は自動プロセス、例えば、有限状態ストリング文法及び遷移ネットワークを生成するための従来のツールを使用するプロセスによってトランスクリプション・データストラクチュア７０から生成されてもよい。
【００９２】
画像ソースモデル８３０及びトランスクリプションネットワーク８５０は、理想的な画像内の指定された画像位置に配置され且つトランスクリプションと一致しているメッセージストリングに応じて選択された文字テンプレートのコピーの空間的配列である理想的な画像を結合定義し、また、この理想的な画像は、当該トランスクリプションが対応付けられた実際の入力された２Ｄ画像の近似である。これにより、経路に一致している理想的な画像、つまりは経路、つまりはトランスクリプションネットワーク８５０によって発生されるメッセージストリングを発生するように復号を制約することが可能であった場合、画像ソースモデル８３０を用いた２Ｄ画像１０の復号が最も効率的であることがわかる。画像ソースモデル８３０をトランスクリプションネットワーク８５０に併合することにより、画像ソースモデル８３０を用いる復号プロセスにこのような制約条件を課すことができる。
【００９３】
ネットワーク併合ステップ３００への入力（図１２及び図１３）は、２Ｄ画像ソースモデル８３０及びトランスクリプションネットワーク８５０である。このステップの出力は、トランスクリプション−画像ネットワーク８７０と呼ばれる図９に示されたタイプの第２のマルコフ画像ソースモデルである。トランスクリプション−画像ネットワーク８７０は、以下の二つの特性によって定義される。
（ａ）トランスクリプション−画像ネットワーク内の各完成経路πに対して、πと同じトランスクリプションストリング及び画像を有する完全経路が画像ソースモデル８３０内にあること、
（ｂ）画像ソースモデル８３０内の完成経路π毎に、πのトランスクリプションが、トランスクリプションネットワーク８５０によって発生されたトランスクリプションのセット内にある場合、πと同じトランスクリプションストリング及び画像を有する完全経路がトランスクリプション−画像ネットワーク８７０内にあること。トランスクリプション−画像ネットワークによって発生されたトランスクリプションのセットは、画像ソースモデル８３０によって発生されたトランスクリプションのセットとトランスクリプションネットワーク８５０によって発生されたトランスクリプションのセットの交差点である。所与のトランスクリプションを有するトランスクリプション−画像ネットワークによって発生された理想的な画像は、このトランスクリプションを有する画像ソースモデル８３０によって発生された理想的な画像と同じである。
【００９４】
ネットワーク併合ステップ３００は、トランスクリプションネットワーク状態が上記に定義された二つの特性（ａ）と（ｂ）を満たすように併合されたトランスクリプション−画像ネットワーク内のペアの画像ソース及びトランスクリプションネットワーク状態同士の間で遷移を構成することに本質的に関与している。これらのトランスクリプションは以下の三つのステップによって構成される。
（１）ｍ_t＝∈である（ｔに対応付けられたメッセージがヌルストリングである）画像ソースモデル８３０の各遷移ｔに対して、ｊ＝０．．．Ｔ−１の各々に対して、ノード（Ｌ_t，ｓ_j）からノード（Ｒ_t，ｓ_j）までの遷移をトランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような遷移毎に対応付けられたメッセージ、テンプレート、及び変位は、ｔのメッセージ、テンプレート、及び変位と同じである。
（２）ｍ_t≠∈である（ｔに対応付けられたメッセージは単一文字ストリングである）画像ソースモデル８３０の各遷移ｔに対して、及びｍ_t'＝ｍ_tであるトランスクリプションネットワーク８５０の各遷移ｔ’に対して、ノード（Ｌ_tＬ_t'）からノード（Ｒ_tＲ_t'）までの遷移を当該トランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような各遷移に対応付けられたメッセージ、テンプレート、及び変位は、ｔのメッセージ、テンプレート、及び変位と同じである。
（３）ｍ_t＝∈であるトランスクリプションネットワーク８５０の各遷移ｔ’に対して、及びｉ＝０．．．Ｎ−１の各々に対して、ノード（ｎ_iＬ_t'）からノード（ｎ_iＲ_t'）までの遷移をトランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような各遷移に対応付けられたメッセージとテンプレートは共にエンプティであり、そのベクトル変位は０である。
【００９５】
トランスクリプション−画像ネットワーク８７０の部分の構成は、図１５に示されたトランスクリプションネットワーク８５０の単純なテキストコラム及び部分８５２に図１４における画像ソースモデルを用いて、図１６、１７、１８、及び１９において概略的に示されている。図１６は、２次元（２Ｄ）格子８６０において、ネットワーク併合プロセス３００によって構成されたトランスクリプション−画像ネットワークのノードをドット又は点として示し、２Ｄ格子８６０において、画像ソースモデルノード８６２を水平に位置すると共にトランスクリプションネットワークノード８６４を垂直に位置する。初期状態（ｎ_Iｓ_I）と最終状態（ｎ_Fｓ_F）のそれぞれに対する格子点８６６と８６８は、ドット回りの円によってそれぞれ表される。図１７は、トランスクリプション−画像ネットワーク内の遷移を上記手順のステップ（１）により構成した後のトランスクリプション−画像ネットワークを示している。簡略化するため、遷移確率は図示しない。図１８は、ネットワーク併合プロセスのステップ（１）に追加された図１７の遷移を点線で示し、上記手順のステップ（２）におけるトランスクリプション−画像ネットワークに追加された遷移を実線で示している。遷移確率と変位はここでも図示しない。図１５におけるトランスクリプションネットワーク８５０がエンプティメッセージストリングを有する遷移を含まないので、遷移を構成するための上記手順のステップ（３）はこの実施の形態には適用されない。
【００９６】
完全経路上に置くことができないあるノードがそのノードが復号に使用される前に結合されたトランスクリプション−画像ネットワークからデリートされてもよい。デリートされたノードに入出力する全ての遷移も同様である。図１９は、この簡略化が実行された後に残っている結合されたトランスクリプション−画像ネットワークの部分８７２を図示している。この簡略化又は併合されたネットワークが、図１８の結合されたトランスクリプション−画像ネットワークよりもかなり少ない状態及び遷移だけしか含まないことに注目されたい。従って、ネットワークの簡略化又は併合によって、グリフサンプルの入力ソースの復号化がより迅速に行われることになる。
【００９７】
復号プロセス３３０（図１３）は、２Ｄ画像内のグリフサンプル１０を示すラベル付けされたグリフ画像起点位置を生成するために、併合されたトランスクリプション−画像ネットワークを使って２Ｄ画像１０を復号するのに適したあらゆるタイプのソフトウェア又はハードウェア実現デコーダを用いて実行され得る。特に、オリジナルの入力された２Ｄ画像と目標となる理想的２Ｄ画像、
【００９８】
【外９】

【００９９】
の間のエラー確率を最小にするダイナミックプログラミングアルゴリズムに基づいたデコーダは、特定の実現に使用するのに最適な復号プロセスになる確率が高い。
【０１００】
概して、本発明に使用するのに適したタイプの復号プロセスは、各々が目標の理想的２Ｄ画像、
【０１０１】
【外１０】

【０１０２】
を示すトランスクリプション−画像ネットワークを介した完全なトランスクリプション−画像経路の内のいくつか又は全てを識別すると共に、定義付けられた整合基準に応じて目標の理想的２Ｄ画像の内のどれがグリフサンプルの２Ｄ画像ソースに最良整合するかを決定することにより、識別された経路の内のどれが最良経路であるかを決定する。ネットワークを介した最良経路は、最良整合された目標の理想的２Ｄ画像を示すトランスクリプション−画像経路である。グリフサンプルの２Ｄ画像ソース内の遷移画像起点位置は、この最良経路を構成する遷移から演算されることができ、グリフ画像起点位置とこれらのラベルは、また、これら遷移の内の選択された遷移及びこれらの遷移画像起点位置から使用可能である。整合基準は任意の適切な画像測定値であってもよい。一般に、整合基準は、グリフサンプルの２Ｄ画像ソースと比較された目標の理想的画像に対するピクセル整合スコアを最適化することを含む。
【０１０３】
図示された実現において、復号プロセス３３０（図１３）は、仮定された非対称ビットのフリップチャネルモデルを用いて、トランスクリプション−画像ネットワークを介して最大事後経路（ＭＡＰ）を発見する。ヴィタビ・デコーダの目的は、ネットーワークを介して最も尤度が高い経路を決定するためにトランスクリプション−画像ネットワークを介して全ての完全経路にわたって再帰的ＭＡＰ決定関数を最大にすることである。画像ソースモデル８３０を用いた復号の説明において上記に述べたように、トランスクリプション−画像ネットワークを介した各経路は、復号の間に形成された理想的画像に対応している。従って、ヴィタビデコーダは、ネットワークを介した完全経路から生成された使用可能な理想的な画像の内のどれが、復号されている入力画像即ち２Ｄ画像１０に最も近い外観（ピクセルによる）を有するかを決定する。ヴィタビ・デコーダは、経路内の個別の遷移に対するスコアの総和である理想的な画像を定義する経路に対して、尤度測定値又は尤度スコアを演算することによってこれを実行する。
【０１０４】
図２０は、図示された実施の形態の復号プロセス３３０のヴィタビ・デコーダを実現する複数のステップのシーケンスを示すフローチャートである。ヴィタビ画像復号には、復号トレリス（trellis ）と呼ばれる３次元復号格子内での経路発見も含まれる。この復号格子は、一つがソースモデルの各ノード又は状態に対応している画像平面のスタックを形成するとビューできるノードによって構成されている。トランスクリプション−画像ネットワーク内の状態及び経路と格子内のノード及び経路との間で１対１で対応付けされ、格子内のノード同士の間で対応している遷移は、トランスクリプション−画像ネットワーク内の状態同士の間の遷移と同じ属性情報を有している。従って、ステップ３３４において、トランスクリプション−画像ネットワーク８７０は、最初、データストラクチュア内に復号格子として示される。次いで、ボックス３３８においては、格子内のノードに対するスコアが演算される順序が決定されなければならない。これは、再帰に対するスコア演算スケジュールを作成し、格子のノードが参照される順序を示し、結果的には、そのノードスコアが演算される順序を示すことによって達成される。次いで、ボックス３４０においては、前記スケジュールで既述された順序でノード毎の最尤スコアが演算される。ノード毎に、尤度スコアを最大化するノードへの遷移が識別され、記憶される。復号プロセス３３０のステップは、図示されている実現による復号の間、実行される関数を記述するための特定のシーケンスにおいて実行されるものとして図示されている。これらのステップは、通常、実際のソフトウェア実現において同時期に実行される。
【０１０５】
復号の終りに、復号格子内のｎ_F画像平面に対する尤度スコアが演算された後、ボックス３８０において、復号格子内で最終ノードから初期ノードまでの記憶された遷移を介してバックトレースする（後戻りする）ことによりヴィタビ・デコーダによって発見された最尤完全経路が検索され、最良経路を構成する遷移を識別すると共に、上記の式（５）と（６）を用いて２Ｄ画像１０内の遷移画像起点位置（ｘ_i、ｔ_i）を演算する。最良経路の各遷移が遷移画像起点位置を定義する。しかしながら、２Ｄ画像１０内のこれらの画像位置のすべてが対象になるとは限らない。フィルタリングステップは、２Ｄ画像１０内の推定グリフ画像起点位置を示す遷移（グリフサンプル文字セット内の文字に対して非ヌル文字テンプレートを属性として含む遷移）を識別し、識別された遷移画像起点位置の全てからこれらの画像起点位置を抽出し、これらの画像起点位置を、識別された各遷移上のテンプレート属性のそれぞれの文字ラベルと、ペアリングする。
【０１０６】
復号は、２Ｄ画像内のグリフサンプルの画像起点位置の推定値を提供するが、当該画像内のグリフサンプルの広がり又はサイズに関する情報を提供しない。例えば、間違いだらけのトランスクリプション又はノイジーな２Ｄ画像１０が学習手順への入力である場合、復号は不完全な結果を生成し得るので、画像起点位置は入力画像内のグリフサンプルの位置の推定値であると考えらる。
【０１０７】
文字テンプレート構成プロセス２７０（図１１）は、図１３において、全く新しいテンプレート構成方法４００として実現されており、学習データの分離グリフサンプルへの事前セグメンテーションやサンプルに対する境界ボックスの識別を行わずに、学習及びラベル付けされた文字テンプレートのセットを生成する。テンプレート構成方法４００は、画像起点位置を示すグリフサンプルの２Ｄ画像１０内のｘ、ｙ座標位置と、それぞれの画像起点位置に位置されたグリフサンプルによって示された文字を識別するラベルのみを使って、学習データ内の各グリフサンプルを識別する。
【０１０８】
図２１に関して、テンプレート構成における第１のステップは、ボックス４１０において、学習データから生成されようとする各２値文字を記憶するためのテンプレート画像領域を作成することである。各テンプレート画像領域内の各ピクセル位置は、最初に、背景ピクセルカラー値を示す。原則として、文字毎のテンプレート画像領域は、全方向に境界付けされない画像平面全体に渡って拡がる。しかしながら、一般に、テンプレートのサポートがこのテンプレートの起点ピクセル位置を取り囲む比較的小さな領域へ局所化されることにより、テンプレート画像領域が、画像平面全体よりも小さいがテンプレートのサポート全体を含む程十分に大きい境界付けされた画像領域となるように選択される。図２２は、各テンプレートＱ_tのサポートが、高さＨ及び幅Ｗの矩形内に置かれると仮定する模式的なテンプレート画像領域５０２を示す。テンプレート画像領域５０２は、テンプレートの「カンバス」と呼ばれる。テンプレートカンバスの形状は基本的には任意形状であり、一般に、テンプレートが学習されている文字セットについて及び当該学習データ内のサンプルについての仮説を基本にして選択される。
【０１０９】
カンバスの垂直及び水平サイズ寸法即ち高さＨ及び幅Ｗのカンバスパラメータの選択は、学習されている文字セット内の文字に関する情報を利用する二つのファクタを基本として行われる。まず第１に、Ｈ及びＷのカンバスパラメータは、作成された結果的に得られた画像領域が単一テンプレートのサポートの全体を含む程の十分な大きさであるように選択される。実際、ＨとＷのカンバスパラメータの選択は、カンバスの外のピクセルがテンプレートの一部ではなく背景（ホワイト）カラーであると仮定される決定を反映する。ＨとＷのカンバスパラメータは、２Ｄ入力画像内に作成された結果的に得られた画像領域が少なくとも単一の画像サンプル全体を含む程の十分な大きさであるように選択される。
【０１１０】
テンプレートカンバス５０２は当該テンプレートカンバス５０２に対応付けられた局所座標システムを有しており、このシステムにおいて、ｘは右に行くにつれて大きくなり、ｙは下へ行くにつれて大きくなり、この座標システムの起点５０６は、カンバス５０２の下部左コーナ５０８に相対して（ｘ、−ψ）である。従って、０≦ｘ＜Ｗ及び０≦ψ＜Ｈである、カンバス５０２の下部左コーナ５０８はこの局所座標システムに相対して（−ｘ、ψ）の座標を有する。このカンバス矩形５０２はＣで表され、
Ｃ＝［−ｘ、−ｘ＋Ｗ−１］×［ψ−Ｈ＋１，ψ］（１）
となる。カンバス・パラメータＨ、Ｗ、ｘ及びψは全てのテンプレートに対して一様である必要はなく、特定の文字テンプレートが記憶されることによって変化してもよい。通常、テンプレート毎に同じカンバスパラメータを使用することが一層便利である。
【０１１１】
各文字テンプレートはカンバス５０２内に置かれると仮定されるテンプレートの起点として指定されたピクセル位置を含む。テンプレート起点ピクセル位置はテンプレート起点５０６として図２２に示されている。カンバス矩形５０２内のテンプレート起点５０６の指定は任意であるが、カンバス矩形５０２内に記憶されようとするテンプレートは、そのテンプレートの起点が選択されたテンプレート起点５０６に位置する時、全体がカンバス矩形５０２内に含まれなければならないという制約条件を受ける。
【０１１２】
図２１では、ボックス４３０において、本発明のテンプレート構成手順における次のステップは、上記に示されたネットワークの併合及び復号プロセスの出力として生成される学習データ内に含まれる各ラベル付きグリフ画像起点位置に対してグリフの２Ｄ画像ソース１０内のサンプル画像領域を決定することである。テンプレート画像領域５０２はサンプル画像領域の各々の二つの重要な特性を決定する時のパターン又はガイドとして使用される。第１に、学習データ内の各ラベル付けされたグリフ画像起点位置に対する２Ｄ画像１０内のサンプル画像領域は、カンバス矩形５０２の垂直及び水平サイズ寸法（Ｈ及びＷのカンバスパラメータ）に一致した垂直及び水平サイズ寸法を有している。第２に、グリフサンプルのグリフ画像起点位置は、テンプレート起点位置５０６として指定されたカンバス矩形５０２内にピクセル位置と一致しているか、又はそれぞれペアリングされるピクセル位置におけるサンプル画像領域内に位置している。サンプル画像領域を識別して得られた結果は、学習データ内のグリフ画像起点位置と対応付けられたグリフラベルによって識別された各固有の文字に対して２Ｄ画像１０内のサンプル画像領域の集合を生成することである。
【０１１３】
図２３は、２Ｄ画像１０の画像領域１８内のグリフ画像起点位置８５、８７及び８９に対して識別された三つのサンプル画像領域８０、８２及び８４を示し、これらのサンプル画像領域は、それぞれ、文字”ｒ”を示すグリフラベルを有している。各サンプル画像領域は、サンプル画像領域８４の周辺でＨ及びＷの指定によって示されたカンバス矩形５０２の同一高さＨ及び幅Ｗを有している。各サンプル画像領域は、図２３に示されているように、代表的サンプル画像領域８０の起点８５によってその起点をグリフ起点位置に位置合わせした局所座標システムを有している。グリフ画像起点位置８５、８７及び８９はサンプル画像領域８０、８２及び８４内のピクセル位置に位置され、当該サンプル画像領域８０、８２及び８４内のピクセル位置は、テンプレートカンバス矩形５０２の下部左コーナ５０８からのテンプレート起点５０６のｘとｙの変位に一致したサンプル画像領域のそれぞれの下部左コーナからのｘとｙの変位を有している。
【０１１４】
ラベル付けされたグリフ画像起点位置に対するサンプル画像領域を識別すると、以下のように要約されることができる。ベクトルｘ_i＝（ｘ_i、ｙ_i）がテキストの画像内のグリフ起点位置である場合、対応しているグリフサンプル画像領域は、以下の式によって定義される領域内のテキスト画像のその部分であると定義される。
【０１１５】
ｘ_i−ｘ≦ｘ_i＜ｘ_i−ｘ＋Ｗ、及びｙ_i＋ψ−Ｈ＜ｙ≦ｙ_i＋ψ。
即ち、テンプレート起点がグリフ起点と一致している時、グリフ位置に対するグリフサンプル画像はテンプレートカンバス内のテキスト画像のその部分である。
【０１１６】
用語「位置合わせされたサンプル画像領域」は、テンプレートカンバス矩形５０２の下部左コーナー５０８からのテンプレート画像起点５０６のｘとｙの変位に一致しているサンプル画像領域の下部左コーナからのｘとｙの変位を有するサンプル画像領域内のピクセル位置に位置されているグリフサンプルの画像起点位置の各サンプル画像領域の特性を示すために導入される。位置合わせされたサンプル画像領域の概念は図２４に示され、この図において、カンバス矩形５０２より上で、一つの層が他の層の上になって層状にスタックされた図２３からの２Ｄ画像１０のサンプル画像領域８０、８２及び８４が示されている。サンプル画像領域８０、８２及び８４のそれぞれの画像起点位置８５、８７及び８９は互いに且つテンプレート起点位置５０６から点線で示した軸８８に沿って「垂直に」位置合わせされている。このように、それぞれの画像起点位置における同じサイズのサンプル画像領域の位置合わせは、サンプル画像領域の局所座標システムに相対するサンプル画像領域の各々におけるそれぞれのピクセル位置の中で空間的な関係又はペアリングを設定すると共に、サンプル画像領域の集合内のペアリングされたピクセル位置のセットとテンプレート座標システムに相対するカンバス矩形５０２内のピクセル値との間で同一の空間的関係又はペアリングを設定する。このように関係付けられた位置合わせされたサンプル画像領域内のピクセルの各セットは、「それぞれペアリングされたピクセル」又は「位置合わせされたピクセル」と呼ばれる。
【０１１７】
テンプレートが学習されている文字セット内の文字の内の特定の一つに対して２Ｄ画像１０内で識別されたサンプル画像領域の全てが、サンプル画像領域の「集合」と呼ばれる。図示された実現において、サンプル画像領域の集合は、互いに、そして画像起点位置でテンプレート画像領域５０２に、位置合わせされたサンプル画像領域の分離したデータストラクチュア内で示される。図２５は、２Ｄ画像１０によって示された画像である全体が走査された新聞記事内の文字”ａ”に対するサンプル画像領域の集合であるデータストラクチュア９０を示す。図２５においては、データストラクチュア９０が、カンバス矩形５０２によって提供されたパターンに応じて２Ｄ画像１０からクリッピングされた連鎖及び位置合わせされたサンプル画像領域のロー（行）及びコラム（列）において示されている。サンプル画像領域は図示するためにボーダーで示されている。
【０１１８】
図２１を再度参照すると、ボックス４５０において、本発明のテンプレート構成手順における次のステップは、サンプル画像領域内のピクセルカラー値を基本にして前景ピクセルカラー値を各カンバス矩形５０２の内のピクセルへ生成される文字テンプレート毎に割り当てることである。本発明のテンプレート構成手順は、これらの文字の各々のグリフサンプル画像の集合が与えられた場合、文字テンプレートのセット内の各ピクセルへカラーを割り当てることによって略同時期に文字テンプレートのセットを構成する。従来の方法とは異なり、本発明の技術におけるグリフサンプル画像は図２５に示されるように隣接するグリフの部分を含むことが許容される。本発明のテンプレート構成手順は、文字テンプレートが構成される間、グリフサンプル画像内の前景ピクセルの内のどれが中心グリフ（テンプレートの起点に起点が一致しているグリフ）に属するか及びどれが隣接グリフに属しているかを効果的に決定する。
【０１１９】
ｑ_t（ｘ）は、テンプレートＱ_tの位置ｘにおけるピクセルのカラーを示し、ここで、ｔ∈Ｂがマルコフ画像ソースの遷移である。前景ピクセルカラーはビット値１で示され、背景ピクセルカラーはビット値０（ゼロ）で示される。ラベル付けされたグリフサンプル起点位置（ｘ₁、ｔ_i）、ｉ＝１．．．Ｐのセットが付与された場合、テンプレート構成の目的は、遷移ｔ∈Ｂ毎に、及び遷移ｘ∈Ｃ毎に、値をｑ_t（ｘ）に割り当てることである。
【０１２０】
【外１１】

【０１２１】
式（５）の左側はＱ_tに対して位置合わせされたサンプル画像領域の集合内の黒（前景ピクセル）である位置ｘにおけるピクセルの割合である。従って、Ｓ_t（ｘ；Ｚ）は、テンプレートＱ_tに対する位置ｘにおける「位置合わせされたピクセルスコア」又は「テンプレート補助測定値」と呼ばれる。ＭＬ決定ルール（３）は、位置合わせされたサンプル画像領域内の位置ｘにおける黒ピクセルの割合が閾値を越えた場合、ｘにおけるテンプレートピクセルは黒でなければならないことを定める。単に、テンプレートの非結合制約条件が無視された場合、テンプレートに対してピクセル毎ベースで位置合わせされた画像領域の集合を平均し且つ閾値化することにより各ＭＬテンプレートは個別に計算されてもよい。
【０１２２】
図２６は、テンプレート非結合制約条件を参照せずに決定ルール（３）を用いて、文字”ｅ”、”ａ”、及び”ｒ”のそれぞれに対するサンプル画像領域の集合から構成されるテンプレートのセットから選択された三つのテンプレート９４、９６、及び９８を示す。使用されるサンプル画像領域は、図２５におけるサンプル画像領域に類似しており、２Ｄ画像１０に類似している新聞のコラムの走査された画像から抽出された。テンプレート９４、９６、及び９８は、（”＋”によって示された）各カンバス矩形の起点に位置合わせされた「正確な」テンプレート画像９３、９５、及び９７を明確に含んでいるのが理解されよう。しかしながら、各テンプレートカンバスが、テンプレートに明確に属さない黒ピクセルを含んでいるのも理解されよう。これらの余分な黒ピクセルは、決定ルール（３）の平均化及び閾値化動作がテンプレートに対する集合内の各サンプル画像領域内の隣接しているグリフにおいて実行される時、当該テンプレート内に発生する。これらの余分なピクセルは、単一の分離したグリフとは対照的に、複数のグリフを含むサンプル画像領域を使用した結果として明確に発生する。例えば、従来のテンプレート構成方法に要求されたようにサンプル画像領域が対象となる中心ピクセルのみを含んでいた場合、これらの余分なピクセルは消えてしまう。
【０１２３】
テンプレートの非結合制約を条件として、式（２）を最大化することは、ＮＰ−完成であるという形式的な意味では、演算上困難な問題である。制約されたＭＬテンプレート構成問題を正確に解くためには、指数アルゴリズムを使用するより、本発明のテンプレート構成方法を使えば、テンプレートの非結合制約を実質的に参照するテンプレートを生成する概算ではあるが効果的な解決法を提供する。この解決法は、図２１のボックス４５０において詳細に図示し、図２７ではフローチャート形式で示されている。
【０１２４】
基本的な戦略は以下の通りである。ピクセル毎ベースで単一テンプレート内に含まれた各テンプレートピクセルへ式（３）を個別に適用するより、Ｓ_t（ｘ；Ｚ）＞０であるあらゆるテンプレート内の各テンプレートピクセルへ値１がある順序で割り当てられ、これにより割り当てられたテンプレートピクセルを生成する。このような各割当ての後、参照された画像Ｚ（図示された実施の形態におけるグリフサンプルの２Ｄ画像ソースからクリッピングされたサンプル画像領域）は、新しく割り当てられたテンプレートピクセルとペアリング又は一致する位置において全ての位置合わせされたサンプルピクセルをゼロにセットすることによって変更される。例えば、テンプレートピクセルｑ_s（Ｗ）＝１が、たった今、位置合わせされたと仮定する。次いで、次のテンプレートピクセルの割当てが未だ割り当てられていないテンプレートピクセルに対して実行される前に、位置Ｗ＋ｘ_i ^(S)、ｉ＝１．．．．Ｎ_Sにおける画像Ｚのピクセルは、０にセットされる。一致しているテンプレート割当てが実行された後で、参照された画像内のサンプルピクセルをゼロにセットした効果は、「Ｚのピクセルのクリアリング」と呼ばれ、１にまだセットされていないオーバーラップしているテンプレートピクセルに対する引き続く演算Ｓ_t（ｘ；Ｚ）に対してＳ_t（ｘ；Ｚ）の値を減算することであり、これによってオーバーラップするピクセルが引き続き１へセットされる尤度を減少させることになる。シーケンシャルな割当ては、幾つかの未だ割り当てられていないテンプレートピクセルに対して、Ｓ_t（ｘ；Ｚ）＞０の場合はシーケンシャルな割当てが続く。本発明のテンプレート構成方法の正味の結果は、プラスのＳ_t（ｘ；Ｚ）が全く残らなくなるまで一つのテンプレートも完成されないまま、学習された文字テンプレートのセット全体を同時期に生成することである。
【０１２５】
図２７に関しては、ボックス４５２において、各テンプレートカンバス内のピクセル位置に対応付けられたピクセルスコア又はテンプレート補助測定値Ｓ_t（ｘ；Ｚ）をゼロより大きい値に初期化した後で、Ｓ_t（ｘ；Ｚ）が、このテンプレートに対して位置合わせされたサンプル画像領域の集合内のそれぞれペアリングされた位置合わせされたサンプルピクセル位置を用いて、現在のプラスのピクセルスコアを有する各テンプレート内の各未だ割り当てられてないテンプレートピクセルに対して計算される。ピクセルスコアは、ボックス４６０において、演算されたピクセルスコアの内のどれかがゼロよりも大きい場合、手順は、任意のテンプレートの最高のプラスのピクセルスコアを有するテンプレートピクセルが選択されるボックス４７０へ進み、前景カラー値はこの選択されたテンプレートピクセルへ割り当てられる。ボックス４８０において、選択されたテンプレートピクセルとペアリングされた位置合わせされたサンプル画像領域の集合内の位置合わせされたピクセルのカラー値はゼロ（背景カラー値）にセットされる。次いで、処理は、ピクセススコアが残っている未だ割り当てられてないテンプレートピクセルに対して再び演算されるボックス４５６へ戻る。
【０１２６】
図２８は、テンプレートピクセルカラー割当てのアルゴリズムを、図２６に示されたテンプレートを発生するために使用された同じグリフサンプル画像データへ、適用した結果を示す。図２８におけるテンプレート５１０のセットは「スペース」、小文字、大文字、数字、及び句読点の順に配列される。文字が入力された画像内に発生されない場合、そのテンプレートは実線の黒い四角として提供される。図２６と比較すると、図２８におけるテンプレートは余分な黒のピクセルを殆ど含んでおらず、このアルゴリズムの「Ｚピクセル・クリアリング」の効果が出ている。特に、文字”ｅ”、”ａ”、及び”ｒ”のそれぞれを示すテンプレート５１６、５１４、及び５１８は、それらを図２６のテンプレート９４、９６、及び９８と比較するために呼び出された。ピクセルスコアの演算には、γ＞０及びβ＜０であるγ及びβ係数の使用が必要とされる。図２６に示されたテンプレートを生成した図示された実施の形態においては、これらの係数のために使用された値はそれぞれ２．２３７と−１．６２９であって、チャネルノイズパラメータα₀＝．９及びα₁＝．５１に対応している。
【０１２７】
有限状態画像モデルネットワークにおけるノード同士の間の各遷移ｔ₁は、図１４に示された対応付けられた４つの要素から成る属性を［ａ_t］（Δ_t）、ｍ_t、Ｑ_tの順に有している。テンプレートＱ_tが、図１４においてＦの遷移ｔ₁で示されるような一つの遷移ｔ₁に対応付けられる時、この遷移に対応付けられた水平の変位Δ_iはテンプレートの文字セット幅、
【０１２８】
【外１２】

【０１２９】
である。文字セット幅は、グリフ起点位置から、ワードの連続文字を画像形成する時に次のグリフの起点が通常配置される点まで、のベクトル変位Δ＝（Δ_x、Δ_y）である。この文字セット幅は、文字形状の記述や位置決めのサイドベアリングモデルによってモデリングされた文字テンプレートを完全に記述するために必要とされる字体距離の内の一つである。従って、テンプレート構成手順４００により文字テンプレートを構成することの他にこの構成されたテンプレートに対する文字セット幅を決定することも必要である。
【０１３０】
各２値テンプレートの文字セット幅はこのテンプレートに対して識別されたサンプル画像領域の集合を用いて決定される。２Ｄ入力画像内のグリフサンプルのグリフ画像起点位置を識別することが推定のプロセスであるので、当該識別されたサンプルの少なくとも幾つかが不正確な画像起点位置を識別してしまうことも予想される。しかしながら、サンプル画像領域内に含まれた各グリフサンプルのセット幅が２Ｄ画像内の次の隣接するグリフサンプルの判っている画像起点位置から演算されることができる。従って、テンプレートに対するセット幅の演算には、サンプル画像領域の集合と、各サンプル内の各画像起点位置から２Ｄ画像内の次の隣接グリフの画像起点位置までの変位と、を用いてこのテンプレートに対して識別された各サンプルに対するセット幅を計算することが含まれる。グリフサンプルに対して演算されたセット幅の集合は、当該テンプレートに対するセット幅に達するように使用される。例えば、全てのサンプルに対する平均値又は中間値のセット幅は当該テンプレートに対するセット幅であるように決定されてもよい。或いは、これらのサンプルを用いて演算される最小のセット幅はテンプレートのセット幅として使用されてもよい。
【０１３１】
図１３は、テンプレート構成手順４００に続いて、文字セット幅を決定するこのステップをボックス４９０として示している。しかしながら、記述されているように、図示されている実現において、各テンプレートのセット幅はサンプル画像領域の集合を用いて決定されるが、構成されたテンプレートからは決定されない。従って、文字セット幅の決定は、テンプレート構成の完成に依存せずに、２Ｄ入力画像内のグリフサンプルに対してラベル付けされたグリフ画像起点位置を生成する、復号やバックトレーシングステップの後の、任意点で行われてもよい。さらに、図１３は、復号、バックトレーシング（戻り）、及びテンプレート構成ステップ３３０、３８０、及び４００をそれぞれ反復する反復処理ループ内に含まれているステップとしてこのステップを示している。セット幅を演算するための好ましい方法は、復号プロセスの引き続く反復の間の文字の位置決めに使用されるセット幅が、入力された２Ｄ画像入力画像内のグリフを位置決めするために使用される実際のセット幅よりも常に少なくなることを確実とするため、サンプル画像領域の集合に対して演算されるセット幅から最小セット幅を決定し、次いでこのテンプレートに対するセット幅としてその最小値のパーセント、例えば９０パーセント、を取ることである。
【０１３２】
前述のように、図９、図１４、及び図１９に示されたタイプの２Ｄ画像ソースモデルを用いて参照された２Ｄ画像の画像復号が文字テンプレートの初期セットの使用を仮定するので、文字テンプレート学習方法２００の図示されている実施の形態は、基本的には反復プロセスである。学習の状態において一般的であるように、テンプレートの初期セットが使用不可能である時、図示されている実施の形態は、復号ステップ３３０の前に、復号の間に使用するための文字テンプレートの初期セットを示す文字テンプレートデータストラクチュアを発生するための処理を含む。文字テンプレートの初期セット内の各セットは、復号プロセス３３０によって実践的に使用されるあらゆる任意ピクセルの内容を有していてもよいし、図示されている実施の形態において各テンプレートは実線の黒の矩形の前記任意の初期ピクセル内容を有しており、且つ文字が示す当該文字に関する特定のピクセル情報は有していない。このような矩形の黒画像のテンプレートの初期セットが付与された場合、復号ステップ３３０及びバックトレーシングステップ３８０はそれぞれ、先行する反復において構成された文字テンプレートを用いて、各引き続く反復を有する２Ｄ画像内のグリフサンプル１０のラベル付けされたグリフ画像起点位置の改良された推定値を生成しやすい。
【０１３３】
文字テンプレート構成の完成を制御するために使用される停止条件は、ヒューリスティックに決定されてもよいし又は一つ又はそれより多くの処理パラメータの関数であってもよい。図示されている実施の形態においては、停止条件は、最高の品質のテンプレートを生成し、それに引き続く当該テンプレートに対する参照可能な改良点が殆どないか又は有効度を持たないような反復回数であることを経験から証明した固定された反復回数である。停止条件は、復号の間に演算された最尤スコアに関連する閾値をベースにしている。
【０１３４】
２Ｄ画像ソースモデルと形式的モデルとして示されたトランスクリプションの両方を有すると共に学習手順への明示的入力として示された２Ｄ画像ソースモデルを有するフレキシビリティが、従来、学習テンプレートに適したトランスクリプション即ちリテラルトランスクリプションのタイプとして考えられてきた概念を拡張し、広範囲の他のメッセージストリングの含むようになった。例えば、学習のために使用されるグリフサンプルの２Ｄ入力画像ソースが常に公知の固定されたトランスクリプションを有する特定のドキュメントのセットの内の一つである状態が発生し得る。これらの所定のトランスクリプションをモデリングするトランスクリプションネットワーク又はトランスクリプション−画像ネットワークは、これらの特定のトランスクリプションの各々を学習する前に生成され且つ記憶されてもよいと共に、ユーザが「トランスクリプション」として入力するものは、実際には、学習において使用されようとするグリフサンプルの２Ｄ画像ソースに対応付けられようとする特定のトランスクリプションを識別するネームである。
【０１３５】
他の例において、２Ｄ画像内の文字コードに対する論理構造及びフォーマット情報を示すマークアップラベル又はタグを含む使用可能なデータストラクチュアも入力トランスクリプションとして使用され、ユーザがタグをマニュアルで取り除いたり、データストラクチュアをリテラルトランスクリプションへ変換する必要がない。これらのマークアップデータストラクチュアが、それらのドキュメント画像と共にドキュメントデポジトリ内で使用可能である場合、本発明の学習技術は、このようなドキュメント画像とその対応するタグトランスクリプションを用いて文字テンプレートを学習することを可能にする。
【０１３６】
本発明のテンプレート学習方法におけるタグ付けされたトランスクリプションの使用は、収容タグが本質的に画像ソースネットワーク内のメッセージストリングの処理を含むので、このようにして記述された画像モデルに対して関数的な変更を全く要求しないし、図９において提供されたマルコフ画像ソースモデルの一般的な形式が、各遷移に対してメッセージストリング及びテンプレートの独立仕様を可能とする。また、メッセージ及びテンプレートのいずれか又は両方が遷移属性セットから省略されてもよい。従って、以下に示されるように、タグがモデリングフレームワークに対する変更をせずに収容されてもよい。
【０１３７】
図２９は、サブスクリプトを含む単純テキストラインを画像形成するライン画像ソースモデル７７０を示す。遷移確率はこのモデルから省略されている。モデル７７０によって定義されるこれらのライン画像は、様々な文字間スペースを有する文字”ａ”のグリフの全体から成る。モデル７７０における状態及びこれらの状態の遷移は、サブスクリプトをシミュレートするためにグリフがベースライン上又は５ピクセル下へ配置されることができることを示す。モデル７７０内に示された遷移属性から、状態ｎ₂とその自己遷移７７７及び７７８が、主要ベースライン上で位置合わせされた文字”ａ”の連続テンプレートを画像形成すると共に、”ａ”のメッセージストリングを発生するのが理解されよう。遷移７７８上のベクトル変位から、水平ｘ方向の”ａ”のセット幅が２５で付与されるのがさらに理解されよう。モデル７７０は、状態ｎ₁から状態ｎ₄までの遷移によってサブスクリプトベースライン上でのグリフの画像形成を可能とする。この状態ｎ₁から状態ｎ₄までの遷移は、画像平面において現在画像形成位置を下へ移動する５のプラスのｙ変位を遷移属性として示し、メッセージストリング７７２”｛”も示すがテンプレートはない。状態ｎ₄とその自己遷移７７９及び７８０は、サブスクリプトベースライン上で位置合わせされた文字”ａ”の連続テンプレートを画像形成すると共に、”ａ”のメッセージストリングも発生する。状態ｎ₄から状態ｎ₃までの遷移は、変位７７６によって示されるように、現在画像形成位置を主要ベースラインへ戻す。この遷移はメッセージストリング属性７７４”｛”を有するがテンプレートは有さない。遷移状態ｎ₃から状態ｎ₁までの遷移のため、ラインはベースライン上のストリングと交互に形成される任意数のサブスクリプト・ストリングを含んでいてもよい。（モデル７７０が主要テキストベースラインの下で画像形成されるテキストを含む画像のセットをモデリングするので、全てのブランチ変位が２次元ベクトルとして指定される。しかしながら、モデル７７０を介する全ての完全経路がゼロのｙ変位を有すること、即ち、πが完全経路とすると、
【０１３８】
【外１３】

【０１３９】
をベリファイすることは容易である。従って、このモデルはラインモデルであることの定義条件を満たす。即ち全ての完全経路が同一ｙ変位を有する。）
【０１４０】
図３０は、ライン画像ソースモデル７７０によってモデリングされたライン画像のセット内に含まれるライン画像７１２、７１４、及び７１６の幾つかの例を示す。図示目的のため、図４４内のサブスクリプトのベクトル変位が誇張されており、ライン７１８のようなダッシュラインが主要テキストベースラインを図示するために示されている。その復号モードにおいて、モデル７７０はライン画像７１２、７１４、及び７１６をそれぞれメッセージストリング（トランスクリプション）”ａａａ｛ａａ｝ａ”、”ａ｛ａ｝ａａ｛ａ｝ａ”、及び”ａ｛ａ｝ａ”として復号する。或いはこれとは逆に、当該ライン画像７１２、７１４、及び７１６は、入力メッセージストリング”ａａａ｛ａａ｝ａ”、”ａ｛ａ｝ａａ｛ａ｝ａ”、及び”ａ｛ａ｝ａ”が付与された場合、その画像合成モードにおいてモデル７７０が発生するライン画像としてビューされることができる。いずれの事象においても、状態ｎ₁から状態ｎ₄までの遷移と状態ｎ₄から状態ｎ₃までの遷移上で消失されているテンプレートによってサポートされている事実から、実際のメッセージストリング”｛”ａｎｄ”｝”は図４４におけるライン画像７１２、７１４、及び７１６のいずれかにおけるグリフと視覚的にペアリングされることは不可能である。モデル７７０に遭遇した場合、メッセージストリング”｛”ａｎｄ”｝”は、当該モデルによって発生された画像内の一つ又はそれより多くのグリフの画像形成における知覚可能な変化を示す。メッセージストリング”｛”ａｎｄ”｝”は従って、これらのタグに先行又は後行するテキストからの画像形成におけるフォーマッティング又は論理的変化を有しつつ、当該タグ同士の間のテキストをマークするタグとして機能する。この場合、これらのタグはサブスクリプトとして変換又はタイプセットされようとするテキストをマークする。
【０１４１】
タグ付けされたトランスクリプションネットワークを有するタグメッセージストリングを収容する画像ソースモデルの併合は、２Ｄネットワークとラインネットワークの併合に関して前述した方法と同様に進められる。併合されたタグトランスクリプション画像ネットワークの関数的特性は２Ｄ実現に関して前もって提供された特性と同じである（ネットワーク特性（ａ）及び（ｂ）として参照される）。ネットワーク併合手順は、タグトランスクリプションネットワークによって定義されたトランスクリプションのセットからトランスクリプションのみを発生するように制約された変更された画像ソースモデルを生成する。
【０１４２】
テンプレート学習手順のために生成された学習データのためのグリフラベルの入力ソースとしてタグ付けされたトランスクリプションの使用は画像及びトランスクリプションモデルが以下にして定義され且つ併合されるかによって完全に処理されると供に、復号プロセス又は最良経路からのグリフ画像起点位置の抽出に対して全く変更を要求しない。テンプレート学習手順の残りの部分は、入力されたライン画像内に含まれるグリフのグリフ画像起点位置をテンプレート構成手順へ提供するためにタグトランスクリプション画像ネットワークを用いて、前述のように処理される。
【０１４３】
【発明の効果】
ユーザの学習データ準備への関与を実質的に取り除くと供にテンプレートが効果的に自動生成される文字テンプレートセット学習マシン動作方法を提供する。
【図面の簡単な説明】
【図１】文字形状記述及び配置のサイドベアリングモデルの単純化されたバージョンを示す図である。
【図２】本発明による学習文字テンプレートのためのグリフサンプルのソースとして使用するための複数のグリフの２Ｄ画像を示す図である。
【図３】本発明によって生成された文字テンプレートデータストラクチュアの例を示す図である。
【図４】本発明の学習方法及びシステムへの入力として使用するのに適した図２の２Ｄ画像のためのトランスクリプションデータストラクチュアの例を示す図である。
【図５】本発明の学習方法への入力トランスクリプションとして使用するのに適したディクショナリの部分に対するトランスクリプションデータストラクチュアの他の例を示す図である。
【図６】図６がトランスクリプションであるディクショナリページの２Ｄ画像を示す図である。
【図７】図２の２Ｄ画像に対する他のトランスクリプションメッセージを示すトランスクリプションデータストラクチュアのセットを示す図である。
【図８】簡単化された有限状態遷移ネットワークの部分として示される図７に示されたトランスクリプションのセットを示す図である。
【図９】簡単化された有限状態遷移ネットワークの部分としてその一般的な形式で示された形式的２Ｄ画像ソースモデルを示す図である。
【図１０】本発明の学習方法及びシステムの入力及び出力を示す略ブロック図を示す図である。
【図１１】本発明の文字テンプレート学習方法の一般的なステップを示すフローチャートである。
【図１２】テンプレート構成への学習データ入力を生成する本発明の学習方法及びシステムの図示されたソフトウェア実現の一部の入力及び出力データストラクチュアを示す略ブロック図である。
【図１３】ラベル付けされたグリフ画像起点位置を学習データとして生成する本発明の図示された実現の部分の一般的なステップを示すフローチャートである。
【図１４】本発明の文字テンプレート学習方法の図示された実現に使用される図２の２Ｄ画像のような単一テキストコラムの空間ストラクチュアを有する２Ｄ画像のクラスをモデリングする有限状態遷移ネットワークを示す図である。
【図１５】本発明の文字テンプレート学習方法の図示された実現に使用される図８のトランスクリプションネットワークの簡単化された部分を示す図である。
【図１６】本発明の図示された実現に従って、図１４の有限状態遷移ネットワークと図１５のトランスクリプションネットワークの併合を概略的に示す図である。
【図１７】本発明の図示された実現に従って、図１４の有限状態遷移ネットワークと図１５のトランスクリプションネットワークの併合を概略的に示す図である。
【図１８】本発明の図示された実現に従って、図１４の有限状態遷移ネットワークと図１５のトランスクリプションネットワークの併合を概略的に示す図である。
【図１９】本発明の図示された実現に従って、図１４の有限状態遷移ネットワークと図１５のトランスクリプションネットワークの併合を概略的に示す図である。
【図２０】本発明の図示された実現によって図１３におけるフローチャートの復号ステップをヴィタビ・デコーダとして示すフローチャートである。
【図２１】本発明の図示された実現において使用されたテンプレート構成方法の一般的なステップを示す図である。
【図２２】図２１に示されたテンプレート構成方法の間に学習されたテンプレートを記憶するために使用されたテンプレート画像領域の概念を示す図である。
【図２３】グリフサンプルの２Ｄ画像ソース内で識別されるサンプル画像領域を示すと共に、当該グリフサンプルの２Ｄ画像ソースから図２１に示されたテンプレート構成方法によってテンプレートが学習される図である。
【図２４】本発明の図示された実現によってグリフサンプルの画像起点位置において整合されたサンプル画像領域の概念を示す、図２２のテンプレート画像領域よりも上に層状になった図２の２Ｄ画像の三つのサンプル画像領域の概略的な画像を示す図である。
【図２５】本発明の図示された実現によってテンプレート学習の際に使用するための２Ｄ画像からクリッピングされたサンプルの画像領域の集合の画像を提供する図である。
【図２６】文字テンプレートに課された重要な数学的制約条件を参照しない方法を用いて生成された三つの模範的だが不満足なテンプレートを示す図である。
【図２７】本発明の図示された実現のテンプレート構成方法によって、図２２のテンプレート画像領域と図２４及び図２５の整合されたサンプル画像領域とを用いて、文字テンプレートの全てを同時期に構成するステップを示すフローチャートである。
【図２８】図２７に示された新しいテンプレート構成方法によって生成された学習されたテンプレートの最終セットを示す図である。
【図２９】単一テキストラインの空間ステップを有すると共に模範的タグトランスクリプションと一貫性を有するメッセージストリングを収容するライン画像のセットをモデリングする有限状態遷移ネットワークを示す図である。
【図３０】図２９の有限状態遷移ネットワークによってモデリングされたサンプルライン画像を示す図である。
【符号の説明】
１０２Ｄ画像データストラクチュア
１２、１４グリフ
１３画像座標システム
１６ラインセグメント

Claims

認識システムに使用するための文字テンプレートのセットを学習するマシンを動作する方法であって、
前記マシンが、プロセッサとデータを記憶するメモリデバイスとを含み、
前記メモリデバイス内に記憶されたデータが、前記マシンを動作するために前記プロセッサが実行する命令データを含み、
前記プロセッサが、前記メモリデバイス内に記憶されたデータにアクセスするために前記メモリデバイスに連結されており、
前記プロセッサを動作して、以下「文字画像インスタンスサンプルの２次元画像ソース」と呼ばれる複数の文字画像インスタンスサンプルを含む２次元画像を定義する画像定義データストラクチュア内に発生する各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定するステップであって、前記文字画像インスタンスサンプルの２次元画像ソースが、文字画像インスタンスの単一ラインより大きな縦寸法を有し、前記文字画像インスタンスサンプルの２次元画像ソース内に含まれる各文字画像インスタンスサンプルが、以下「文字画像インスタンスサンプル文字セット」と呼ばれる複数の文字セット内の文字のそれぞれの画像として実現されたインスタンスであり、学習される文字テンプレートのセットの各々が、前記複数の文字画像インスタンスサンプル文字セット内の文字のそれぞれを示し、各文字テンプレートが、前記文字画像インスタンスサンプル文字セット内のそれぞれの文字を識別する文字ラベルにより識別され、
前記プロセッサが、前記各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定する時、以下「２次元画像ソースモデル」と呼ばれる２次元画像ソースモデル・データストラクチュアを使用し、前記２次元画像ソースモデルが、前記文字画像インスタンスサンプルの２次元画像ソース内で発生する複数の文字画像インスタンスの空間的位置決めをモデリングする空間的位置決めデータを含み、前記プロセッサが、前記各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定するために前記空間的位置決めデータを使用する、ステップを有し、
前記プロセッサを動作して、前記文字画像インスタンスサンプルの２次元画像ソース内で発生する前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置とペアリングされた以下「それぞれペアリングされた文字画像インスタンスラベル」と呼ばれる文字画像インスタンスラベルデータアイテムを生成するステップであって、前記それぞれペアリングされた文字画像インスタンスラベルが、前記文字画像インスタンスサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされた文字画像インスタンスラベルを生成する時、前記文字画像インスタンスサンプルの２次元画像ソース内で発生する文字画像インスタンスのそれぞれを前記文字画像インスタンスサンプル文字セット内の文字を示す文字画像インスタンスラベルとマッピングする前記２次元画像ソースモデル内に含まれたマッピングデータを使用し、
前記プロセッサが、前記それぞれペアリングされた文字画像インスタンスラベルを生成する時更に、前記文字画像インスタンスサンプルの２次元画像ソースに対応し且つ以下「トランスクリプション・ラベル」と呼ばれる文字セット内の少なくとも１つの文字を示すサブメッセージストリング・データアイテムの順序付き配列を含む、以下「トランスクリプション」と呼ばれるメッセージストリングを示すデータストラクチュアを使用し、前記プロセッサが、前記トランスクリプション及び前記マッピングデータを使用して、文字画像インスタンスラベルを前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置とペアリングする、ステップを有し、
前記プロセッサを動作して、決定された前記文字画像インスタンスサンプルピクセル位置と生成された前記それぞれペアリングされた文字画像インスタンスラベルとによって識別された前記文字画像インスタンスサンプルの２次元画像ソース内の前記文字画像インスタンスサンプルを用いて前記文字画像インスタンスサンプル文字セット内の文字のそれぞれを示す文字テンプレートのセットを生成するステップであって、
それぞれがペアリングされた各文字画像インスタンスラベルが、前記文字テンプレートの各々に対する学習データサンプルとして文字画像インスタンスサンプルピクセル位置を識別する、ステップと、
を備える文字テンプレート学習マシン動作方法。
第２の文字テンプレートのテンプレート画像起点位置が、先行の第１文字テンプレートのテンプレート画像起点位置からこの先行の第１文字テンプレートの文字セット幅だけ変位され、当該第２の文字テンプレートが画像内に位置決めされる時、及び前記第１の文字テンプレートを完全に収容する第１の境界ボックスが、前記第２の文字テンプレートを完全に収める第２の境界ボックスと前記画像内でオーバーラップする時、前記第１と第２の文字テンプレートが実質的にオーバーラップしない前景ピクセルを有するように、前記文字テンプレートのセット内の各文字テンプレートが特性文字画像位置決め性を有する文字テンプレートモデルをベースとし、
前記文字画像インスタンスサンプルの２次元画像ソース内で発生する前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置が、前記文字画像インスタンスサンプルの画像起点位置を示す前記文字画像インスタンスサンプルの２次元画像ソース内の単一２次元画像位置であり、
前記プロセッサを動作して、前記文字テンプレートのセットを生成するステップが、
前記文字画像インスタンスサンプルの２次元画像ソース内のサンプル画像領域を決定し、各サンプル画像領域が、「サンプルピクセル位置」と呼ばれる前記文字画像インスタンスサンプルの２次元画像ソース内に複数の画像ピクセル位置を含み、前記サンプルピクセル位置の内の第１のサンプルピクセル位置が第１の文字画像インスタンスサンプルの画像起点位置であり、各サンプル画像領域が更に前記サンプルピクセル位置の内の第２のサンプルピクセル位置が第２の文字画像インスタンスサンプルの画像起点位置となる程十分大きいことと、全ての文字テンプレートが、前記テンプレートモデルの特性画像形成性を観測するように一つのテンプレートピクセル位置に対して一つのピクセルカラー値を決定するためにサンプル画像領域が使用されるサンプル画像位置を決定するテンプレートピクセル割当て基準をベースとして、前記サンプル画像領域内に含まれる前記サンプルピクセル位置によって示されたピクセルカラー値を用いて、前記文字テンプレートのそれぞれに含まれるテンプレートピクセル位置へピクセルカラー値を割当てることと、を有する
ことよりなる請求項１に記載の文字テンプレートセット学習マシン動作方法。
前記文字画像インスタンスサンプルの２次元画像ソースに対応付けられるトランスクリプションは、前記文字画像インスタンスサンプルの２次元画像内のそれぞれの文字画像インスタンスが、以下「タグ」と呼ばれる前記文字画像インスタンスサンプルの２次元画像内のそれぞれの文字画像インスタンスの目視検査によってペアリングされる文字ラベルではない少なくとも一つのトランスクリプション・ラベルを含む、メッセージストリングを示すタグ・トランスクリプション・データストラクチュアであり、前記タグによって示された少なくとも一つの文字コードが、前記文字画像インスタンスサンプルの２次元画像ソースのディスプレイ特徴を示すと共に、
前記プロセッサが、前記トランスクリプション及び前記マッピングデータを用いて前記文字画像インスタンスラベルを生成する時、前記タグに関連した少なくとも一つの文字画像インスタンスサンプルを識別するために前記文字画像インスタンスサンプルの２次元画像ソース内に発生する前記複数の文字画像インスタンスサンプルに関する空間的位置決め情報を使用し且つ文字画像インスタンスラベルを前記文字画像インスタンスサンプルとペアリングするために前記タグを使用する、
請求項１に記載の文字テンプレートセット学習マシン動作方法。