JP3822277B2 - 文字テンプレートセット学習マシン動作方法 - Google Patents
文字テンプレートセット学習マシン動作方法 Download PDFInfo
- Publication number
- JP3822277B2 JP3822277B2 JP09869096A JP9869096A JP3822277B2 JP 3822277 B2 JP3822277 B2 JP 3822277B2 JP 09869096 A JP09869096 A JP 09869096A JP 9869096 A JP9869096 A JP 9869096A JP 3822277 B2 JP3822277 B2 JP 3822277B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- character
- sample
- template
- glyph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、コンピュータによるパターン認識の分野に係り、特に、文書画像復号化及び文字認識を実行するコンピュータによるシステムに用いる文字テンプレート学習(トレーニング)に関する。
【0002】
【従来の技術】
文字認識システムは、一般に、分離された入力文字画像、即ち「グリフ(glyph )」の外観が解析され、意思決定プロセスにおいて所定の文字のセット内の異なる文字として分類されるプロセスを含む。用語「グリフ」は、文字の実現されたインスタンスを示す画像を称する。その分類解析は、一般に、分離された入力グリフの特性(例えば、そのピクセル成分又は他の特性)を文字セット内の文字に関する参照情報のユニットと比較することを含み、これらのユニットの各々は、画像形成プロセスによって導入されるノイズ又は歪みが生じない場合に画像内に出現する文字の「理想的な」視覚表示の特性を文字の特定のサイズ、フォント及び書体において定義する。一般に、「文字テンプレート」、「テンプレート」、又は「プロトタイプ」と呼ばれる各文字に対する参照情報のユニットは、文字を文字セット内の文字の内の一つとして固有に識別する「文字ラベル」と呼ばれる識別情報を含む。グリフと文字ラベルを示す参照情報との間で十分な整合がなされたことを分類解析が決定した時、文字ラベルは入力グリフの識別として出力される。
【0003】
文字テンプレートを備える参照情報の表現がそのモデルと呼ばれてもよい。一つのタイプの文字テンプレートモデルは一つの文字のビットマップされた又は2値の画像として知られている。2値文字テンプレートモデルのカテゴリ内には、少なくとも二つの異なるタイプのモデルが定義されている。一つは「セグメンテーションベース」のモデルと呼ばれ、文字テンプレートを「境界ボックス」と呼ばれる矩形領域内に完全にあてはまるものとして記述し、隣接文字テンプレートの結合を「非連結」な、オーバーラップしない境界ボックスを必要とするものとして記述している。米国特許第5,321,773 号は、他の2値文字テンプレートモデルを開示しており、このモデルは、ディジタル・タイポグラフィの分野で使用される、文字(letter form)形状の記述及び位置決めのサイドベアリング(字面の左右の肩部)モデルに基づく。図1の説明において以下により詳しく記述されたサイドベアリングモデルは、一つのテンプレートの前景(例えば、一般に黒色)ピクセルが隣接テンプレートの前景ピクセルによって共用されていない即ちこの隣接テンプレートの前景ピクセルと共通している間は、オーバーラップする矩形境界ボックスを許容するようにテンプレートの結合を記述している。このことはテンプレートが実質的「非連結サポート」を持つように要求するときに記述される。
【0004】
学習文字テンプレートは、認識プロセスに用いられるテンプレートを生成、作成、又は更新するために学習データを使用するプロセスである。学習データは、文字画像サンプルの集合として広く定義されることができ、テンプレートを定義する文字テンプレートモデルによりテンプレートを生成するのに必要な情報を提供する。文字画像サンプルの各々は、当該サンプルが示す文字セット内の文字を識別する割り当てられた文字ラベルを有している。既存の学習プロセスの有効度は、学習データの品質及び精度、特にグリフサンプルの品質に直接依存する。
【0005】
良質のグリフサンプルはこれらが学習プロセスに入力された時に欠落した又は無縁の前景ピクセルによって実質的に損傷を受けないグリフサンプルである。走査やファクスプロセスのような周知のソースから生成されるビットマップ画像から導入されるグリフサンプルは、ビットマップの実際の外観の不確実性に拍車をかける画像ノイズや歪みによって品質が低下することを余儀なくされる。この点に関する特定の問題は、テキスト内の文字がブレたり、併合したり又は途切れたりする傾向である。このような低品質画像は、本明細書中においては「雑音性」画像と呼ばれる。既存の学習プロセスへの入力として良質なグリフサンプルの必要条件は、概して、グリフサンプルのソースとして使用される入力画像が相対的に非雑音性であること、又はノイジー画像の使用が可能となってもグリフサンプル内のノイズ除去又は補償のためのプロセスが存在すべきであることを限定している。
【0006】
認識システムは、一般に、文字テンプレートを学習するために個別の学習サブシステムを提供している。学習システムは「スーパバイズド」又は「非スーパバイズド」であってもよい。非スーパバイズド学習は、概して、認識及び学習の2段階のプロセスを有する。
【0007】
既存のスーパバイズド学習は、学習データの態様が学習プロセスのユーザによりある程度特別に準備されたプロセスとして記述される。このプロセスは、グリフサンプルの分離、グリフサンプルに割り当てられようとする文字ラベルの識別、及びグリフサンプルへの文字ラベルの実際の割当ての内のどれかを含んでいてもよいし、又はこれらの三つの態様を全て含んでいてもよい。スーパバイズド学習は、(学習データの)品質及び精度に関してユーザがある程度のコントロールを実行する学習データを用いて新規又は既存のテンプレートを学習する機会を提供する。
【0008】
一つのタイプの既存のスーパバイズド学習システムにおいては、入力されたグリフサンプルは、「セグメント化」されること即ち分離されており、個別的、且つ相対的に非雑音性のグリフサンプルであることと、学習プロセスへの入力の前の適切な文字ラベルによってラベル付けされることが要求される。一般に、学習データを準備する為のユーザインタフェースを有するソフトウェアは、ユーザに学習データの品質と精度の完全なコントロールを委ねながら、ユーザが画像内のグリフサンプルの回りに境界ボックスを手描きし、それらにラベルを割り当てるのを可能にする。
【0009】
学習データの準備の三態様の内の一つ以上が、直接的なユーザの関与を減少する為に自動化されてもよい。例えば、グリフサンプルのセグメンテーション及び境界ボックスの決定がテキスト文書画像全体又はテキストのラインの画像若しくはワード画像に適用される自動プロセスであってもよい。ユーザは、自動セグメンテーションの結果を検査し、誤ってセグメント化されたサンプルを補正し、文字ラベルをサンプルへ割り当てる機会を有することもある。
【0010】
画像モデルは、認識システムが設計される使用可能な入力画像のセットの特性又は記述であると共に、使用可能な画像のどの画像が所与の入力画像と最も良く整合するかを決定するために使用され得る形式で提供される。画像モデルは、使用可能な入力画像のセットについての"priori (事前)" 情報を示すと共に、特定の入力画像を定義する又は特定画像に対する解析及び認識プロセッシングの実行結果を含むデータストラクチュアから区別できる。
【0011】
形式的画像モデルは、形式的文法又は有限状態遷移ネットワークのような形式的記述言語を用いて使用可能な画像のセットを記述する。形式的文法は、特定の言語でのステートメント実行が許容される許容可能フォーマット(シンタックス)を定義するルールのセットである。文法は、非制限、文脈依存、文脈自由、及び正規などのタイプ別に特徴付けられてもよいし、特別なタイプの文法は多かれ少なかれ特定の画像モデルに適することもある。
【0012】
あらゆるテキスト認識システムのデザインは、明示的画像モデル又は暗示的画像モデルに基づく。画像モデルが当該モデルを使用するプロセッシングアルゴリズムとは無関係な方法で明示的且つ形式的に述べられているか又は画像モデルが画像解析動作を実行するコード本文として暗示的に示されているにすぎないかについて区別される。この点において、形式的画像モデルは、このモデルを使用するパーザコードとは無関係な明示的データストラクチュアとして存在する文法ベース文字ストリング解析システムにおける形式的文法に類似している。
【0013】
形式的画像モデルは、ゼロ次元(0D)、1次元(1D)、又は2次元(2D)の形式をとることができる。
【0014】
H. S. ベアード(Baird )は、「自己補正100フォント判別手段(A Self- Correcting 100-Font Classifier )」(1994年発行、文書認識SPIE Vol.2181 )において、ゼロ次元(0D)画像モデルを使用するポリフォント・リコグナイザのための特徴テンプレートの学習へのアプローチを開示している。ベアードは、任意の100の字形(タイプフェース)を適度に認識できるポリフォント判別手段が読み取ろうとする単一だが未知の字形を当該ポリフォント判別手段が自ら自動指定することが可能な自己補正方法を開示している。この自己補正方法は、多数の字形をN個の文字(シンボル)クラス、{Ci }i=1,N に「程良い」精度をもって区別することができるポリフォント判別手段を必要とすると共にクラス別にラベル付けされた分離サンプル文字画像上で学習可能な判別手段技術も必要とする。ベアードのテンプレート学習システムは、分類及び学習プロセスへの入力前に画像サンプルが分離されるのを必要とする、非スーパバイズドで学ぶ形式である。
【0015】
「擬似2次元隠れマルコフモデルを用いた低品質印刷文書におけるキーワードスポッティング("Keyword spotting in poorly printed documents using pseudo 2D hidden Markov models" )」(1994年8月発行「パターン解析とマシンインテリジェンス」に関するIEEEトランザクション第16巻、No.8の842乃至848ページ)において、S. Kuo(クオ)及びO. E. Agazzi(アガツィ)(以下、クオ等と称する)は、低品質印刷文書に埋め込まれたキーワードのロバストな(堅牢な)マシン認識のためのアルゴリズムを開示している。モデルと呼ばれるテンプレートは、整合されようとする既知のキーワードのセットを示す。キーワードモデル毎に、実際のキーワード及び他の全ての無縁ワードをそれぞれ示す、"pseudo 2D hidden Markov models"(擬似2次元隠れマルコフモデル)及び" PHHMs"と呼ばれる二つの統計的モデルが生成される。本明細書中に提供される用語の文脈において、キーワードテンプレートを示すPHHMは、形式的1次元画像モデルである。
【0016】
文字境界情報に無関係な文字のストリング(例えば、ワード)の認識に使用する1D画像モデルの文脈における特徴ベースのテンプレート学習は、1992年9月オランダで開催されたパターン認識についての国際会議議事録の116乃至119ページの「隠れマルコフモデルを用いた連結され且つ低下したテキスト認識」において、C.ボース(Bose) 及びS.クオによって開示されている。この文献に開示された認識方法は、公知のアルゴリズムを用いたページレベルプロセッシングが学習ステップの前に行われると共に分離されたワード又はラインの画像がリコグナイザへ提供されると仮定しており、この認識手段は隠れマルコフモデルとして表現される形式的1Dモデルに基づいている。スーパバイズド学習プロセスが開示されており、このプロセスは、各々が隠れマルコフモデルとして表現される0Dモデルの個別の特徴ベース学習テンプレートに基づく。
【0017】
米国特許第5,020,112 号及び第5,321,773 号は、形式的2D画像モデルに基づく認識システムを開示している。「2次元の確率論的文法を用いた画像認識("Image Recognition Using Two-Dimensional Stochastic Grammars" )」と題され且つ本発明の発明者の中の一人、P. A. チュウ(Chou)へ与えられた米国特許第5,020,112 号は、2Dの確率論的文脈自由文法をベースとする2D画像モデルを用いてビットマップされた画像オブジェクトを識別する方法を開示している。この米国特許第5,020,112 号は、対応する画像内での発生確率を各々が有する全ての対象となる可能性のある画像オブジェクトの多数のn×mのビットマップされたテンプレートを含むオブジェクト・テンプレート・ライブラリを開示している。画像グリフは、それらの境界ボックスが有効にオーバーラップしないという意味でセグメント化可能となるように要求される。形式的2D画像モデルは、矩形の画像モデルによって画像内のオブジェクト同士の間の空間関係を定義する生成ルールを有する確率論的2D文法として示される。この文法は、オブジェクトのリストを解析して最大の発生確率を有する使用可能な解析ツリーの内の一つを決定する為に使用される。学習のために使用されようとする画像サンプルを認識プロセスがオリジナル入力画像から分離し且つ認識手段による画像サンプルの分類に基づいてセグメント化された画像サンプルへ文字ラベルを割り当てると、学習プロセスは非スーパバイズドとなる。この説明に使用される用語の文脈において、テンプレートモデルはセグメンテーションベースモデルであるので、2D画像モデルは、使用可能な画像のセットを記述し、このセットはそれぞれが実質的にセグメント化できる画像オブジェクトを含まなければならないし、これらの画像オブジェクトの各々はオーバーラップされない境界ボックス内に実質的に含まれることが可能でなければならない。
【0018】
本発明の発明者であるG. Kopec(コペック)とP. A. Chou(チュウ)へ与えられ、「有限状態ネットワークを用いた画像認識方法("Image Recognigtion Method Using finite State Networks" )」と題された米国特許第5,321,773 号は、米国特許第5,020,112 号に使用されている文脈自由文法とは反対に、正規文法によって画像生成を定義する確率論的有限状態遷移ネットワークとして示される形式的2D画像モデルを開示している。2D画像モデルによって記述されたテンプレートモデルは、図1に関して詳細に説明される文字形状の記述及び位置決めのサイドベアリングモデルを定義している。
【0019】
米国特許第5,321,773 号に使用されている文字テンプレートの学習は、適切なテンプレート位置決めに必要とされる特定のタイポグラフィ特性やパラメータの推定又は演算を含む。これらはフォント・メトリック(字体距離)と集合的に呼ばれる文字のサイドベアリング及びベースラインの深さとして知られている。グリフの形状は、グリフのタイポグラフィーの原点が図1の交差点2、5、6によって示された点(0、0)になるように位置合わせされた局所座標システムによって画定される。グリフの文字「セット幅」は、グリフの起点位置によって画定され、第1のグリフのグリフ原点の位置から第2の隣接グリフの原点が連続文字画像形成時に通常に配置される点までの変位ベクトルΔ=(Δx ,Δy )である。ローマ字を含む大部分のインド−欧州アルファベットにおいて、Δx >0及びΔy =0である。図1において、文字”e”の文字セット幅は変位Δx で表記される。しかしながら、他の書き込みシステムにおいて、Δx は、負(例えば、セム語)になることが可能であり、又はΔy はノンゼロであってもよい(例えば、東洋グリフ)。特定のαに対してΔy =αΔx のとき、テキストライン内のグリフ原点は同一直線上にあり、テキストラインのベースライン4を画定する。グリフの境界ボックス3は、グリフを取り囲む文字座標軸によって方向付けられた最小矩形である。タイポグラフィックグリフ画像の起点位置が境界ボックスのx,y位置と必ずしも同じ広がりをもたないことが図1によって示されている。図1は境界ボックス3の外側のグリフ”e”に対するグリフ画像起点位置5と境界ボックス8の内側のグリフ”j”に対するグリフ画像起点位置を示す。左のサイドベアリングは、グリフの原点から境界ボックスの左端までの水平変位λである。同様に、右のサイドベアリングは、境界ボックスの右端から次のグリフの原点までの水平変位ρである。これらのサイドベアリングの一つ又は両方が負であってもよい。
【0020】
米国特許第5,321,773 号は、11乃至17コラムにおいて文字テンプレートの学習を開示しており、この学習プロセスは、1993年10月発行の画像処理に関するIEEEトランザクションの510乃至519ページ、G. Kopec(コペック)著の「画像の最小二乗フォント・メトリック推定("Least-Squares Font Metric Estimation from Images")(以下、コペックの「フォント・メトリック推定」と呼ぶ)に更に記述されている。開示されたスーパバイズド学習技術は、この特許の図14と、グリフサンプルがセグメント化可能であったコペックの「フォント・メトリック推定」の図3に示された特別に準備された入力画像を使用した。これらのサンプルには、フォントサンプルページの各ライン内のテキストライン及び個別文字が、テキスト画像エディタの単純連結成分ベースの解析手順を用いて導入されるコペックの「フォント・メトリック推定」の516ページに記述された事前学習セグメンテーションステップが実行された。テキスト画像エディタによって分離された各グリフサンプルは、入力画像内のグリフサンプルと1対1ベースでペアリングされたサンプルを識別する順序付き文字ラベルを含んだサンプルページの手書きで準備されたテキスト・トランスクリプションを用いてラベル付けされた。
【0021】
【発明が解決しようとする課題】
本発明は、学習に使用されようとするグリフサンプルのソースとしてテキスト文書の2次元(2D)画像を用い、グリフサンプルのラベリングに関する情報のソースとして非制限形式のトランスクリプションを用い、且つ2D画像におけるグリフサンプルと当該トランスクリプション内の情報との関係を定義する学習プロセスへの明示的入力として形式的2D画像モデルを用いることによって、学習データ準備の三態様全部へのユーザの関与を最小とし、これにより略正確な文字ラベルが適切なグリフサンプルへ割り当てられる。実際、この学習技術は、グリフの2D画像ソース及び2D画像に対応するトランスクリプションを提供するのとは別に、全てのユーザの学習データ準備への関与を実質的に取り除くために実行されることができ、テンプレートが効果的に自動生成される。
【0022】
学習プロセスへの明示的入力として形式的2D画像モデルを使用することは、テンプレート学習のためのグリフサンプルのソースとして既存テキスト文書の画像を使用する機会を提供し、これによってユーザがサンプルの特定画像を手書き設計し準備する必要性が取り除かれる。形式的2D画像モデルは、学習プロセスへの入力として受容される使用可能な2D入力画像のセットに関する事前情報を示す。明示的な形式的2D画像モデルを使用することの重要な利点は、学習のためのグリフサンプルが得られる使用可能な2D入力画像のセットを記述するときにフレキシビリティや詳細さを提供することであり、このことは、広範囲の既存テキスト文書画像が学習のために使用されてもよいことを同時に意味する。既存の学習技術に対する本発明の重要且つ固有の利点は、学習のためのグリフサンプルのソースとしてのテキスト文書画像の使用によって、入力された2D画像内のグリフサンプル又はテキストのラインの事前セグメンテーション又は分離の必要性が取り除くかれることである。学習プロセスは入力された2D画像内のグリフサンプルの位置を配置するために2D画像モデルによって提供された情報を使用し、これにより、グリフサンプルセグメンテーションが文書画像から通常ユーザによって手動で行われるスーパバイズド学習システムにおいてユーザの学習データ準備への関与が減少される。
【0023】
学習手順への入力として明示的に定義される2D形式的画像モデルを用いる更なる利点は、学習のためのグリフサンプルのソースとして使用され得るテキスト文書画像のタイプ(例えば、構造的外観)が新しいタイプの画像に関する情報を反映するように形式的2D画像モデルを単純に変化させることによって変更され得る、即ち、入力された画像のタイプが変化する時に学習プロセスを実行する命令を上書きする必要がないことである。本発明は、グリフサンプルの入力された2D画像ソースに関する詳細な情報を、特定の実現においてはユーザへアクセスすることができる入力されたデータストラクチュアへ置く。
【0024】
学習プロセスへの入力としてのフレキシブルに定義された制限されない形式のトランスクリプションの使用は、特定のトランスクリプションを明示的に準備すること又は文字ラベルを特定のグリフサンプルへ明示的に割り当てることをユーザに要求せずに、テンプレート学習で使用されるグリフサンプルのラベルリングに対して明示的コントロールを実行する機会をユーザに提供する。学習技術は、最終的に正確な文字ラベルが特定のグリフサンプルへ割り当てられるようにリテラル・トランスクリプションをユーザが準備するのを可能にするように実現されてもよいが、この技術は、文字ラベルをグリフサンプルへマップするために形式的2D画像モデルによって必要とされる情報を含む適切なトランスクリプションをユーザが簡単に選択できるようにもっと一般的な方法で実現され得る。
【0025】
既存の学習技術に対する本発明の学習技術の他の重要な利点は、本発明が、従来のスーパバイズド学習システムにおいて使用された1対1のシーケンスの文字ラベルより広い範囲の学習用トランスクリプションタイプの使用を提供することである。最も単純な形式において、このトランスクリプションは、各々が文字ラベルを示し、各々が1対1のペアリングにおいて2D入力画像内のグリフサンプルとそれぞれペアリングする、トランスクリプションラベルのストリングであってもよい。トランスクリプションは、文書プロセッシング、フォーマッティング又はワードプロセッシングのアプリケーションのための文書の構造的ピースを識別するタグとして知られるマークアップ(markup)情報を含むこともでき、このタイプのトランスクリプションは本明細書中において「タグ・トランスクリプション」と呼ばれる。
【0026】
【課題を解決するための手段】
従って、本発明によれば、複数の文字テンプレートを学習するためのマシン動作方法が提供されている。この方法によって動作されるマシンは、命令データを含むデータを記憶するメモリデバイスと、前記メモリ内に記憶されたデータへアクセスすると共に前記マシンを動作するための命令を実行するために連結されたプロセッサと、を有する。
【0027】
本発明の学習技術の重要な利点は、文字画像の境界ボックスの識別に加えて又はその代わりに文字画像の起点位置の識別を必要とする文字形状の記述又は位置決めのサイドベアリングモデルのようなテンプレートモデルによって定義される文字テンプレートの学習への学習技術の特定アプリケーションである。サイドベアリング文字テンプレートモデルに基づいた学習文字テンプレートは、2D画像内で生じるグリフサンプルの画像の起点位置を知るだけで効果的に達成されるので、特定の文字テンプレート内に含まれようとするピクセルを識別するためにグリフサンプルの周辺に境界ボックスを決定することに頼る必要がない。従って、本発明の学習技術の一つの実現は2段階プロセスである。第1のステップは形式的2次元モデルとトランスクリプションを使用して、2D画像内のグリフサンプルの画像起点位置を識別し且つこのグリフサンプル画像起点位置へ文字ラベルを割り当てる。この実現は、グリフサンプルが2次元入力画像内に発生する場所に関する情報を事前に持たずにグリフサンプルの画像起点位置を決定する。
【0028】
この実現の第2のステップにおいて、第1のステップの出力であるラベル付けされたグリフの起点位置が、次に、学習されたテンプレートを生成する新しいテンプレート構成プロセスへ入力される。2値文字テンプレートを学習する既存の学習システムにおいて、境界ボックスの使用によるグリフサンプルのセグメンテーションは、一般に、周知のピクセル平均化プロセスを用いて、複数の文字の分離サンプルから相対的に判りやすい文字テンプレートの決定を許容する。本発明の学習技術においては、グリフサンプルのグリフ起点位置を決定するだけでよく、グリフサンプル周辺の境界ボックスを決定することによって2D入力画像内のグリフサンプルのセグメンテーションを実行する必要がないのである。従って、グリフサンプル境界を知ることに依存する既存のビットマップ平均化技術を使用することができない。本発明の技術は、グリフセグメンテーションの関数的結果をビットマップされたテンプレートの実際の構成と本質的に結合させる、新しいテンプレート構成技術を用いてグリフサンプルの画像起点位置だけに関する情報から2値文字テンプレートを生成する技術である。この技術において、2値文字テンプレートを記憶するのに適した縦及び横の寸法を有するテンプレート画像領域と呼ばれるテンプレートピクセル位置のアレイが、学習される各文字テンプレートごとに生成され、各文字テンプレートに対するグリフサンプルの内の一つを各々が含む2D入力画像内のサンプル画像領域を文字テンプレート毎に決定するように使用される。テンプレート画像領域は、テンプレート起点位置として指定されたテンプレートピクセル位置を有し、グリフサンプルを含む2D入力画像内のサンプル画像領域はテンプレート画像領域の局所座標システムに相対して決定され、これにより、グリフサンプルの画像起点位置が、当該テンプレート画像領域内のテンプレート起点位置のピクセル位置と同じ相対的ピクセル位置をサンプル画像領域内に有することになる。グリフサンプル文字セット内の文字の内のそれぞれ同じ文字を示すサンプル画像領域の全てはサンプル画像領域の集合と呼ばれる。この集合の中の各サンプル画像領域は、全ての他のサンプル画像領域に位置合わせされ、画像起点位置においては、その文字のためのテンプレートに位置合わせされる。2値文字テンプレートは、前景ピクセルカラー値をテンプレート画像領域の内の選択された領域内のテンプレートピクセル位置へ割り当てることにより文字テンプレート毎に位置合わせされたサンプル画像領域の集合から略同時期に生成され、このテンプレート画像領域の内の選択された領域は、サンプル画像領域に含まれたそれぞれペアの位置合わせされたサンプルピクセル位置を用いて演算されたテンプレート補助測定を基本にして選択される。
【0029】
本発明の学習技術が、文字位置決めのための文字画像起点位置を使用する文字テンプレートモデルによって記述された学習文字テンプレートに用いられる時、本発明の学習技術から得られる幾つかの利点及び利益がある。グリフの2D入力画像ソースに関する「事前」情報を提供する明示的な形式的2D画像モデルは、グリフサンプルのグリフ画像起点位置を検出するプロセスにおいて入力画像内のノイズによる妨害を最小とする。更に、テンプレート構成前のセグメンテーション・ステップ除去により、ノイズのある画像でセグメンテーションを実行する時に導入されるセグメンテーション・エラーを除去し、多様な品質の既存テキスト文書の画像がグリフサンプルのソースとして使用されるのを可能にする。ノイズのある画像内で発生する振れたり、途切れたり、併合されるグリフサンプル、又は文字画像が連結されるように設計されたフォント内で自然発生する併合されたグリフサンプルを巧妙に処理する。このテンプレート連結プロセスは、2D入力画像のテキスト内で発生する複数のグリフサンプルを使用すると共にこれらのテンプレートを略同時期に生成するので、当該画像内のノイズから得られる一つ又は二つの振れたり途切れたり併合されるサンプル内で発生する無縁又は紛失ピクセルは、これらの低品質サンプルが他のノイズなしの高品質サンプルによって処理される時に、学習された文字サンプルの品質に殆ど影響を与えない。更に、この新しいテンプレート構成方法はグリフサンプル毎に実際の境界ボックスを見つけることを必要としないので、容易にセグメント化されない潜在的により広い範囲のシンボルセット、アルファベット、及び文字フォントが本発明の学習技術によって供給されることができ、本発明の学習技術はまた、既存テキスト文書の広範囲な画像がグリフサンプルのソースとして使用されるのも可能にする。
【0030】
本発明の学習技術の一つの実現において、学習のためのグリフサンプルのソースとして作用され得る使用可能な画像のセットのストラクチュアを記述する形式的2D画像モデルが、ペアのノード同士の間の一続きのノードと遷移を含む有限状態遷移ネットワークの形式を有するマルコフ(Markov) ソースとして示される。文字テンプレート、メッセージストリング、遷移確率、及びベクトル変位を含む遷移データアイテムがネットワーク内の各遷移に対応付けられる。グリフサンプルに割り当てられようとする文字ラベルに関する情報が導入され得るトランスクリプションのセットは有限状態遷移ネットワークとしても示され、この有限状態遷移ネットワークにおいて、各遷移は、代替トランスクリプションに対して使用可能なトランスクリプション・ラベルに対応付けられる。形式的2D画像モデルがトランスクリプションの入力セットと共に使用可能な入力画像の相対的に小さなセットを記述するために、一つ以上のトランスクリプション・ラベルが、形式的2D画像モデルにおける遷移に対応したメッセージ・ストリングに関連している。この学習技術は、トランスクリプションのセットによって制約された時、2D画像モデルを介して最良の経路を提供する遷移のセットを見つけるために形式的2D画像モデルを使用する。各グリフサンプルの画像起点位置は、このサンプルに対するそれぞれの文字ラベルと一緒に最良の経路を形成する遷移のシーケンスから識別され、次いでこのラベル付けされたグリフ画像起点位置データは上記の新しいテンプレート構成プロセスへの入力として使用される。
【0031】
本発明の態様は、認識システムに使用するための文字テンプレートのセットを学習するマシンを動作する方法であって、
前記マシンが、プロセッサとデータを記憶するメモリデバイスとを含み、
前記メモリデバイス内に記憶されたデータが、前記マシンを動作するために前記プロセッサが実行する命令データを含み、
前記プロセッサが、前記メモリデバイス内に記憶されたデータにアクセスするために前記メモリデバイスに連結されており、
前記プロセッサを動作して、以下「グリフサンプルの2D画像ソース」と呼ばれる複数のグリフサンプルを含む2次元画像を定義する画像定義データストラクチュア内に発生する各グリフサンプルのグリフサンプルピクセル位置を決定するステップであって、前記グリフサンプルの2D画像ソースがグリフの単一ラインより大きな縦寸法を有し、前記グリフサンプルの2D画像ソース内に含まれる各グリフサンプルが以下「グリフサンプル文字セット」と呼ばれる複数の文字セット内の文字のそれぞれの画像インスタンスであり、学習される文字テンプレートのセットの各々が前記複数のグリフサンプル文字セット内の文字のそれぞれを示すと共に前記グリフサンプル文字セット内のそれぞれの文字を示す文字ラベルデータアイテムにより識別され、
前記プロセッサが、前記各グリフサンプルのグリフサンプルピクセル位置を決定する時、前記マシンの前記メモリデバイス内に記憶された、以下「2D画像ソースモデル」と呼ばれる2次元画像ソースモデル・データストラクチュアを使用し、前記2D画像ソースモデルが、2次元(2D)画像のセットの空間的画像ストラクチュアを文法としてモデリングし、前記グリフサンプルの2D画像ソースが、前記2D画像ソースモデルによってモデリングされた2D画像のセットの内の一つであり、前記2D画像ソースモデルが、前記グリフサンプルの2D画像ソース内で発生する複数のグリフの空間的位置決めをモデリングする空間的位置決めデータを含み、前記プロセッサが、前記各グリフサンプルのグリフサンプルピクセル位置を決定するために前記空間的位置決めデータを使用する、ステップを有し、
前記プロセッサを動作して、前記グリフサンプルの2D画像ソース内で発生する前記各グリフサンプルのグリフサンプルピクセル位置とペアリングされた以下「それぞれペアリングされたグリフラベル」と呼ばれるグリフラベルデータアイテムを生成するステップであって、前記それぞれペアリングされたグリフラベルが前記グリフサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされたグリフラベルを生成する時、前記グリフサンプルの2D画像ソース内で発生するグリフのそれぞれを前記グリフサンプル文字セット内の文字を示すグリフラベルとマッピングする前記2D画像ソースモデル内に含まれたマッピングデータを使用し、
前記プロセッサが、前記それぞれペアリングされたグリフラベルを生成する時更に、前記グリフサンプルの2D画像ソースに対応し且つ以下「トランスクリプション・ラベル」と呼ばれるトランスクリプションラベル・データアイテムの順序付き配列を含む、以下「トランスクリプション」と呼ばれるトランスクリプション・データストラクチュアを使用し、前記プロセッサが、グリフラベルを前記各グリフサンプルのグリフサンプルピクセル位置とペアリングするために前記トランスクリプション及び前記マッピングデータを使用する、ステップを有し、
前記プロセッサを動作して、前記それぞれペアリングされたグリフラベルによって識別された前記グリフサンプルの2D画像ソース内で発生する前記グリフサンプルのグリフサンプルピクセル位置を用いて前記グリフサンプル文字セット内の文字のそれぞれを示す文字テンプレートのセットを生成するステップであって、
各それぞれがペアリングされたグリフラベルが、前記文字テンプレートの各々に対する学習データサンプルとしてグリフサンプルピクセル位置を識別する、ステップと、
を備える文字テンプレート学習マシン動作方法である。
【0032】
【発明の実施の形態】
本明細書中においては、用語「データ」又は「データアイテム」は、情報を示す又は情報を含む物理的信号を称する。第2のデータアイテムが第1のデータアイテムから得られる時、第1のデータアイテムを用いて第2のデータアイテムにアクセスできる時、第1のデータアイテムを復号することにより第2のデータアイテムが得られる時、又は第1のデータアイテムが第2のデータアイテムの識別子であり得る時、データの第1のアイテムは、第2のデータアイテムを「示す(indicate)」。例えば、図3の有向矢印36は、文字テンプレートデータストラクチュア20内の文字ラベルデータアイテム28が文字”a”の画像を描く文字テンプレート22を示すことを図示している。データアイテムが、各々が識別可能なアイテムの内の多くとも一つとマップされ得るデータアイテムのセットの内の一つである場合、当該データアイテムは、識別可能なアイテムのセットの内の一つを「識別する」か又は当該識別可能なアイテムのセットの内の一つの「識別子」になる。例えば、図3において、文字ラベルデータアイテム28は、文字テンプレート22を識別するように命令されてもよい。
【0033】
画像を定義するデータは、「画像定義データ」と呼ばれてもよい。例えば、二次元(2D)アレイは、このアレイ内の各データアイテムが画像の各位置のカラーを示す値を付与することで、画像の全て又は画像のいかなる部分をも定義することができる。このタイプの画像表示(representation)において、このような画像位置の各々は、従来、「画像素子」又は「ピクセル」と呼ばれ、画像の小さな固有領域を示す。一般に、ブラック&ホワイト(白黒)の2値画像においてピクセルの値は黒又は白を示し、黒は前景カラーであり且つ画像内のそれぞれのマーク又はアクティブ位置を示すように意図されると共に、白は背景カラーである。黒は前景ピクセルカラーとして使用される一般的なカラーなので、本明細書中の説明を通しては、明示的に表記される場合を除いて、黒ピクセルと前景カラーに関する言及は置換可能に使用される。ピクセルを定義するデータアイテムの2Dアレイによって示されるプロセッサ制御システムにおける画像は、「ビットマップ画像」又は「2値画像」と呼ばれる。
【0034】
用語「ディスプレイ特性」は、ディスプレイ装置によって生成されるあらゆる人間の知覚を称し、単一ディスプレイ特性を含み、画像内のディスプレイ特性のパターンを共に形成する複数のディスプレイ特性を含んでいてもよい。「ディスプレイ・オブジェクト」又は「オブジェクト」は、可干渉性(コヒーレントな)単一物として知覚可能なディスプレイ特性である。画像は、この画像の提示(presentation)が特徴又はオブジェクトの知覚を生成することができる場合、ディスプレイ特徴又はオブジェクトを「含む」。
【0035】
本明細書中において使用される「文字(character )」は、単一で、ディスクリート(離散的)な、抽象的な、エレメント又はシンボルを意味する。例えば、文字は、書き込み又はプリント形式の言語で出現する抽象的なシンボルを含むことができる。言語における文字は、アルファベットや数を示すエレメントだけでなく、句読点、区分発音符、等式のような数学的表記に使用される数学的且つ論理学的シンボル、及び書き込み又はプリント形式の言語に使用される他のエレメントも含むことができる。より一般的には、文字は、英数字のエレメントの他に、表音文字、表意文字、又は象形文字のエレメントを含むことができる。例えば、象形文字言語におけるシンボルと音楽記号を示すシンボルとが、用語「文字」に含まれる。特定の言語、又は音楽のような他のシンボル表記に関連する文字の全てが、「文字セット」を備える。
【0036】
「文字コード」は、プロセッサに対して文字(抽象的シンボル)を定義する又は示すプロセッサ制御マシン又はシステムにおけるデータアイテムである。言語に属する文字セットのような文字セットの符号化は、当該セット内の文字毎にそれぞれの文字コードを含む文字コードのセットの定義を必要とする。文字コードのセットの例は、英語の言語(以下、英語と呼ぶ)を構成するシンボルに対するアスキー(ASCII)コードのセットである。
【0037】
「グリフ(glyph )」は、例えば、用紙又はディスプレイスクリーンのようなマーキング媒体へ画像として実現される文字の、単一インスタンス又は例である。文字の画像が印字、走査、複写、又はファクスされる時、当該文字の画像がどのように生成されるかについて種々のファクタが影響を与え得るので、テキスト画像内の文字の一つのグリフが、当該テキスト画像内の同じ文字の他のグリフと一致しないこともある。
【0038】
用語「複数のグリフの入力された2D画像ソースを定義する画像定義データ」(以下、「グリフサンプルの2D画像ソース」、「2D画像データストラクチュア」又は単に「2D画像」と称する)は、プロセッサ制御マシンのメモリデバイス内への記憶に適したデータストラクチュアを称する。データストラクチュアは、文字の複数のビットマップ表示が画像により定義される2D空間内に発生する2D画像を定義する。この2D画像データストラクチュアの構成は、個々のピクセル位置がプロセッサによってアクセスできるようにされているが、個々のグリフを備えるピクセルはプロセッサへアクセスできるデータのユニットとして初めは識別されないし、また、2D画像内の特定のx,y座標位置がグリフ内に含まれたピクセルの内の一つを示すか否かについての情報もプロセッサは初めは入手できない。グリフサンプルの2D画像ソースは、本発明に従って文字テンプレートを学習するために使用されるグリフサンプルの入力されたソースである。2D画像は概念的には文書のページに類似しており、グリフを2D空間に縦そして横に分散させることで、実際の物理的ページの画像を頻繁に示す。2D画像はグリフを含むだけに限定されない。従って、グラフィカル・オブジェクト若しくは形状、絵、ハーフトーン(中間調)画像、線画、写真、他の絵画的エレメント、又はノイズを構成する画像のような他の画像オブジェクトが、グリフの入力された2D画像ソース内に含まれてもよい。
【0039】
図2は、英語から成る文字セット内の文字のビットマップ表示を含む2D画像データストラクチュア10を示す。図2において、2D画像10内の英字(英語の文字)の各ディスクリートな表示は、グリフである。グリフ12及び14は、これらのグリフのそれぞれの画像を構成する個々のピクセルの概略的な表示を示すように拡大されている。図2における2D画像10は、新聞の記事を走査することによって生成された2値画像を示すデータストラクチュアの部分を示すと共に、この2D画像内に含まれたラインセグメント16、ノングリフ(nonglyph))を備えるピクセルを含む。
【0040】
「テンプレート」又は「文字テンプレート」は、文字のビットマップされた画像を示すデータストラクチュアである。ビットマップされた文字テンプレートの「サポート」は、テンプレートが背景とは異なるピクセル位置のセットである。「文字ラベル」は、文字セット内の文字の一つを文字のビットマップされた画像を示すそれぞれの文字テンプレートを用いて固有に識別する情報を示すデータアイテムである。文字ラベルは、テンプレートを識別するためにASCII コードのような文字コードを示してもよいし、又は文字セット内の文字の特定の一つのビットマップされた画像を示すテンプレートとして当該テンプレートを固有に識別する、フォント識別情報、サイズ情報、又はタイプスタイル情報のような他の情報を示すこともある。「ラベル付けされた文字テンプレートのセット」又は「文字テンプレートのセット」は、少なくとも一つの文字テンプレートと、文字テンプレートを固有に識別するそれぞれの文字ラベルと、を含むデータストラクチュアである。
【0041】
図3は、英語の文字セット内の文字を示すラベル付けされた文字テンプレートのセット20を示す。文字テンプレート・データストラクチュア22、24、及び26は、文字テンプレート22から文字ラベル28への例示した有向矢印34によって示されているように、文字ラベルデータアイテム28、30、及び32をそれぞれ示す。文字ラベルデータアイテム28、30、及び32の各々における識別情報は引用符に囲まれた文字として図示されている。この表示は、文字の画像を示すピクセルと区別されるようにプロセッサ制御マシンのデータメモリ内に記憶されるそれぞれの文字コードを示すために本明細書の図中に使用されている。
【0042】
完全な文字を示すピクセルの明示的2Dアレイに対して任意の方法で文字テンプレートを示すデータストラクチュアは、図3の文字テンプレートの図に限定されない。テンプレートは、縦のストローク、接合部(ジョイン)、アセンダ、ディセンダ、及びカーブ部のようなビットマップされた文字の構成部分の連結から構成されてもよい。テンプレートは、(明示的2Dアレイの)出力としての完全な文字を示すピクセルの明示的2Dアレイを生成する形式的モデルによって示されてもよい。
【0043】
本明細書中に使用されているように、「トランスクリプション・データストラクチュア」又は「トランスクリプション」は、固有のメッセージストリングMを示すデータストラクチュアである。メッセージストリングMは、各々が複数の文字セット内の文字の内の少なくとも一つを示す、複数のメッセージサブストリング、m1 、m2 、...mn を含む。各ストリングmi は、「トランスクリプション・ラベル・データアイテム」として又は単に「トランスクリプション・ラベル」として呼ばれる。形式的2D画像が、トランスクリプション内の文字によって示される情報と共に、グリフの入力された2D画像ソース内の一つ以上のグリフサンプルと、学習される文字テンプレートのセット内の文字テンプレートを示す一つ以上の文字ラベルと、の間でマッピングを設定する時、当該トランスクリプションは、(以下に定義される)形式的2D画像ソースモデルに「対応付けられる」といわれる。用語「マッピング」は、第1のセットの各メンバを第2のセットの単一メンバと対応させる二つのセット間で設定される対応のルールを称するため、本明細書中では数学的意味で用いられている。トランスクリプションが、トランスクリプションラベルの順序がトランスクリプションタイプの定義により明示的に示されたタイプのトランスクリプションでない場合、トランスクリプションラベルは、対応付けられる2D画像において、互いに、又はグリフサンプルに対して、含意又は推論される順序を持たない。
【0044】
トランスクリプションは、トランスクリプション・データストラクチュアが以下の二つの条件の内の一つを満たした時、グリフの特定の入力された2D画像ソースに「対応付けられる」といわれる。
(1)トランスクリプション・データストラクチュアが、入力された2D画像上で実行される認識動作の出力から生成される又は生成されることができる。認識動作は、特定の2D画像上で実行されるコンピュータによる認識又は復号動作のようなプロセッサ制御であってもよい。或いは、認識動作はプロセッサ制御マシンを用いてユーザによって実行されてもよい。例えば、ユーザは、2D画像を目視検査することによって、及び文字コードを示す信号を生成するキーボードのような従来の入力デバイスを用いて文字コードを入力することによって、トランスクリプション・データストラクチュアを生成してもよい。
(2)トランスクリプション・データストラクチュアは、2D画像を生成する文書フォーマッティング動作のような画像レンダリング動作への入力ソースであるデータストラクチュアから生成される又は生成されることができる。トランスクリプションが対応付けられる入力された2D画像は、「対応付けられる2D画像」と呼ばれる。
【0045】
「リテラル・トランスクリプション」はトランスクリプション・ラベルの順序付きシーケンスを含む。これらのトランスクリプション・ラベルの各々は、学習されるテンプレートのセット内の文字テンプレートに対して文字ラベルを示す。これらのトランスクリプション・ラベルの略全ては、トランスクリプション内でシーケンシャルな発生順で取り込まれて、対応付けられる入力された2D画像の目視検査によって、対応付けられる画像内で発生するそれぞれの個別のグリフとペアリングされることができ、当該対応付けられる画像は、グリフが対応付けられる2D画像の読み取り順に合わせたシーケンスで取り込まれる時にトランスクリプション内のそれぞれの文字ラベルによって示された文字を示す。図4は、グリフ10(図2)の2D画像ソースに対応付けられると共に、トランスクリプション・ラベルの単一順序付きシーケンスを含むリテラル・トランスクリプション60を示す。復帰改行文字62は、この復帰改行文字の後に続く文字ラベルが対応2D画像の次行に位置決めされるペアリングされたグリフサンプルを有することを示すラベルである。復帰改行文字は、一般にテキストエディタを用いてテキスト文書を準備するユーザにより、テキストを示すデータストラクチュアへ挿入される。
【0046】
「ノンリテラル・トランスクリプション」は、リテラル・トランスクリプションではないグリフの入力された2D画像ソースに対応付けられるトランスクリプションのタイプである。ノンリテラル・トランスクリプションは、例えば、エラーではないと共に目視検査によって対応付けられる2D画像内のグリフとペアリングされることができない文字を示すトランスクリプション・ラベルを含んでいてもよい。非文字ラベルデータは、学習されるテンプレートによって示される文字セット以外の文字セット内の文字を示すことができる。例えば、対応付けられる入力された2D画像内のグリフとして出現する特別の文字、数学的シンボル、又は音楽記号が、拡張された文字セット内の文字として又は一つ以上のASCII 文字のストリングとして、トランスクリプションラベル内に示されてもよい。ノンリテラル・トランスクリプションは、対応付けられる2D画像内の幾つかのグリフに対するトランスクリプション・ラベルを意図的に省略できる。このタイプのトランスクリプションの例は、事前プリント形式の2D画像と対応付けられる例であり、この例において、トランスクリプションは、この形式のフィールドへ挿入される情報に対するトランスクリプション・ラベルは含むが、命令情報を提供するグラフィック・エレメント及びグリフのような、この形式上の事前情報として出現するものに対するトランスクリプション・ラベルは省略する。
【0047】
「タグ・トランスクリプション」は、非文字ラベルデータが「タグ」又は「タグデータ」と呼ばれる情報を示すグリフの対応付けられる2D画像ソースのノンリテラル・トランスクリプションのタイプである。この「タグ」又は「タグデータ」と呼ばれる情報は、文書プロセッシング動作によって変換されると、対応付けられる2D画像のフォーマットにおいて、又は当該対応付けられる2D画像内のグリフの一部として、知覚可能なディスプレイ特徴を生成する。タグデータは、ページ、段落、及び区切れの箇所(line breaks )のような2D画像のフォーマット特性とこの2D画像内のグリフの位置の決定論的な行間隔とを識別する情報、グリフが出現するフォント又はフォントバリエーションのような一つ以上のグリフの一つ以上の外観属性を指定する情報、又は文書がフォーマットされる時にトランスクリプション内の明示的トランスクリプションラベルが全くマップされることができない2D画像内のグリフを生成する結果を生じる情報、を含む。タグによって示され得る種々のタイプの情報は、本明細書中では、一般に、「マークアップ情報」と呼ばれる。タグデータは、一般に、文書プロセッシングシステム同士の間で文書ストラクチュア及び内容を示すための標準文書交換フォーマットとして作用するように意図されたデータストラクチュア内で発生する。このようなデータストラクチュアは、入力文書データストラクチュア又は入力画像のいずれかを標準交換言語で文書を示すデータストラクチュアへ変換する動作の出力として一般に生成される。このような言語の例は、SGML(Standard Generalized Markup Language)、ODA (Office Document Architecture)、HTML(Hypertext Markup Language )を含む。タグデータはデータストラクチュアにおいて発生し、当該データストラクチュアは、マークアップ言語を使って生成された文書データストラクチュア内で発見される文書のフォーマット及び論理的ストラクチュアのための命令をデータストラクチュア内に含む自動テキスト・レイアウトシステムとも呼ばれる文書指定及びフォーマッティングシステムによって使用又は生成される。このような文書指定及びフォーマッティングシステムの例は、GML(Generalized Markup Language)、TeX 及びLaTeX を含む。
【0048】
図5は、テクニカル・ディクショナリのディクショナリ・ページのためのタグ・トランスクリプション・データストラクチュア40を示す。タグ・トランスクリプション40は、図6の2D画像50として示されたディクショナリ・ページの画像と対応付けられる。タグ・トランスクリプション40は、ディクショナリ・エントリのエントリ、ネーム、カテゴリ、及びボディそれぞれの構造的部分を識別するタグ・データを示すトランスクリプション・ラベル42、44、46、及び48を含む。
【0049】
図5及び図6は、トランスクリプション内の明示的トランスクリプション・ラベルは、2D画像内のグリフとマップされることができない当該2D画像内のグリフが結果的に発生されるタグ・データの例を示している。画像50は、文字"electr"を描くグリフのシーケンスの回りに左右の括弧54及び55をそれぞれ含む。タグ・トランスクリプション40は左右の括弧54及び55に対するトランスクリプション・ラベルを含まないが、メッセージ・サブストリング"electr"がワードエントリのためのカテゴリ情報であることを示すトランスクリプション・ラベル47を含むことが理解され得る。文書プロセッシング動作によってフォーマッティング情報として解釈される時、メッセージ・サブストリング" \category" は、画像50内のディスプレイ・オブジェクトとして左右の括弧54及び55を生成したと推論される。
【0050】
「トランスクリプションのセット」は同じタイプの少なくとも二つのトランスクリプションを称し、これらのトランスクリプションの全てが単一2D画像に対応付けられる。数学的にトランスクリプション・データストラクチュアのセットは正規セットであるとみなされる。図7は、グリフ10の入力された2D画像ソースにおいて"from"を示すグリフに対して"F(r|n)(om |orn)" の代替トランスクリプション・ラベル72を提供して、画像10に対して4つのトランスクリプション・データストラクチュア70のセットを生成する、単一トランスクリプション・メッセージの直截的ケースを示す。
【0051】
「形式的トランスクリプション・モデル」又は「トランスクリプション・モデル」は、トランスクリプションのメッセージストリングを、有限状態遷移ネットワーク又は文法のような正規セットとして示すデータストラクチュアである。例えば、有限状態遷移ネットワークは、各遷移がトランスクリプション内のトランスクリプション・ラベルに対応付けられる多数の遷移を有している。
【0052】
トランスクリプションのセットは、形式的トランスクリプションモデルとして示されてもよい。図8におけるモデル800は、図7におけるトランスクリプション70のセットのための有限状態遷移ネットワークの例を図示し、トランスクリプション70内のワード"From"に対して発生する遷移を示す。
【0053】
「形式的2次元画像ソースモデル」又は「形式的2D画像モデル」は、2D画像内のグリフサンプルのグリフ位置とそれぞれの文字ラベルによって示される文字のサンプルとしてグリフを識別するテンプレートの文字ラベルとの間でマッピングを定義するデータストラクチュアである。形式的2D画像モデルは、本明細書中の学習技術及びシステムへの明示的入力であり、且つ形式的文法又は有限状態遷移ネットワークのような形式的記述言語の形態における命令を含み、これらの命令は、認識システムが定義される使用可能な2D入力画像のセットとこの使用可能な画像のセットに対応する使用可能なトランスクリプションのセットに関して、構造的特徴及び関数的特性を含む「事前」情報を特徴とするか又は記述する。形式的2D画像は、学習されようとするテンプレートをモデリングする文字テンプレートモデルを記述すると共に、文字テンプレートの初期セットを含む。形式的2D画像モデルは、それを使用するパーザの命令(即ち、コード)とは無関係の明示的データストラクチュアとして存在する文法ベースの文字ストリング解析システムにおける形式的文法に類似している。
【0054】
テキストライン分離又は個別のグリフ分割の事前学習ステップを全く必要としないように、形式的2D画像モデルは、本発明が2D画像の定義域内で動作するのを可能とする。構造的には、本発明の学習技術及びシステムに使用するのに適したモデルのタイプであるように意図された形式的2D画像モデルが、使用可能な2D画像のセット内に含まれる画像内の使用可能な画像オブジェクト(例:グリフ、グラフィカル・オブジェクト、写真、他)が2D画像内でいかにして空間配列されるかについての画像位置情報を定義する。頻繁であるが、必ずしもそうとは限らずに、画像が英語の文書を示す時、モデルによって定義されるグリフ位置情報は、この文書が人間によって読み取られる時の当該文書に対する従来の読取り順と一貫性がある。下記の図示された実施の形態において、図2におけるグリフ10の入力された2D画像ソースを含む画像は矩形であり、xが右へ大きくなり、yが下へ大きくなり、且つ上部左コーナーがx=y=0である画像座標システム13(図2)を有していると仮定される。ノングリフ画像オブジェクトに対する画像位置情報のモデルの記述は、所与の入力された画像の部分又は複数の部分がグリフサンプルの使用可能な画像位置として除去されるのを許容する。モデルのこの態様が広範囲の入力された2D画像がグリフサンプルソースとして適用されるのを許容し、当該モデルは、例えば、プリントされた楽譜の画像、式の画像、及びビジネスレター、記入用紙、電話の職業別ページのような固定又は公知の構造的特徴を有する画像、を含む入力された多数の2D画像のクラスのどれか一つを記述するように構成されてもよい。
【0055】
形式的2D画像モデルは、トランスクリプション内のメッセージサブストリングによって示される情報と、2D画像内に現れる文字ラベル及び画像内にサブストリング毎に現れるサブストリングの外観に関する実際のメッセージサブストリングと、のマッピングを定義するルールのセットとして、トランスクリプションラベル情報を表現する。このマッピングは、使用可能な2D画像のセットと使用可能なトランスクリプションのセットと文字テンプレートのセットとの間でマッピングを効果的に設定し、学習技術が使用可能な2D入力画像の内のどれか一つ、即ち、テキストストリングのラインのどのシーケンスにおける文字のどのシーケンスが、特定のトランスクリプションに対応付けられる特定の2D入力画像に最良整合するかを決定するのを可能にする。この最良整合情報から、モデルは、学習技術が2D画像内のグリフサンプルの位置を決定すると共に文字ラベルをサンプルへ割り当てるのを可能にする。学習技術によって決定されなければならいグリフサンプルに関する特定位置情報は、文字テンプレートを定義する特定テンプレートモデルの関数である。テンプレートモデルは、文字テンプレートに従ってグリフサンプルがいかにして画像内で互いに対して空間配列されるか又は位置決めされるかを定義する。テンプレートがセグメンテーションベースモデルとして定義された場合、学習技術は当該形式的モデルによって設定されたマッピングからグリフ境界ボックスを示す情報を生成することが可能でなければならない。テンプレートがサイドベアリングモデルのようなノンセグメンテーションベースモデルとして定義される場合、学習技術は当該形式的モデルによって設定されたマッピングからグリフ起点位置を示す情報を生成することが可能でなければならない。
【0056】
学習手順への入力として使用されようとする形式的2D画像モデルの設計は、使用されようとするトランスクリプションのタイプ及び内容によって影響を受け、従って、学習データを学習手順へ提供する際により一層のフレキシビリティをユーザへ許容する。トランスクリプションの構造的及び関数的特徴に関する形式的2D画像モデル内に含まれる情報は、グリフサンプルと文字ラベルの間で必要なマッピングを設定するために当該モデルによって必要とされる情報のみであり、その情報は、当該モデルによって定義される使用可能な画像のセットから特定の画像を指定するために当該モデルによって必要とされる追加の情報でもある。トランスクリプション内の情報が、グリフの対応付けられる入力された2D画像のリテラル・トランスクリプションからさらに遠くへ取り除かれれば取り除かれる程、正確なマッピングを設定するために2D画像モデル内ではもっと多くの情報が必要とされる。
【0057】
本発明に使用されるように意図されると共に下記の図解されている実施の形態に使用されるタイプの、形式的2D画像ソースモデルの実現の例は確率論的有限状態遷移ネットワークであり、当該ネットワークは、正規文法としてのその生成ルールを示し、文字形状の記述及び位置決めのサイドベアリングモデルをその文字テンプレートモデルとして明示的に定義する。マルコフソースとしてのこのモデルの簡略化された一般的な説明が、図9においてモデル820として略示され、本発明の特定の実現の説明において以下により詳細に記述されている。
【0058】
図10のブロック図に示された本発明の文字テンプレート学習方法200は、全てが上記に定義されたグリフサンプルの2D画像ソース10と形式的トランスクリプションモデル810と画像モデル40の入力を備える。文字テンプレート学習方法200は、文字テンプレートのセット及び特定の文字セット用のこれらのテンプレートのそれぞれの文字ラベルデータアイテムを含む文字テンプレートデータストラクチュア20を生成するためにこれらの入力されたデータのソースを使用する。
【0059】
本発明は、グリフサンプルの2D画像ソースが、一般に、特定のフォントにおいて文字セット内の固有文字の複数のサンプル画像を含み、2D画像のx、y座標の位置と各サンプルの文字識別を示す情報が知られていた場合、これらのサンプルの特定のフォントにおいて、2D画像内の各固有の文字毎に学習された文字テンプレートが、各グリフサンプルを構成するピクセルのセットのピクセルカラーから導入されることができる。本発明は、2D画像に対応付けられるトランスクリプションが、グリフサンプルのそれぞれのサンプルの文字を識別するために使用されるかもしれない2D入力画像内のグリフの各々に対して識別及びシーケンス情報を提供することも認識する。本発明への入力として明示的に指定された文法ベースの2D画像ソースモデルは、グリフサンプルを配置するためにグリフサンプルの2D画像ソース内で発生するグリフに関する情報の空間的位置決めを定義すると共に、2D画像内で発生するグリフのそれぞれのグリフと、グリフサンプル文字セット内の文字を示すグリフラベルの、マッピングを示すマッピングデータを定義する。
【0060】
文字テンプレート学習方法200は、2D画像10内にグリフが発生される文字に対してのみラベル付けされた文字テンプレートを生成することが可能であると供に、文字テンプレートが学習される文字セットの完成度は、文字セット内の文字毎に少なくとも一つのグリフサンプルを有するグリフサンプルの2D画像ソース10に依存する。例えば、英文字”j”、”q”、”x”及び”z”は図2に示された2D画像10の部分に現れないので、文字テンプレート学習方法200は、この2D画像10の部分のみがグリフサンプルのソースとして使用された時はこれらのテンプレートを生成しない。便宜上、文字テンプレートが学習されている文字セットは以下「グリフサンプル文字セット」と呼ばれて、グリフサンプルの2D画像ソース10内に発生するグリフサンプルへの依存度を示す。各学習されたテンプレートの品質は、一般に、このグリフサンプルの2D画像ソース10内で使用可能なグリフサンプルの数に依存する。
【0061】
図11に示された文字テンプレート学習方法の汎用ステップ200は、ボックス220において、文法ベースの2D画像ソースモデル40によって定義される空間位置決め情報を用いて2D画像10内の各グリフサンプルの位置を決定するステップを有すると供に、ボックス250において、トランスクリプション70と2D画像10内に発生するグリフサンプルの内の各々を当該グリフサンプルによって示されるグリフサンプル文字セット内の文字を示すグリフラベルへマップする2D画像ソースモデル40によって定義されたマッピングデータとを用いて2D画像10内の各グリフサンプルの位置を決定するステップを有する。ステップ220及び250の結果は、文字テンプレートが生成されるかもしれない学習データであるラベル付けされたグリフサンプルのセットを示すデータストラクチュアを生成することである。次いで、ボックス270において、文字テンプレートはラベル付けされたグリフサンプルのセットを示すデータストラクチュアを用いて構成される。文字テンプレート学習方法200の特定の実現において、グリフサンプルとこれらのラベルが同時期に決定されると供に、ステップ220及び250における関数はステップ270へ入力される学習データを生成するために結合されるのがビューされる。この結合された関数が点線のボックスでステップ220及び250を囲む手順210によって図11に示されている。
【0062】
ステップ220及び250によって生成される学習データを示す出力されたデータストラクチュアの編成及び内容は、文字テンプレート学習方法200の特定の実現の態様を反映する幾つかの相関ファクタによって決定される幾つかの形式の内の一つを取ってもよい。
【0063】
学習されている文字テンプレートの文字テンプレートモデルがサイドベアリングモデルである時、手順210はラベル付けされたグリフサンプルを示す学習データを生成しなければならない。当該ラベル付けされたグリフサンプルの各々は、2D画像10内のグリフサンプルの画像起点位置を示すグリフサンプルの2D画像ソース10内のx、y位置によって識別される。図21に伴う説明を手始めに詳細に記述される新しいテンプレートの構成技術は、ステップ270において、2D画像10内のグリフサンプルの画像起点位置を示すラベル付けされた画像起点位置のリストを用いて2D画像文字テンプレートを構成するために使用される。
【0064】
学習されている文字テンプレートの文字テンプレートモデルがセグメンテーションベースモデルである時、ステップ220は、2D画像10内のグリフサンプル毎に境界ボックスを発見し、ラベル付けされた境界ボックスの座標、又は2D画像10から抽出されたラベル付けされた分離されたグリフサンプルのセットを学習データとして生成する。任意の周知のピクセル平均化及び閾値化技術が、ステップ270において、セグメント化又は分離された学習データから2D画像文字テンプレートを生成するために使用される。一つのこのような技術において、各サンプル内のピクセル位置毎の前景及び背景の数が計算され、この数がサンプルの総数で割り算され、平均値が前景又は背景の決定をもたらすかを評価するために閾値が使用される。
【0065】
図12に関して、米国特許第5,321,773 号に開示されたものと同様の確率論的有限状態遷移ネットワークとして示される2D画像ソースモデル830及び有限状態遷移ネットワーク850は、トランスクリプション−画像ネットワーク870と呼ばれる併合された有限状態ネットワークを生成するネットワーク併合プロセス300への入力である。併合されたネットワークは、当該併合されたネットワークを介して遷移の最良シーケンス又は経路を生成するヴィタビ復号プロセス330を用いてグリフサンプル10の2D画像ソースを復号するために使用される。文字テンプレート500の初期セットは復号プロセス期間中使用される。点線矢印832は、前述のように文字テンプレートがネットワーク830内の遷移上の属性であるかもしれないため、文字テンプレートの初期セット500が有限状態遷移ネットワーク830の一部であることを示す。ヴィタビ復号プロセス330によって生成されると、プロセス374は、トランスクリプション−画像ネットワーク870を介して最良の経路を構成する遷移とこれらの遷移の2D画像10内で対応付けられる画像の起点位置とを識別する。プロセス380は、非ヌル(non-null)のテンプレート属性を有する遷移から画像起点位置とメッセージストリングとを決定する。これらの画像起点位置は、2D画像10内のグリフの推定位置を示す。学習データ即ちラベル付けされたグリフ画像起点位置390は、このシーケンスのプロセスの出力である。
【0066】
図13におけるフローチャートは、形式的2D画像ソースモデルとして有限状態遷移ネットワークを使用すると共にトランスクリプションを示すため、トランスクリプションネットワーク850を使用する図11の文字テンプレート学習の実現のステップを示す。復号ステップ330は、トランスクリプション−画像ネットワーク870を介して最良の経路を決定するためにテンプレートの現在セットを使用する。復号の初期反復の間、任意の内容を有する文字テンプレートの初期セットはトランスクリプション−画像ネットワーク870内のトランスクリプションと対応するためにプロセッサによって発生されてもよい。ボックス330、380、400、及び490における復号ステップ、学習データ抽出ステップ、テンプレート構成ステップ、及び文字セット幅決定ステップは、ボックス384においてテストされる停止条件が満たされるまで反復され続け、初期反復に続く反復の間、復号ステップ330において使用されるテンプレートのセットが、テンプレート構成ステップ400の出力として生成されるテンプレートの現在セットである。プロセス374と380として図12に示された、2D画像10を復号することによって生成された最良の経路からの学習データ抽出は、図13において組み合わされたプロセス380として示されている。プロセス300、330、及び380は以下に詳細に説明される。
【0067】
図9に関しては、画像のセットのストラクチュアは、画像発生を画像ソースモデル820としてモデリングすることにより形式的に捕捉され、これもマルコフソースと呼ばれる。マルコフソースは、状態(ノード、頂点)の有限セットNと有向遷移(ブランチ、エッジ)Bのセットから成る。各遷移tは、それぞれtの先行値(左)状態及び後続値(右)状態と呼ばれるペアの状態Lt 及びR tを連結する。Nの二つの区分されたメンバは、参照番号822の初期状態nI と参照番号824の最終状態nF である。どの遷移もその先行値としてnF を持たないため、最終状態がトラップ状態であると仮定される。各遷移tは、参照番号826の4つの要素から成る属性(Qt 、at 、mt 、Δt )と対応付けられ、Qt がテンプレートであり、at が遷移確率であり、mt がメッセージストリングであり、参照番号828で示されるΔt が文字のセット幅に類似するtのベクトル変位である。(文字セット幅の記述に付いては添付の図1に関する前述の説明を参照。)図示されている実現において、これらの属性の内の幾つかは特定の遷移に対してヌルであってもよいし、画像ソースモデル820の各遷移メッセージストリングmt は、単一文字を含むエンプティストリング∈、その他であると仮定され、ベクトル変位828はマイナス、ゼロ、又はプラスのスカラ(scalar)成分値を有することができる。テンプレートQt のサポート(ノンゼロのセット、前景ピクセル)は通常局所テンプレート座標システムの起点の近くの小さな領域内に局所化されるが、このテンプレートQt は、画像平面Ωの全体に対して定義される。
【0068】
マルコフ画像ソースモデルは完全経路上の確率分布を定義し、
【0069】
【外1】
【0070】
を経路πに対応するメッセージとしてメッセージ上の確率分布を帰納する。
【0071】
各経路πにはベクトル画像ピクセル位置x1 ... xのシーケンスと複合画像Qが対応している。Q[x]は、その局所座標システムの起点がxに位置するようにシフトされるQを示し、二つのテンプレート画像の合併はこれらの二つのテンプレート画像のいずれかが前景ピクセルを有する前景ピクセルを持っている画像である。
経路πに対して、
【0072】
【外2】
【0073】
は経路の変位として定義され、
【0074】
【外3】
【0075】
のx及びy成分をそれぞれ示す。ペア(xi 、ti )とマルコフソースの対応している遷移は、「ラベル付けされた遷移画像起点位置」と呼ばれる。完全経路によって定義される全てのこのようなペアのセットはこの経路のラベル付けされた遷移画像起点位置のセットと呼ばれる。各遷移tに対して、Nt はtでラベル付けされた経路の遷移画像起点位置の数を表し、対応している遷移画像起点位置は
【0076】
【外4】
【0077】
で示される。
【0078】
フォントは一般に文字のグリフの前景ピクセルがテキストストリング内でオーバーラップしない(同じ前景ピクセルを共有する)ようにデザインされるという前提条件に基づいて、図9及び図示された実現において示されたタイプの画像ソースモデルが、(xj 、tj )において位置決めされたテンプレートのピクセルと(xi 、ti )で位置決めされたテンプレートのピクセルの合併が全ての経路πに対してi≠jであるエンプティセットとなるようにデザインされることが要求される。この必要条件は隣接テンプレートサポートの「テンプレート非結合制約条件」と呼ばれてもよい。
【0079】
画像ソースモデル820(図9)は、双方向である基礎的経路を介してメッセージストリングと画像の間の関係又はマッピングを定義する。
【0080】
画像ソースモデルは、モデルによって発生されたメッセージの言語に対して有限状態アクセプタを定義する。従って、メッセージストリングMが付与されれば、
【0081】
【外5】
【0082】
である完全経路πが存在するか否かを決定することは簡単であり、このような経路が存在すれば、それを見つけるのは簡単である。画像、
【0083】
【外6】
【0084】
は、Mの画像である。画像ソースモデルがメッセージ言語に対して決定論的なアクセプタを定義する場合、画像ソースモデルを用いたメッセージ画像形成のプロセスは単純な手順の変換(解釈)を容認する。入力されたメッセージ「プログラム」によって制御されながら、出力された画像平面内で所謂「理想的な」画像を描く画像形成装置(イメージャ)オートメーションを想像されたい。このイメージャのストラクチュアは、図9に示されたタイプの有限状態画像ソースモデルによって定義される。イメージャは、内部状態nI において出力される画像形成平面の位置(0、0)で開始される。イメージャは、入力されたメッセージ内の第1の文字を検査し、それをnI からの遷移上のメッセージラベルと比較し、そのメッセージが入力された文字と整合されるブランチを選択する。選択されたブランチと対応付けられたテンプレートが非ヌル(non-null)である場合、イメージャは、テンプレートの起点をイメージャの現在画像位置と位置合わせして、テンプレートのコピーを出力された画像平面上に描画する。イメージャは次にイメージャの現在画像位置をブランチ変位分インクリメントし、その内部状態を選択されたブランチの後続値ノードになるように更新する。このプロセスは、理想的画像、
【0085】
【外7】
【0086】
即ち、ネットワークにわたる初期ノードnI から最終ノードnF までの経路が完成するまで、入力されたメッセージの各文字に対して反復される。
【0087】
画像ソースモデル820は、画像デコーダとして、画像のリテラル・テキスト・トランスクリプション(マッチング又は論理的ストラクチュア・タグを持たないトランスクリプション)を生成するために、参照された画像から単純なテキストストリングを抽出するために使用されてもよい。これらのテキストストリングは、参照される画像が復号されている間、モデル820を介して識別された経路内に含まれる各遷移に対応付けられたメッセージストリング属性から抽出される。図14における画像ソースモデル830は、単純なテキストコラムの共通の空間的ストラクチュアを有する2D画像のセットをモデリングすると共に、画像復号のプロセスをより詳細に図示するために使用される。単純テキストコラムは、テキストラインの垂直シーケンスによって構成され、ホワイト(背景)スペースと交互になっている。水平のテキストラインは、図1に示されたサイドベアリングモデルに応じた文字タイプセットのシーケンスである。グリフサンプルの2D画像ソース10は、画像ソースモデル830によってモデリングされるタイプの代表的画像である。モデル830は、英文テキスト用の従来の読出し順序に追従するテキストの単一列の2D画像を介して経路をモデリングするが、この場合、経路が画像を介して当該画像の上部左コーナでスタートし、下部右コーナへ進み、反復される1D(1次元)ラインのシーケンスにおいて当該画像の左から右へ進むと仮定される。ネットワーク内のノード同士間の各遷移ti は、図14に示される対応付けられた4つの要素から成る属性を[at ](Δt )、mt 、Qt の順に有し、テンプレートQt が一つの遷移に対応付けられる時、メッセージストリングmt は、当該テンプレートによって示される文字を識別する。これらの属性の内のいくつかはいくつかの遷移に対してヌルであることが理解されよう。
【0088】
図14に関しては、状態n1 は垂直ホワイトスペースの作成に対応している。どの画像テンプレートもt1 と対応されないので、ブランチt1 が走査される度に、イメージャは出力される画像形成平面上に何も描かないで、1行(ロー)下へ下がる。ある点において、イメージャはテキストラインのトップへ到達し、ブランチt2 に追従する。t2 の変位(0、B)はカーソルをテキストベースラインへ下ろす。Bはベースラインより上のフォント高さである。状態n2 は水平テキストラインの作成を示す。n2 からn2 までの自己遷移には2つのタイプがある。画像テンプレートQi でラベル付けされたFの遷移ti 及び単一文字メッセージストリング”ci が、出力された画像平面上に個々のグリフを描くために使用される。これらのブランチの各々に対応付けられる水平の変位は、文字セット幅、
【0089】
【外8】
【0090】
である。ブランチt3 とt4 は、これらに対応付けられるブランクテンプレートを有すると共にホワイトスペースを示す。ブランチt3 は最小(1ピクセル)幅のホワイトスペースを示し、微細な空間調整のために使用される。ブランチt4 はフォント依存幅Ws の実際の空間文字に対応しており、スペースメッセージ””でラベル付けされる。テキストラインの終りでは、イメージャは、t5 (ラインフィード"line feed" )を走査し、キャリッジリターン("carriage return") 状態n3 を実行する。t5 上のメッセージは新しいライン文字("\n" )である。t5 に対応付けられる垂直の変位はフォントデプスDである。ブランチt6 の走査毎にイメージャは1ピクセルずつ左へ移動する。最後に、遷移t7 はイメージャを状態n1 へ戻し、このプロセスは次のテキストラインにも反復される。最後のテキストラインが作成された後、イメージャはt8 を走査して最終状態nF を生成する。
【0091】
グリフサンプルの2D画像ソース10と対応付けられた使用可能なトランスクリプションのセットを示すトランスクリプション・データストラクチュア70も以下に「トランスクリプション・ネットワーク」と呼ばれる有限状態ネットワークとして示される。トランスクリプション・ネットワーク850は、図9に示されたタイプの有限状態画像ソースモデルの簡略化された形式であり、この形式において、各遷移はメッセージストリングmt に対応付けられるが、他の属性には対応付けられない。図15は、シンボル”\n”がニューライン文字を示す二つのトランスクリプションストリング”orn\n”と”om\n”を含むセットを示しながら、トランスクリプション70に対してトランスクリプション・ネットワーク850の一部852の単純な例を示している。画像ソースモデル830の場合と同様に、図示されている実現において、トランスクリプション・ネットワーク850の各遷移メッセージストリングmt は、単一文字を含むエンプティストリング∈、その他であると仮定される。トランスクリプションネットワーク850を示すデータストラクチュアは、ボックス292で、図示された実施の形態におけるテンプレート学習方法への入力として受信され且つ記憶される。トランスクリプションネットワーク850は、従来の手動又は自動プロセス、例えば、有限状態ストリング文法及び遷移ネットワークを生成するための従来のツールを使用するプロセスによってトランスクリプション・データストラクチュア70から生成されてもよい。
【0092】
画像ソースモデル830及びトランスクリプションネットワーク850は、理想的な画像内の指定された画像位置に配置され且つトランスクリプションと一致しているメッセージストリングに応じて選択された文字テンプレートのコピーの空間的配列である理想的な画像を結合定義し、また、この理想的な画像は、当該トランスクリプションが対応付けられた実際の入力された2D画像の近似である。これにより、経路に一致している理想的な画像、つまりは経路、つまりはトランスクリプションネットワーク850によって発生されるメッセージストリングを発生するように復号を制約することが可能であった場合、画像ソースモデル830を用いた2D画像10の復号が最も効率的であることがわかる。画像ソースモデル830をトランスクリプションネットワーク850に併合することにより、画像ソースモデル830を用いる復号プロセスにこのような制約条件を課すことができる。
【0093】
ネットワーク併合ステップ300への入力(図12及び図13)は、2D画像ソースモデル830及びトランスクリプションネットワーク850である。このステップの出力は、トランスクリプション−画像ネットワーク870と呼ばれる図9に示されたタイプの第2のマルコフ画像ソースモデルである。トランスクリプション−画像ネットワーク870は、以下の二つの特性によって定義される。
(a)トランスクリプション−画像ネットワーク内の各完成経路πに対して、πと同じトランスクリプションストリング及び画像を有する完全経路が画像ソースモデル830内にあること、
(b)画像ソースモデル830内の完成経路π毎に、πのトランスクリプションが、トランスクリプションネットワーク850によって発生されたトランスクリプションのセット内にある場合、πと同じトランスクリプションストリング及び画像を有する完全経路がトランスクリプション−画像ネットワーク870内にあること。トランスクリプション−画像ネットワークによって発生されたトランスクリプションのセットは、画像ソースモデル830によって発生されたトランスクリプションのセットとトランスクリプションネットワーク850によって発生されたトランスクリプションのセットの交差点である。所与のトランスクリプションを有するトランスクリプション−画像ネットワークによって発生された理想的な画像は、このトランスクリプションを有する画像ソースモデル830によって発生された理想的な画像と同じである。
【0094】
ネットワーク併合ステップ300は、トランスクリプションネットワーク状態が上記に定義された二つの特性(a)と(b)を満たすように併合されたトランスクリプション−画像ネットワーク内のペアの画像ソース及びトランスクリプションネットワーク状態同士の間で遷移を構成することに本質的に関与している。これらのトランスクリプションは以下の三つのステップによって構成される。
(1)mt =∈である(tに対応付けられたメッセージがヌルストリングである)画像ソースモデル830の各遷移tに対して、j=0...T−1の各々に対して、ノード(Lt ,sj )からノード(Rt ,sj )までの遷移をトランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような遷移毎に対応付けられたメッセージ、テンプレート、及び変位は、tのメッセージ、テンプレート、及び変位と同じである。
(2)mt ≠∈である(tに対応付けられたメッセージは単一文字ストリングである)画像ソースモデル830の各遷移tに対して、及びmt'=mt であるトランスクリプションネットワーク850の各遷移t’に対して、ノード(Lt Lt')からノード(Rt Rt')までの遷移を当該トランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような各遷移に対応付けられたメッセージ、テンプレート、及び変位は、tのメッセージ、テンプレート、及び変位と同じである。
(3)mt =∈であるトランスクリプションネットワーク850の各遷移t’に対して、及びi=0...N−1の各々に対して、ノード(ni Lt')からノード(ni Rt')までの遷移をトランスクリプション−画像ネットワークに加算する。当該トランスクリプション−画像ネットワークのこのような各遷移に対応付けられたメッセージとテンプレートは共にエンプティであり、そのベクトル変位は0である。
【0095】
トランスクリプション−画像ネットワーク870の部分の構成は、図15に示されたトランスクリプションネットワーク850の単純なテキストコラム及び部分852に図14における画像ソースモデルを用いて、図16、17、18、及び19において概略的に示されている。図16は、2次元(2D)格子860において、ネットワーク併合プロセス300によって構成されたトランスクリプション−画像ネットワークのノードをドット又は点として示し、2D格子860において、画像ソースモデルノード862を水平に位置すると共にトランスクリプションネットワークノード864を垂直に位置する。初期状態(nI sI )と最終状態(nF sF )のそれぞれに対する格子点866と868は、ドット回りの円によってそれぞれ表される。図17は、トランスクリプション−画像ネットワーク内の遷移を上記手順のステップ(1)により構成した後のトランスクリプション−画像ネットワークを示している。簡略化するため、遷移確率は図示しない。図18は、ネットワーク併合プロセスのステップ(1)に追加された図17の遷移を点線で示し、上記手順のステップ(2)におけるトランスクリプション−画像ネットワークに追加された遷移を実線で示している。遷移確率と変位はここでも図示しない。図15におけるトランスクリプションネットワーク850がエンプティメッセージストリングを有する遷移を含まないので、遷移を構成するための上記手順のステップ(3)はこの実施の形態には適用されない。
【0096】
完全経路上に置くことができないあるノードがそのノードが復号に使用される前に結合されたトランスクリプション−画像ネットワークからデリートされてもよい。デリートされたノードに入出力する全ての遷移も同様である。図19は、この簡略化が実行された後に残っている結合されたトランスクリプション−画像ネットワークの部分872を図示している。この簡略化又は併合されたネットワークが、図18の結合されたトランスクリプション−画像ネットワークよりもかなり少ない状態及び遷移だけしか含まないことに注目されたい。従って、ネットワークの簡略化又は併合によって、グリフサンプルの入力ソースの復号化がより迅速に行われることになる。
【0097】
復号プロセス330(図13)は、2D画像内のグリフサンプル10を示すラベル付けされたグリフ画像起点位置を生成するために、併合されたトランスクリプション−画像ネットワークを使って2D画像10を復号するのに適したあらゆるタイプのソフトウェア又はハードウェア実現デコーダを用いて実行され得る。特に、オリジナルの入力された2D画像と目標となる理想的2D画像、
【0098】
【外9】
【0099】
の間のエラー確率を最小にするダイナミックプログラミングアルゴリズムに基づいたデコーダは、特定の実現に使用するのに最適な復号プロセスになる確率が高い。
【0100】
概して、本発明に使用するのに適したタイプの復号プロセスは、各々が目標の理想的2D画像、
【0101】
【外10】
【0102】
を示すトランスクリプション−画像ネットワークを介した完全なトランスクリプション−画像経路の内のいくつか又は全てを識別すると共に、定義付けられた整合基準に応じて目標の理想的2D画像の内のどれがグリフサンプルの2D画像ソースに最良整合するかを決定することにより、識別された経路の内のどれが最良経路であるかを決定する。ネットワークを介した最良経路は、最良整合された目標の理想的2D画像を示すトランスクリプション−画像経路である。グリフサンプルの2D画像ソース内の遷移画像起点位置は、この最良経路を構成する遷移から演算されることができ、グリフ画像起点位置とこれらのラベルは、また、これら遷移の内の選択された遷移及びこれらの遷移画像起点位置から使用可能である。整合基準は任意の適切な画像測定値であってもよい。一般に、整合基準は、グリフサンプルの2D画像ソースと比較された目標の理想的画像に対するピクセル整合スコアを最適化することを含む。
【0103】
図示された実現において、復号プロセス330(図13)は、仮定された非対称ビットのフリップチャネルモデルを用いて、トランスクリプション−画像ネットワークを介して最大事後経路(MAP)を発見する。ヴィタビ・デコーダの目的は、ネットーワークを介して最も尤度が高い経路を決定するためにトランスクリプション−画像ネットワークを介して全ての完全経路にわたって再帰的MAP決定関数を最大にすることである。画像ソースモデル830を用いた復号の説明において上記に述べたように、トランスクリプション−画像ネットワークを介した各経路は、復号の間に形成された理想的画像に対応している。従って、ヴィタビデコーダは、ネットワークを介した完全経路から生成された使用可能な理想的な画像の内のどれが、復号されている入力画像即ち2D画像10に最も近い外観(ピクセルによる)を有するかを決定する。ヴィタビ・デコーダは、経路内の個別の遷移に対するスコアの総和である理想的な画像を定義する経路に対して、尤度測定値又は尤度スコアを演算することによってこれを実行する。
【0104】
図20は、図示された実施の形態の復号プロセス330のヴィタビ・デコーダを実現する複数のステップのシーケンスを示すフローチャートである。ヴィタビ画像復号には、復号トレリス(trellis )と呼ばれる3次元復号格子内での経路発見も含まれる。この復号格子は、一つがソースモデルの各ノード又は状態に対応している画像平面のスタックを形成するとビューできるノードによって構成されている。トランスクリプション−画像ネットワーク内の状態及び経路と格子内のノード及び経路との間で1対1で対応付けされ、格子内のノード同士の間で対応している遷移は、トランスクリプション−画像ネットワーク内の状態同士の間の遷移と同じ属性情報を有している。従って、ステップ334において、トランスクリプション−画像ネットワーク870は、最初、データストラクチュア内に復号格子として示される。次いで、ボックス338においては、格子内のノードに対するスコアが演算される順序が決定されなければならない。これは、再帰に対するスコア演算スケジュールを作成し、格子のノードが参照される順序を示し、結果的には、そのノードスコアが演算される順序を示すことによって達成される。次いで、ボックス340においては、前記スケジュールで既述された順序でノード毎の最尤スコアが演算される。ノード毎に、尤度スコアを最大化するノードへの遷移が識別され、記憶される。復号プロセス330のステップは、図示されている実現による復号の間、実行される関数を記述するための特定のシーケンスにおいて実行されるものとして図示されている。これらのステップは、通常、実際のソフトウェア実現において同時期に実行される。
【0105】
復号の終りに、復号格子内のnF 画像平面に対する尤度スコアが演算された後、ボックス380において、復号格子内で最終ノードから初期ノードまでの記憶された遷移を介してバックトレースする(後戻りする)ことによりヴィタビ・デコーダによって発見された最尤完全経路が検索され、最良経路を構成する遷移を識別すると共に、上記の式(5)と(6)を用いて2D画像10内の遷移画像起点位置(xi 、ti )を演算する。最良経路の各遷移が遷移画像起点位置を定義する。しかしながら、2D画像10内のこれらの画像位置のすべてが対象になるとは限らない。フィルタリングステップは、2D画像10内の推定グリフ画像起点位置を示す遷移(グリフサンプル文字セット内の文字に対して非ヌル文字テンプレートを属性として含む遷移)を識別し、識別された遷移画像起点位置の全てからこれらの画像起点位置を抽出し、これらの画像起点位置を、識別された各遷移上のテンプレート属性のそれぞれの文字ラベルと、ペアリングする。
【0106】
復号は、2D画像内のグリフサンプルの画像起点位置の推定値を提供するが、当該画像内のグリフサンプルの広がり又はサイズに関する情報を提供しない。例えば、間違いだらけのトランスクリプション又はノイジーな2D画像10が学習手順への入力である場合、復号は不完全な結果を生成し得るので、画像起点位置は入力画像内のグリフサンプルの位置の推定値であると考えらる。
【0107】
文字テンプレート構成プロセス270(図11)は、図13において、全く新しいテンプレート構成方法400として実現されており、学習データの分離グリフサンプルへの事前セグメンテーションやサンプルに対する境界ボックスの識別を行わずに、学習及びラベル付けされた文字テンプレートのセットを生成する。テンプレート構成方法400は、画像起点位置を示すグリフサンプルの2D画像10内のx、y座標位置と、それぞれの画像起点位置に位置されたグリフサンプルによって示された文字を識別するラベルのみを使って、学習データ内の各グリフサンプルを識別する。
【0108】
図21に関して、テンプレート構成における第1のステップは、ボックス410において、学習データから生成されようとする各2値文字を記憶するためのテンプレート画像領域を作成することである。各テンプレート画像領域内の各ピクセル位置は、最初に、背景ピクセルカラー値を示す。原則として、文字毎のテンプレート画像領域は、全方向に境界付けされない画像平面全体に渡って拡がる。しかしながら、一般に、テンプレートのサポートがこのテンプレートの起点ピクセル位置を取り囲む比較的小さな領域へ局所化されることにより、テンプレート画像領域が、画像平面全体よりも小さいがテンプレートのサポート全体を含む程十分に大きい境界付けされた画像領域となるように選択される。図22は、各テンプレートQt のサポートが、高さH及び幅Wの矩形内に置かれると仮定する模式的なテンプレート画像領域502を示す。テンプレート画像領域502は、テンプレートの「カンバス」と呼ばれる。テンプレートカンバスの形状は基本的には任意形状であり、一般に、テンプレートが学習されている文字セットについて及び当該学習データ内のサンプルについての仮説を基本にして選択される。
【0109】
カンバスの垂直及び水平サイズ寸法即ち高さH及び幅Wのカンバスパラメータの選択は、学習されている文字セット内の文字に関する情報を利用する二つのファクタを基本として行われる。まず第1に、H及びWのカンバスパラメータは、作成された結果的に得られた画像領域が単一テンプレートのサポートの全体を含む程の十分な大きさであるように選択される。実際、HとWのカンバスパラメータの選択は、カンバスの外のピクセルがテンプレートの一部ではなく背景(ホワイト)カラーであると仮定される決定を反映する。HとWのカンバスパラメータは、2D入力画像内に作成された結果的に得られた画像領域が少なくとも単一の画像サンプル全体を含む程の十分な大きさであるように選択される。
【0110】
テンプレートカンバス502は当該テンプレートカンバス502に対応付けられた局所座標システムを有しており、このシステムにおいて、xは右に行くにつれて大きくなり、yは下へ行くにつれて大きくなり、この座標システムの起点506は、カンバス502の下部左コーナ508に相対して(x、−ψ)である。従って、0≦x<W及び0≦ψ<Hである、カンバス502の下部左コーナ508はこの局所座標システムに相対して(−x、ψ)の座標を有する。このカンバス矩形502はCで表され、
C=[−x、−x+W−1]×[ψ−H+1,ψ] (1)
となる。カンバス・パラメータH、W、x及びψは全てのテンプレートに対して一様である必要はなく、特定の文字テンプレートが記憶されることによって変化してもよい。通常、テンプレート毎に同じカンバスパラメータを使用することが一層便利である。
【0111】
各文字テンプレートはカンバス502内に置かれると仮定されるテンプレートの起点として指定されたピクセル位置を含む。テンプレート起点ピクセル位置はテンプレート起点506として図22に示されている。カンバス矩形502内のテンプレート起点506の指定は任意であるが、カンバス矩形502内に記憶されようとするテンプレートは、そのテンプレートの起点が選択されたテンプレート起点506に位置する時、全体がカンバス矩形502内に含まれなければならないという制約条件を受ける。
【0112】
図21では、ボックス430において、本発明のテンプレート構成手順における次のステップは、上記に示されたネットワークの併合及び復号プロセスの出力として生成される学習データ内に含まれる各ラベル付きグリフ画像起点位置に対してグリフの2D画像ソース10内のサンプル画像領域を決定することである。テンプレート画像領域502はサンプル画像領域の各々の二つの重要な特性を決定する時のパターン又はガイドとして使用される。第1に、学習データ内の各ラベル付けされたグリフ画像起点位置に対する2D画像10内のサンプル画像領域は、カンバス矩形502の垂直及び水平サイズ寸法(H及びWのカンバスパラメータ)に一致した垂直及び水平サイズ寸法を有している。第2に、グリフサンプルのグリフ画像起点位置は、テンプレート起点位置506として指定されたカンバス矩形502内にピクセル位置と一致しているか、又はそれぞれペアリングされるピクセル位置におけるサンプル画像領域内に位置している。サンプル画像領域を識別して得られた結果は、学習データ内のグリフ画像起点位置と対応付けられたグリフラベルによって識別された各固有の文字に対して2D画像10内のサンプル画像領域の集合を生成することである。
【0113】
図23は、2D画像10の画像領域18内のグリフ画像起点位置85、87及び89に対して識別された三つのサンプル画像領域80、82及び84を示し、これらのサンプル画像領域は、それぞれ、文字”r”を示すグリフラベルを有している。各サンプル画像領域は、サンプル画像領域84の周辺でH及びWの指定によって示されたカンバス矩形502の同一高さH及び幅Wを有している。各サンプル画像領域は、図23に示されているように、代表的サンプル画像領域80の起点85によってその起点をグリフ起点位置に位置合わせした局所座標システムを有している。グリフ画像起点位置85、87及び89はサンプル画像領域80、82及び84内のピクセル位置に位置され、当該サンプル画像領域80、82及び84内のピクセル位置は、テンプレートカンバス矩形502の下部左コーナ508からのテンプレート起点506のxとyの変位に一致したサンプル画像領域のそれぞれの下部左コーナからのxとyの変位を有している。
【0114】
ラベル付けされたグリフ画像起点位置に対するサンプル画像領域を識別すると、以下のように要約されることができる。ベクトルxi =(xi 、yi )がテキストの画像内のグリフ起点位置である場合、対応しているグリフサンプル画像領域は、以下の式によって定義される領域内のテキスト画像のその部分であると定義される。
【0115】
xi −x≦xi <xi −x+W、及びyi +ψ−H<y≦yi +ψ。
即ち、テンプレート起点がグリフ起点と一致している時、グリフ位置に対するグリフサンプル画像はテンプレートカンバス内のテキスト画像のその部分である。
【0116】
用語「位置合わせされたサンプル画像領域」は、テンプレートカンバス矩形502の下部左コーナー508からのテンプレート画像起点506のxとyの変位に一致しているサンプル画像領域の下部左コーナからのxとyの変位を有するサンプル画像領域内のピクセル位置に位置されているグリフサンプルの画像起点位置の各サンプル画像領域の特性を示すために導入される。位置合わせされたサンプル画像領域の概念は図24に示され、この図において、カンバス矩形502より上で、一つの層が他の層の上になって層状にスタックされた図23からの2D画像10のサンプル画像領域80、82及び84が示されている。サンプル画像領域80、82及び84のそれぞれの画像起点位置85、87及び89は互いに且つテンプレート起点位置506から点線で示した軸88に沿って「垂直に」位置合わせされている。このように、それぞれの画像起点位置における同じサイズのサンプル画像領域の位置合わせは、サンプル画像領域の局所座標システムに相対するサンプル画像領域の各々におけるそれぞれのピクセル位置の中で空間的な関係又はペアリングを設定すると共に、サンプル画像領域の集合内のペアリングされたピクセル位置のセットとテンプレート座標システムに相対するカンバス矩形502内のピクセル値との間で同一の空間的関係又はペアリングを設定する。このように関係付けられた位置合わせされたサンプル画像領域内のピクセルの各セットは、「それぞれペアリングされたピクセル」又は「位置合わせされたピクセル」と呼ばれる。
【0117】
テンプレートが学習されている文字セット内の文字の内の特定の一つに対して2D画像10内で識別されたサンプル画像領域の全てが、サンプル画像領域の「集合」と呼ばれる。図示された実現において、サンプル画像領域の集合は、互いに、そして画像起点位置でテンプレート画像領域502に、位置合わせされたサンプル画像領域の分離したデータストラクチュア内で示される。図25は、2D画像10によって示された画像である全体が走査された新聞記事内の文字”a”に対するサンプル画像領域の集合であるデータストラクチュア90を示す。図25においては、データストラクチュア90が、カンバス矩形502によって提供されたパターンに応じて2D画像10からクリッピングされた連鎖及び位置合わせされたサンプル画像領域のロー(行)及びコラム(列)において示されている。サンプル画像領域は図示するためにボーダーで示されている。
【0118】
図21を再度参照すると、ボックス450において、本発明のテンプレート構成手順における次のステップは、サンプル画像領域内のピクセルカラー値を基本にして前景ピクセルカラー値を各カンバス矩形502の内のピクセルへ生成される文字テンプレート毎に割り当てることである。本発明のテンプレート構成手順は、これらの文字の各々のグリフサンプル画像の集合が与えられた場合、文字テンプレートのセット内の各ピクセルへカラーを割り当てることによって略同時期に文字テンプレートのセットを構成する。従来の方法とは異なり、本発明の技術におけるグリフサンプル画像は図25に示されるように隣接するグリフの部分を含むことが許容される。本発明のテンプレート構成手順は、文字テンプレートが構成される間、グリフサンプル画像内の前景ピクセルの内のどれが中心グリフ(テンプレートの起点に起点が一致しているグリフ)に属するか及びどれが隣接グリフに属しているかを効果的に決定する。
【0119】
qt (x)は、テンプレートQt の位置xにおけるピクセルのカラーを示し、ここで、t∈Bがマルコフ画像ソースの遷移である。前景ピクセルカラーはビット値1で示され、背景ピクセルカラーはビット値0(ゼロ)で示される。ラベル付けされたグリフサンプル起点位置(x1 、ti )、i=1...Pのセットが付与された場合、テンプレート構成の目的は、遷移t∈B毎に、及び遷移x∈C毎に、値をqt (x)に割り当てることである。
【0120】
【外11】
【0121】
式(5)の左側はQt に対して位置合わせされたサンプル画像領域の集合内の黒(前景ピクセル)である位置xにおけるピクセルの割合である。従って、St (x;Z)は、テンプレートQt に対する位置xにおける「位置合わせされたピクセルスコア」又は「テンプレート補助測定値」と呼ばれる。ML決定ルール(3)は、位置合わせされたサンプル画像領域内の位置xにおける黒ピクセルの割合が閾値を越えた場合、xにおけるテンプレートピクセルは黒でなければならないことを定める。単に、テンプレートの非結合制約条件が無視された場合、テンプレートに対してピクセル毎ベースで位置合わせされた画像領域の集合を平均し且つ閾値化することにより各MLテンプレートは個別に計算されてもよい。
【0122】
図26は、テンプレート非結合制約条件を参照せずに決定ルール(3)を用いて、文字”e”、”a”、及び”r”のそれぞれに対するサンプル画像領域の集合から構成されるテンプレートのセットから選択された三つのテンプレート94、96、及び98を示す。使用されるサンプル画像領域は、図25におけるサンプル画像領域に類似しており、2D画像10に類似している新聞のコラムの走査された画像から抽出された。テンプレート94、96、及び98は、(”+”によって示された)各カンバス矩形の起点に位置合わせされた「正確な」テンプレート画像93、95、及び97を明確に含んでいるのが理解されよう。しかしながら、各テンプレートカンバスが、テンプレートに明確に属さない黒ピクセルを含んでいるのも理解されよう。これらの余分な黒ピクセルは、決定ルール(3)の平均化及び閾値化動作がテンプレートに対する集合内の各サンプル画像領域内の隣接しているグリフにおいて実行される時、当該テンプレート内に発生する。これらの余分なピクセルは、単一の分離したグリフとは対照的に、複数のグリフを含むサンプル画像領域を使用した結果として明確に発生する。例えば、従来のテンプレート構成方法に要求されたようにサンプル画像領域が対象となる中心ピクセルのみを含んでいた場合、これらの余分なピクセルは消えてしまう。
【0123】
テンプレートの非結合制約を条件として、式(2)を最大化することは、NP−完成であるという形式的な意味では、演算上困難な問題である。制約されたMLテンプレート構成問題を正確に解くためには、指数アルゴリズムを使用するより、本発明のテンプレート構成方法を使えば、テンプレートの非結合制約を実質的に参照するテンプレートを生成する概算ではあるが効果的な解決法を提供する。この解決法は、図21のボックス450において詳細に図示し、図27ではフローチャート形式で示されている。
【0124】
基本的な戦略は以下の通りである。ピクセル毎ベースで単一テンプレート内に含まれた各テンプレートピクセルへ式(3)を個別に適用するより、St (x;Z)>0であるあらゆるテンプレート内の各テンプレートピクセルへ値1がある順序で割り当てられ、これにより割り当てられたテンプレートピクセルを生成する。このような各割当ての後、参照された画像Z(図示された実施の形態におけるグリフサンプルの2D画像ソースからクリッピングされたサンプル画像領域)は、新しく割り当てられたテンプレートピクセルとペアリング又は一致する位置において全ての位置合わせされたサンプルピクセルをゼロにセットすることによって変更される。例えば、テンプレートピクセルqs (W)=1が、たった今、位置合わせされたと仮定する。次いで、次のテンプレートピクセルの割当てが未だ割り当てられていないテンプレートピクセルに対して実行される前に、位置W+xi (S) 、i=1....NS における画像Zのピクセルは、0にセットされる。一致しているテンプレート割当てが実行された後で、参照された画像内のサンプルピクセルをゼロにセットした効果は、「Zのピクセルのクリアリング」と呼ばれ、1にまだセットされていないオーバーラップしているテンプレートピクセルに対する引き続く演算St (x;Z)に対してSt (x;Z)の値を減算することであり、これによってオーバーラップするピクセルが引き続き1へセットされる尤度を減少させることになる。シーケンシャルな割当ては、幾つかの未だ割り当てられていないテンプレートピクセルに対して、St (x;Z)>0の場合はシーケンシャルな割当てが続く。本発明のテンプレート構成方法の正味の結果は、プラスのSt (x;Z)が全く残らなくなるまで一つのテンプレートも完成されないまま、学習された文字テンプレートのセット全体を同時期に生成することである。
【0125】
図27に関しては、ボックス452において、各テンプレートカンバス内のピクセル位置に対応付けられたピクセルスコア又はテンプレート補助測定値St (x;Z)をゼロより大きい値に初期化した後で、St (x;Z)が、このテンプレートに対して位置合わせされたサンプル画像領域の集合内のそれぞれペアリングされた位置合わせされたサンプルピクセル位置を用いて、現在のプラスのピクセルスコアを有する各テンプレート内の各未だ割り当てられてないテンプレートピクセルに対して計算される。ピクセルスコアは、ボックス460において、演算されたピクセルスコアの内のどれかがゼロよりも大きい場合、手順は、任意のテンプレートの最高のプラスのピクセルスコアを有するテンプレートピクセルが選択されるボックス470へ進み、前景カラー値はこの選択されたテンプレートピクセルへ割り当てられる。ボックス480において、選択されたテンプレートピクセルとペアリングされた位置合わせされたサンプル画像領域の集合内の位置合わせされたピクセルのカラー値はゼロ(背景カラー値)にセットされる。次いで、処理は、ピクセススコアが残っている未だ割り当てられてないテンプレートピクセルに対して再び演算されるボックス456へ戻る。
【0126】
図28は、テンプレートピクセルカラー割当てのアルゴリズムを、図26に示されたテンプレートを発生するために使用された同じグリフサンプル画像データへ、適用した結果を示す。図28におけるテンプレート510のセットは「スペース」、小文字、大文字、数字、及び句読点の順に配列される。文字が入力された画像内に発生されない場合、そのテンプレートは実線の黒い四角として提供される。図26と比較すると、図28におけるテンプレートは余分な黒のピクセルを殆ど含んでおらず、このアルゴリズムの「Zピクセル・クリアリング」の効果が出ている。特に、文字”e”、”a”、及び”r”のそれぞれを示すテンプレート516、514、及び518は、それらを図26のテンプレート94、96、及び98と比較するために呼び出された。ピクセルスコアの演算には、γ>0及びβ<0であるγ及びβ係数の使用が必要とされる。図26に示されたテンプレートを生成した図示された実施の形態においては、これらの係数のために使用された値はそれぞれ2.237と−1.629であって、チャネルノイズパラメータα0 =.9及びα1 =.51に対応している。
【0127】
有限状態画像モデルネットワークにおけるノード同士の間の各遷移t1 は、図14に示された対応付けられた4つの要素から成る属性を[at ](Δt )、mt 、Qt の順に有している。テンプレートQt が、図14においてFの遷移t1 で示されるような一つの遷移t1 に対応付けられる時、この遷移に対応付けられた水平の変位Δi はテンプレートの文字セット幅、
【0128】
【外12】
【0129】
である。文字セット幅は、グリフ起点位置から、ワードの連続文字を画像形成する時に次のグリフの起点が通常配置される点まで、のベクトル変位Δ=(Δx 、Δy )である。この文字セット幅は、文字形状の記述や位置決めのサイドベアリングモデルによってモデリングされた文字テンプレートを完全に記述するために必要とされる字体距離の内の一つである。従って、テンプレート構成手順400により文字テンプレートを構成することの他にこの構成されたテンプレートに対する文字セット幅を決定することも必要である。
【0130】
各2値テンプレートの文字セット幅はこのテンプレートに対して識別されたサンプル画像領域の集合を用いて決定される。2D入力画像内のグリフサンプルのグリフ画像起点位置を識別することが推定のプロセスであるので、当該識別されたサンプルの少なくとも幾つかが不正確な画像起点位置を識別してしまうことも予想される。しかしながら、サンプル画像領域内に含まれた各グリフサンプルのセット幅が2D画像内の次の隣接するグリフサンプルの判っている画像起点位置から演算されることができる。従って、テンプレートに対するセット幅の演算には、サンプル画像領域の集合と、各サンプル内の各画像起点位置から2D画像内の次の隣接グリフの画像起点位置までの変位と、を用いてこのテンプレートに対して識別された各サンプルに対するセット幅を計算することが含まれる。グリフサンプルに対して演算されたセット幅の集合は、当該テンプレートに対するセット幅に達するように使用される。例えば、全てのサンプルに対する平均値又は中間値のセット幅は当該テンプレートに対するセット幅であるように決定されてもよい。或いは、これらのサンプルを用いて演算される最小のセット幅はテンプレートのセット幅として使用されてもよい。
【0131】
図13は、テンプレート構成手順400に続いて、文字セット幅を決定するこのステップをボックス490として示している。しかしながら、記述されているように、図示されている実現において、各テンプレートのセット幅はサンプル画像領域の集合を用いて決定されるが、構成されたテンプレートからは決定されない。従って、文字セット幅の決定は、テンプレート構成の完成に依存せずに、2D入力画像内のグリフサンプルに対してラベル付けされたグリフ画像起点位置を生成する、復号やバックトレーシングステップの後の、任意点で行われてもよい。さらに、図13は、復号、バックトレーシング(戻り)、及びテンプレート構成ステップ330、380、及び400をそれぞれ反復する反復処理ループ内に含まれているステップとしてこのステップを示している。セット幅を演算するための好ましい方法は、復号プロセスの引き続く反復の間の文字の位置決めに使用されるセット幅が、入力された2D画像入力画像内のグリフを位置決めするために使用される実際のセット幅よりも常に少なくなることを確実とするため、サンプル画像領域の集合に対して演算されるセット幅から最小セット幅を決定し、次いでこのテンプレートに対するセット幅としてその最小値のパーセント、例えば90パーセント、を取ることである。
【0132】
前述のように、図9、図14、及び図19に示されたタイプの2D画像ソースモデルを用いて参照された2D画像の画像復号が文字テンプレートの初期セットの使用を仮定するので、文字テンプレート学習方法200の図示されている実施の形態は、基本的には反復プロセスである。学習の状態において一般的であるように、テンプレートの初期セットが使用不可能である時、図示されている実施の形態は、復号ステップ330の前に、復号の間に使用するための文字テンプレートの初期セットを示す文字テンプレートデータストラクチュアを発生するための処理を含む。文字テンプレートの初期セット内の各セットは、復号プロセス330によって実践的に使用されるあらゆる任意ピクセルの内容を有していてもよいし、図示されている実施の形態において各テンプレートは実線の黒の矩形の前記任意の初期ピクセル内容を有しており、且つ文字が示す当該文字に関する特定のピクセル情報は有していない。このような矩形の黒画像のテンプレートの初期セットが付与された場合、復号ステップ330及びバックトレーシングステップ380はそれぞれ、先行する反復において構成された文字テンプレートを用いて、各引き続く反復を有する2D画像内のグリフサンプル10のラベル付けされたグリフ画像起点位置の改良された推定値を生成しやすい。
【0133】
文字テンプレート構成の完成を制御するために使用される停止条件は、ヒューリスティックに決定されてもよいし又は一つ又はそれより多くの処理パラメータの関数であってもよい。図示されている実施の形態においては、停止条件は、最高の品質のテンプレートを生成し、それに引き続く当該テンプレートに対する参照可能な改良点が殆どないか又は有効度を持たないような反復回数であることを経験から証明した固定された反復回数である。停止条件は、復号の間に演算された最尤スコアに関連する閾値をベースにしている。
【0134】
2D画像ソースモデルと形式的モデルとして示されたトランスクリプションの両方を有すると共に学習手順への明示的入力として示された2D画像ソースモデルを有するフレキシビリティが、従来、学習テンプレートに適したトランスクリプション即ちリテラルトランスクリプションのタイプとして考えられてきた概念を拡張し、広範囲の他のメッセージストリングの含むようになった。例えば、学習のために使用されるグリフサンプルの2D入力画像ソースが常に公知の固定されたトランスクリプションを有する特定のドキュメントのセットの内の一つである状態が発生し得る。これらの所定のトランスクリプションをモデリングするトランスクリプションネットワーク又はトランスクリプション−画像ネットワークは、これらの特定のトランスクリプションの各々を学習する前に生成され且つ記憶されてもよいと共に、ユーザが「トランスクリプション」として入力するものは、実際には、学習において使用されようとするグリフサンプルの2D画像ソースに対応付けられようとする特定のトランスクリプションを識別するネームである。
【0135】
他の例において、2D画像内の文字コードに対する論理構造及びフォーマット情報を示すマークアップラベル又はタグを含む使用可能なデータストラクチュアも入力トランスクリプションとして使用され、ユーザがタグをマニュアルで取り除いたり、データストラクチュアをリテラルトランスクリプションへ変換する必要がない。これらのマークアップデータストラクチュアが、それらのドキュメント画像と共にドキュメントデポジトリ内で使用可能である場合、本発明の学習技術は、このようなドキュメント画像とその対応するタグトランスクリプションを用いて文字テンプレートを学習することを可能にする。
【0136】
本発明のテンプレート学習方法におけるタグ付けされたトランスクリプションの使用は、収容タグが本質的に画像ソースネットワーク内のメッセージストリングの処理を含むので、このようにして記述された画像モデルに対して関数的な変更を全く要求しないし、図9において提供されたマルコフ画像ソースモデルの一般的な形式が、各遷移に対してメッセージストリング及びテンプレートの独立仕様を可能とする。また、メッセージ及びテンプレートのいずれか又は両方が遷移属性セットから省略されてもよい。従って、以下に示されるように、タグがモデリングフレームワークに対する変更をせずに収容されてもよい。
【0137】
図29は、サブスクリプトを含む単純テキストラインを画像形成するライン画像ソースモデル770を示す。遷移確率はこのモデルから省略されている。モデル770によって定義されるこれらのライン画像は、様々な文字間スペースを有する文字”a”のグリフの全体から成る。モデル770における状態及びこれらの状態の遷移は、サブスクリプトをシミュレートするためにグリフがベースライン上又は5ピクセル下へ配置されることができることを示す。モデル770内に示された遷移属性から、状態n2 とその自己遷移777及び778が、主要ベースライン上で位置合わせされた文字”a”の連続テンプレートを画像形成すると共に、”a”のメッセージストリングを発生するのが理解されよう。遷移778上のベクトル変位から、水平x方向の”a”のセット幅が25で付与されるのがさらに理解されよう。モデル770は、状態n1 から状態n4 までの遷移によってサブスクリプトベースライン上でのグリフの画像形成を可能とする。この状態n1 から状態n4 までの遷移は、画像平面において現在画像形成位置を下へ移動する5のプラスのy変位を遷移属性として示し、メッセージストリング772”{”も示すがテンプレートはない。状態n4 とその自己遷移779及び780は、サブスクリプトベースライン上で位置合わせされた文字”a”の連続テンプレートを画像形成すると共に、”a”のメッセージストリングも発生する。状態n4 から状態n3 までの遷移は、変位776によって示されるように、現在画像形成位置を主要ベースラインへ戻す。この遷移はメッセージストリング属性774”{”を有するがテンプレートは有さない。遷移状態n3 から状態n1 までの遷移のため、ラインはベースライン上のストリングと交互に形成される任意数のサブスクリプト・ストリングを含んでいてもよい。(モデル770が主要テキストベースラインの下で画像形成されるテキストを含む画像のセットをモデリングするので、全てのブランチ変位が2次元ベクトルとして指定される。しかしながら、モデル770を介する全ての完全経路がゼロのy変位を有すること、即ち、πが完全経路とすると、
【0138】
【外13】
【0139】
をベリファイすることは容易である。従って、このモデルはラインモデルであることの定義条件を満たす。即ち全ての完全経路が同一y変位を有する。)
【0140】
図30は、ライン画像ソースモデル770によってモデリングされたライン画像のセット内に含まれるライン画像712、714、及び716の幾つかの例を示す。図示目的のため、図44内のサブスクリプトのベクトル変位が誇張されており、ライン718のようなダッシュラインが主要テキストベースラインを図示するために示されている。その復号モードにおいて、モデル770はライン画像712、714、及び716をそれぞれメッセージストリング(トランスクリプション)”aaa{aa}a”、”a{a}aa{a}a”、及び”a{a}a”として復号する。或いはこれとは逆に、当該ライン画像712、714、及び716は、入力メッセージストリング”aaa{aa}a”、”a{a}aa{a}a”、及び”a{a}a”が付与された場合、その画像合成モードにおいてモデル770が発生するライン画像としてビューされることができる。いずれの事象においても、状態n1 から状態n4 までの遷移と状態n4 から状態n3 までの遷移上で消失されているテンプレートによってサポートされている事実から、実際のメッセージストリング”{”and”}”は図44におけるライン画像712、714、及び716のいずれかにおけるグリフと視覚的にペアリングされることは不可能である。モデル770に遭遇した場合、メッセージストリング”{”and”}”は、当該モデルによって発生された画像内の一つ又はそれより多くのグリフの画像形成における知覚可能な変化を示す。メッセージストリング”{”and”}”は従って、これらのタグに先行又は後行するテキストからの画像形成におけるフォーマッティング又は論理的変化を有しつつ、当該タグ同士の間のテキストをマークするタグとして機能する。この場合、これらのタグはサブスクリプトとして変換又はタイプセットされようとするテキストをマークする。
【0141】
タグ付けされたトランスクリプションネットワークを有するタグメッセージストリングを収容する画像ソースモデルの併合は、2Dネットワークとラインネットワークの併合に関して前述した方法と同様に進められる。併合されたタグトランスクリプション画像ネットワークの関数的特性は2D実現に関して前もって提供された特性と同じである(ネットワーク特性(a)及び(b)として参照される)。ネットワーク併合手順は、タグトランスクリプションネットワークによって定義されたトランスクリプションのセットからトランスクリプションのみを発生するように制約された変更された画像ソースモデルを生成する。
【0142】
テンプレート学習手順のために生成された学習データのためのグリフラベルの入力ソースとしてタグ付けされたトランスクリプションの使用は画像及びトランスクリプションモデルが以下にして定義され且つ併合されるかによって完全に処理されると供に、復号プロセス又は最良経路からのグリフ画像起点位置の抽出に対して全く変更を要求しない。テンプレート学習手順の残りの部分は、入力されたライン画像内に含まれるグリフのグリフ画像起点位置をテンプレート構成手順へ提供するためにタグトランスクリプション画像ネットワークを用いて、前述のように処理される。
【0143】
【発明の効果】
ユーザの学習データ準備への関与を実質的に取り除くと供にテンプレートが効果的に自動生成される文字テンプレートセット学習マシン動作方法を提供する。
【図面の簡単な説明】
【図1】文字形状記述及び配置のサイドベアリングモデルの単純化されたバージョンを示す図である。
【図2】本発明による学習文字テンプレートのためのグリフサンプルのソースとして使用するための複数のグリフの2D画像を示す図である。
【図3】本発明によって生成された文字テンプレートデータストラクチュアの例を示す図である。
【図4】本発明の学習方法及びシステムへの入力として使用するのに適した図2の2D画像のためのトランスクリプションデータストラクチュアの例を示す図である。
【図5】本発明の学習方法への入力トランスクリプションとして使用するのに適したディクショナリの部分に対するトランスクリプションデータストラクチュアの他の例を示す図である。
【図6】図6がトランスクリプションであるディクショナリページの2D画像を示す図である。
【図7】図2の2D画像に対する他のトランスクリプションメッセージを示すトランスクリプションデータストラクチュアのセットを示す図である。
【図8】簡単化された有限状態遷移ネットワークの部分として示される図7に示されたトランスクリプションのセットを示す図である。
【図9】簡単化された有限状態遷移ネットワークの部分としてその一般的な形式で示された形式的2D画像ソースモデルを示す図である。
【図10】本発明の学習方法及びシステムの入力及び出力を示す略ブロック図を示す図である。
【図11】本発明の文字テンプレート学習方法の一般的なステップを示すフローチャートである。
【図12】テンプレート構成への学習データ入力を生成する本発明の学習方法及びシステムの図示されたソフトウェア実現の一部の入力及び出力データストラクチュアを示す略ブロック図である。
【図13】ラベル付けされたグリフ画像起点位置を学習データとして生成する本発明の図示された実現の部分の一般的なステップを示すフローチャートである。
【図14】本発明の文字テンプレート学習方法の図示された実現に使用される図2の2D画像のような単一テキストコラムの空間ストラクチュアを有する2D画像のクラスをモデリングする有限状態遷移ネットワークを示す図である。
【図15】本発明の文字テンプレート学習方法の図示された実現に使用される図8のトランスクリプションネットワークの簡単化された部分を示す図である。
【図16】本発明の図示された実現に従って、図14の有限状態遷移ネットワークと図15のトランスクリプションネットワークの併合を概略的に示す図である。
【図17】本発明の図示された実現に従って、図14の有限状態遷移ネットワークと図15のトランスクリプションネットワークの併合を概略的に示す図である。
【図18】本発明の図示された実現に従って、図14の有限状態遷移ネットワークと図15のトランスクリプションネットワークの併合を概略的に示す図である。
【図19】本発明の図示された実現に従って、図14の有限状態遷移ネットワークと図15のトランスクリプションネットワークの併合を概略的に示す図である。
【図20】本発明の図示された実現によって図13におけるフローチャートの復号ステップをヴィタビ・デコーダとして示すフローチャートである。
【図21】本発明の図示された実現において使用されたテンプレート構成方法の一般的なステップを示す図である。
【図22】図21に示されたテンプレート構成方法の間に学習されたテンプレートを記憶するために使用されたテンプレート画像領域の概念を示す図である。
【図23】グリフサンプルの2D画像ソース内で識別されるサンプル画像領域を示すと共に、当該グリフサンプルの2D画像ソースから図21に示されたテンプレート構成方法によってテンプレートが学習される図である。
【図24】本発明の図示された実現によってグリフサンプルの画像起点位置において整合されたサンプル画像領域の概念を示す、図22のテンプレート画像領域よりも上に層状になった図2の2D画像の三つのサンプル画像領域の概略的な画像を示す図である。
【図25】本発明の図示された実現によってテンプレート学習の際に使用するための2D画像からクリッピングされたサンプルの画像領域の集合の画像を提供する図である。
【図26】文字テンプレートに課された重要な数学的制約条件を参照しない方法を用いて生成された三つの模範的だが不満足なテンプレートを示す図である。
【図27】本発明の図示された実現のテンプレート構成方法によって、図22のテンプレート画像領域と図24及び図25の整合されたサンプル画像領域とを用いて、文字テンプレートの全てを同時期に構成するステップを示すフローチャートである。
【図28】図27に示された新しいテンプレート構成方法によって生成された学習されたテンプレートの最終セットを示す図である。
【図29】単一テキストラインの空間ステップを有すると共に模範的タグトランスクリプションと一貫性を有するメッセージストリングを収容するライン画像のセットをモデリングする有限状態遷移ネットワークを示す図である。
【図30】図29の有限状態遷移ネットワークによってモデリングされたサンプルライン画像を示す図である。
【符号の説明】
10 2D画像データストラクチュア
12、14 グリフ
13 画像座標システム
16 ラインセグメント
Claims (3)
- 認識システムに使用するための文字テンプレートのセットを学習するマシンを動作する方法であって、
前記マシンが、プロセッサとデータを記憶するメモリデバイスとを含み、
前記メモリデバイス内に記憶されたデータが、前記マシンを動作するために前記プロセッサが実行する命令データを含み、
前記プロセッサが、前記メモリデバイス内に記憶されたデータにアクセスするために前記メモリデバイスに連結されており、
前記プロセッサを動作して、以下「文字画像インスタンスサンプルの2次元画像ソース」と呼ばれる複数の文字画像インスタンスサンプルを含む2次元画像を定義する画像定義データストラクチュア内に発生する各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定するステップであって、前記文字画像インスタンスサンプルの2次元画像ソースが、文字画像インスタンスの単一ラインより大きな縦寸法を有し、前記文字画像インスタンスサンプルの2次元画像ソース内に含まれる各文字画像インスタンスサンプルが、以下「文字画像インスタンスサンプル文字セット」と呼ばれる複数の文字セット内の文字のそれぞれの画像として実現されたインスタンスであり、学習される文字テンプレートのセットの各々が、前記複数の文字画像インスタンスサンプル文字セット内の文字のそれぞれを示し、各文字テンプレートが、前記文字画像インスタンスサンプル文字セット内のそれぞれの文字を識別する文字ラベルにより識別され、
前記プロセッサが、前記各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定する時、以下「2次元画像ソースモデル」と呼ばれる2次元画像ソースモデル・データストラクチュアを使用し、前記2次元画像ソースモデルが、前記文字画像インスタンスサンプルの2次元画像ソース内で発生する複数の文字画像インスタンスの空間的位置決めをモデリングする空間的位置決めデータを含み、前記プロセッサが、前記各文字画像インスタンスサンプルの文字画像インスタンスサンプルピクセル位置を決定するために前記空間的位置決めデータを使用する、ステップを有し、
前記プロセッサを動作して、前記文字画像インスタンスサンプルの2次元画像ソース内で発生する前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置とペアリングされた以下「それぞれペアリングされた文字画像インスタンスラベル」と呼ばれる文字画像インスタンスラベルデータアイテムを生成するステップであって、前記それぞれペアリングされた文字画像インスタンスラベルが、前記文字画像インスタンスサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされた文字画像インスタンスラベルを生成する時、前記文字画像インスタンスサンプルの2次元画像ソース内で発生する文字画像インスタンスのそれぞれを前記文字画像インスタンスサンプル文字セット内の文字を示す文字画像インスタンスラベルとマッピングする前記2次元画像ソースモデル内に含まれたマッピングデータを使用し、
前記プロセッサが、前記それぞれペアリングされた文字画像インスタンスラベルを生成する時更に、前記文字画像インスタンスサンプルの2次元画像ソースに対応し且つ以下「トランスクリプション・ラベル」と呼ばれる文字セット内の少なくとも1つの文字を示すサブメッセージストリング・データアイテムの順序付き配列を含む、以下「トランスクリプション」と呼ばれるメッセージストリングを示すデータストラクチュアを使用し、前記プロセッサが、前記トランスクリプション及び前記マッピングデータを使用して、文字画像インスタンスラベルを前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置とペアリングする、ステップを有し、
前記プロセッサを動作して、決定された前記文字画像インスタンスサンプルピクセル位置と生成された前記それぞれペアリングされた文字画像インスタンスラベルとによって識別された前記文字画像インスタンスサンプルの2次元画像ソース内の前記文字画像インスタンスサンプルを用いて前記文字画像インスタンスサンプル文字セット内の文字のそれぞれを示す文字テンプレートのセットを生成するステップであって、
それぞれがペアリングされた各文字画像インスタンスラベルが、前記文字テンプレートの各々に対する学習データサンプルとして文字画像インスタンスサンプルピクセル位置を識別する、ステップと、
を備える文字テンプレート学習マシン動作方法。 - 第2の文字テンプレートのテンプレート画像起点位置が、先行の第1文字テンプレートのテンプレート画像起点位置からこの先行の第1文字テンプレートの文字セット幅だけ変位され、当該第2の文字テンプレートが画像内に位置決めされる時、及び前記第1の文字テンプレートを完全に収容する第1の境界ボックスが、前記第2の文字テンプレートを完全に収める第2の境界ボックスと前記画像内でオーバーラップする時、前記第1と第2の文字テンプレートが実質的にオーバーラップしない前景ピクセルを有するように、前記文字テンプレートのセット内の各文字テンプレートが特性文字画像位置決め性を有する文字テンプレートモデルをベースとし、
前記文字画像インスタンスサンプルの2次元画像ソース内で発生する前記各文字画像インスタンスサンプルの決定された前記文字画像インスタンスサンプルピクセル位置が、前記文字画像インスタンスサンプルの画像起点位置を示す前記文字画像インスタンスサンプルの2次元画像ソース内の単一2次元画像位置であり、
前記プロセッサを動作して、前記文字テンプレートのセットを生成するステップが、
前記文字画像インスタンスサンプルの2次元画像ソース内のサンプル画像領域を決定し、各サンプル画像領域が、「サンプルピクセル位置」と呼ばれる前記文字画像インスタンスサンプルの2次元画像ソース内に複数の画像ピクセル位置を含み、前記サンプルピクセル位置の内の第1のサンプルピクセル位置が第1の文字画像インスタンスサンプルの画像起点位置であり、各サンプル画像領域が更に前記サンプルピクセル位置の内の第2のサンプルピクセル位置が第2の文字画像インスタンスサンプルの画像起点位置となる程十分大きいことと、全ての文字テンプレートが、前記テンプレートモデルの特性画像形成性を観測するように一つのテンプレートピクセル位置に対して一つのピクセルカラー値を決定するためにサンプル画像領域が使用されるサンプル画像位置を決定するテンプレートピクセル割当て基準をベースとして、前記サンプル画像領域内に含まれる前記サンプルピクセル位置によって示されたピクセルカラー値を用いて、前記文字テンプレートのそれぞれに含まれるテンプレートピクセル位置へピクセルカラー値を割当てることと、を有する
ことよりなる請求項1に記載の文字テンプレートセット学習マシン動作方法。 - 前記文字画像インスタンスサンプルの2次元画像ソースに対応付けられるトランスクリプションは、前記文字画像インスタンスサンプルの2次元画像内のそれぞれの文字画像インスタンスが、以下「タグ」と呼ばれる前記文字画像インスタンスサンプルの2次元画像内のそれぞれの文字画像インスタンスの目視検査によってペアリングされる文字ラベルではない少なくとも一つのトランスクリプション・ラベルを含む、メッセージストリングを示すタグ・トランスクリプション・データストラクチュアであり、前記タグによって示された少なくとも一つの文字コードが、前記文字画像インスタンスサンプルの2次元画像ソースのディスプレイ特徴を示すと共に、
前記プロセッサが、前記トランスクリプション及び前記マッピングデータを用いて前記文字画像インスタンスラベルを生成する時、前記タグに関連した少なくとも一つの文字画像インスタンスサンプルを識別するために前記文字画像インスタンスサンプルの2次元画像ソース内に発生する前記複数の文字画像インスタンスサンプルに関する空間的位置決め情報を使用し且つ文字画像インスタンスラベルを前記文字画像インスタンスサンプルとペアリングするために前記タグを使用する、
請求項1に記載の文字テンプレートセット学習マシン動作方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US431223 | 1995-04-28 | ||
US08/431,223 US5689620A (en) | 1995-04-28 | 1995-04-28 | Automatic training of character templates using a transcription and a two-dimensional image source model |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08305803A JPH08305803A (ja) | 1996-11-22 |
JP3822277B2 true JP3822277B2 (ja) | 2006-09-13 |
Family
ID=23711011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09869096A Expired - Fee Related JP3822277B2 (ja) | 1995-04-28 | 1996-04-19 | 文字テンプレートセット学習マシン動作方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5689620A (ja) |
EP (1) | EP0740263B1 (ja) |
JP (1) | JP3822277B2 (ja) |
CA (1) | CA2171773C (ja) |
DE (1) | DE69610243T2 (ja) |
Families Citing this family (118)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6549638B2 (en) | 1998-11-03 | 2003-04-15 | Digimarc Corporation | Methods for evidencing illicit use of a computer system or device |
US6449377B1 (en) | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
US5897644A (en) * | 1996-09-25 | 1999-04-27 | Sun Microsystems, Inc. | Methods and apparatus for fixed canvas presentations detecting canvas specifications including aspect ratio specifications within HTML data streams |
US6094484A (en) * | 1996-10-16 | 2000-07-25 | Convey Corporation | Isomorphic pattern recognition |
WO1998016897A1 (en) * | 1996-10-16 | 1998-04-23 | Convey Corporation | Isomorphic pattern recoginition |
US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US5842213A (en) * | 1997-01-28 | 1998-11-24 | Odom; Paul S. | Method for modeling, storing, and transferring data in neutral form |
US6567548B2 (en) * | 1999-01-29 | 2003-05-20 | International Business Machines Corporation | Handwriting recognition system and method using compound characters for improved recognition accuracy |
US6426751B1 (en) * | 1999-04-01 | 2002-07-30 | Adobe Systems Incorporated | Font feature file processing |
US6513003B1 (en) | 2000-02-03 | 2003-01-28 | Fair Disclosure Financial Network, Inc. | System and method for integrated delivery of media and synchronized transcription |
DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US6738518B1 (en) | 2000-05-12 | 2004-05-18 | Xerox Corporation | Document image decoding using text line column-based heuristic scoring |
US6678415B1 (en) | 2000-05-12 | 2004-01-13 | Xerox Corporation | Document image decoding using an integrated stochastic language model |
US6594393B1 (en) | 2000-05-12 | 2003-07-15 | Thomas P. Minka | Dynamic programming operation with skip mode for text line image decoding |
US6862113B1 (en) | 2000-05-19 | 2005-03-01 | Xerox Corporation | Assist channel coding with character classifications |
US7110621B1 (en) | 2000-05-19 | 2006-09-19 | Xerox Corporation | Assist channel coding using a rewrite model |
US6768560B1 (en) | 2000-05-19 | 2004-07-27 | Xerox Corporation | Assist channel coding with vertical block error correction |
US6628837B1 (en) | 2000-05-19 | 2003-09-30 | Xerox Corporation | Assist channel coding with convolution coding |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
US6920241B1 (en) * | 2000-09-29 | 2005-07-19 | Cognex Corporation | System and method for bundled location and regional inspection |
AU2002230766A1 (en) * | 2000-11-08 | 2002-05-21 | New York University | System, process and software arrangement for recognizing handwritten characters |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
DK1288792T3 (da) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Fremgangsmåde til automatisk indeksering af dokumenter |
US20070265834A1 (en) * | 2001-09-06 | 2007-11-15 | Einat Melnick | In-context analysis |
PT1456810E (pt) | 2001-12-18 | 2011-07-25 | L 1 Secure Credentialing Inc | Características de segurança com imagens múltiplas para documentos de identificação e processo para as efectuar |
US7728048B2 (en) | 2002-12-20 | 2010-06-01 | L-1 Secure Credentialing, Inc. | Increasing thermal conductivity of host polymer used with laser engraving methods and compositions |
US7694887B2 (en) | 2001-12-24 | 2010-04-13 | L-1 Secure Credentialing, Inc. | Optically variable personalized indicia for identification documents |
EP1459239B1 (en) | 2001-12-24 | 2012-04-04 | L-1 Secure Credentialing, Inc. | Covert variable information on id documents and methods of making same |
US7793846B2 (en) | 2001-12-24 | 2010-09-14 | L-1 Secure Credentialing, Inc. | Systems, compositions, and methods for full color laser engraving of ID documents |
US7824029B2 (en) | 2002-05-10 | 2010-11-02 | L-1 Secure Credentialing, Inc. | Identification card printer-assembler for over the counter card issuing |
US7089185B2 (en) * | 2002-06-27 | 2006-08-08 | Intel Corporation | Embedded multi-layer coupled hidden Markov model |
AU2003298731A1 (en) | 2002-11-26 | 2004-06-18 | Digimarc Id Systems | Systems and methods for managing and detecting fraud in image databases used with identification documents |
US7712673B2 (en) | 2002-12-18 | 2010-05-11 | L-L Secure Credentialing, Inc. | Identification document with three dimensional image of bearer |
DE602004030434D1 (de) | 2003-04-16 | 2011-01-20 | L 1 Secure Credentialing Inc | Dreidimensionale datenspeicherung |
US7296223B2 (en) * | 2003-06-27 | 2007-11-13 | Xerox Corporation | System and method for structured document authoring |
US7246311B2 (en) * | 2003-07-17 | 2007-07-17 | Microsoft Corporation | System and methods for facilitating adaptive grid-based document layout |
DE10342594B4 (de) * | 2003-09-15 | 2005-09-15 | Océ Document Technologies GmbH | Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten |
DE10345526A1 (de) * | 2003-09-30 | 2005-05-25 | Océ Document Technologies GmbH | Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten |
US7744002B2 (en) | 2004-03-11 | 2010-06-29 | L-1 Secure Credentialing, Inc. | Tamper evident adhesive and identification document including same |
JP2005301664A (ja) * | 2004-04-12 | 2005-10-27 | Fuji Xerox Co Ltd | 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム |
US7175090B2 (en) * | 2004-08-30 | 2007-02-13 | Cognex Technology And Investment Corporation | Methods and apparatus for reading bar code identifications |
ATE527637T1 (de) | 2005-06-01 | 2011-10-15 | Priv Id Bv | Vorlagenerneuerung in helper-datensystemen |
DE102005032046A1 (de) * | 2005-07-08 | 2007-01-11 | Océ Document Technologies GmbH | Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung |
US8451327B2 (en) * | 2005-08-18 | 2013-05-28 | Hoya Corporation | Electronic endoscope, endoscope light unit, endoscope processor, and electronic endoscope system |
US20070041642A1 (en) * | 2005-08-18 | 2007-02-22 | Romanoff Harris G | Post-ocr image segmentation into spatially separated text zones |
US20070078806A1 (en) * | 2005-10-05 | 2007-04-05 | Hinickle Judith A | Method and apparatus for evaluating the accuracy of transcribed documents and other documents |
US8633930B2 (en) * | 2007-03-26 | 2014-01-21 | Apple Inc. | Non-linear text flow |
JP4590433B2 (ja) * | 2007-06-29 | 2010-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP4402138B2 (ja) * | 2007-06-29 | 2010-01-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
US8229232B2 (en) * | 2007-08-24 | 2012-07-24 | CVISION Technologies, Inc. | Computer vision-based methods for enhanced JBIG2 and generic bitonal compression |
JP5376795B2 (ja) * | 2007-12-12 | 2013-12-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、そのプログラム及び記憶媒体 |
US8682056B2 (en) * | 2008-06-30 | 2014-03-25 | Ncr Corporation | Media identification |
US20100312813A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for distributing, storing, and replaying directives within a network |
WO2010144429A1 (en) * | 2009-06-08 | 2010-12-16 | Swakker Llc | Methods and apparatus for processing related images of an object based on directives |
US20100313244A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for distributing, storing, and replaying directives within a network |
US8286084B2 (en) * | 2009-06-08 | 2012-10-09 | Swakker Llc | Methods and apparatus for remote interaction using a partitioned display |
US20100311393A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for distributing, storing, and replaying directives within a network |
US20100310193A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for selecting and/or displaying images of perspective views of an object at a communication device |
US20100313249A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for distributing, storing, and replaying directives within a network |
US20100309196A1 (en) * | 2009-06-08 | 2010-12-09 | Castleman Mark | Methods and apparatus for processing related images of an object based on directives |
US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
CN102184383B (zh) * | 2011-04-18 | 2013-04-10 | 哈尔滨工业大学 | 一种印刷体字符图像样本的自动生成方法 |
US20130077856A1 (en) * | 2011-09-23 | 2013-03-28 | General Electric Company | Processes and systems for training machine typesets for character recognition |
US8958630B1 (en) * | 2011-10-24 | 2015-02-17 | Google Inc. | System and method for generating a classifier for semantically segmenting an image |
US8799269B2 (en) | 2012-01-03 | 2014-08-05 | International Business Machines Corporation | Optimizing map/reduce searches by using synthetic events |
US10332213B2 (en) | 2012-03-01 | 2019-06-25 | Ricoh Company, Ltd. | Expense report system with receipt image processing by delegates |
US9245296B2 (en) | 2012-03-01 | 2016-01-26 | Ricoh Company Ltd. | Expense report system with receipt image processing |
US9659327B2 (en) * | 2012-03-01 | 2017-05-23 | Ricoh Company, Ltd. | Expense report system with receipt image processing |
US8990112B2 (en) | 2012-03-01 | 2015-03-24 | Ricoh Company, Ltd. | Expense report system with receipt image processing |
US8898165B2 (en) | 2012-07-02 | 2014-11-25 | International Business Machines Corporation | Identification of null sets in a context-based electronic document search |
US8903813B2 (en) | 2012-07-02 | 2014-12-02 | International Business Machines Corporation | Context-based electronic document search using a synthetic event |
US9460200B2 (en) | 2012-07-02 | 2016-10-04 | International Business Machines Corporation | Activity recommendation based on a context-based electronic files search |
US9262499B2 (en) | 2012-08-08 | 2016-02-16 | International Business Machines Corporation | Context-based graphical database |
US8676857B1 (en) | 2012-08-23 | 2014-03-18 | International Business Machines Corporation | Context-based search for a data store related to a graph node |
US8959119B2 (en) | 2012-08-27 | 2015-02-17 | International Business Machines Corporation | Context-based graph-relational intersect derived database |
US9619580B2 (en) | 2012-09-11 | 2017-04-11 | International Business Machines Corporation | Generation of synthetic context objects |
US9251237B2 (en) | 2012-09-11 | 2016-02-02 | International Business Machines Corporation | User-specific synthetic context object matching |
US8620958B1 (en) * | 2012-09-11 | 2013-12-31 | International Business Machines Corporation | Dimensionally constrained synthetic context objects database |
US9223846B2 (en) | 2012-09-18 | 2015-12-29 | International Business Machines Corporation | Context-based navigation through a database |
US8782777B2 (en) | 2012-09-27 | 2014-07-15 | International Business Machines Corporation | Use of synthetic context-based objects to secure data stores |
US9741138B2 (en) | 2012-10-10 | 2017-08-22 | International Business Machines Corporation | Node cluster relationships in a graph database |
US8931109B2 (en) | 2012-11-19 | 2015-01-06 | International Business Machines Corporation | Context-based security screening for accessing data |
US8914413B2 (en) | 2013-01-02 | 2014-12-16 | International Business Machines Corporation | Context-based data gravity wells |
US8983981B2 (en) | 2013-01-02 | 2015-03-17 | International Business Machines Corporation | Conformed dimensional and context-based data gravity wells |
US9229932B2 (en) | 2013-01-02 | 2016-01-05 | International Business Machines Corporation | Conformed dimensional data gravity wells |
US9053102B2 (en) | 2013-01-31 | 2015-06-09 | International Business Machines Corporation | Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects |
US8856946B2 (en) | 2013-01-31 | 2014-10-07 | International Business Machines Corporation | Security filter for context-based data gravity wells |
US9256798B2 (en) * | 2013-01-31 | 2016-02-09 | Aurasma Limited | Document alteration based on native text analysis and OCR |
US9069752B2 (en) | 2013-01-31 | 2015-06-30 | International Business Machines Corporation | Measuring and displaying facets in context-based conformed dimensional data gravity wells |
US9110722B2 (en) | 2013-02-28 | 2015-08-18 | International Business Machines Corporation | Data processing work allocation |
US9292506B2 (en) | 2013-02-28 | 2016-03-22 | International Business Machines Corporation | Dynamic generation of demonstrative aids for a meeting |
US10152526B2 (en) | 2013-04-11 | 2018-12-11 | International Business Machines Corporation | Generation of synthetic context objects using bounded context objects |
US9195608B2 (en) | 2013-05-17 | 2015-11-24 | International Business Machines Corporation | Stored data analysis |
US9348794B2 (en) | 2013-05-17 | 2016-05-24 | International Business Machines Corporation | Population of context-based data gravity wells |
US9697240B2 (en) | 2013-10-11 | 2017-07-04 | International Business Machines Corporation | Contextual state of changed data structures |
US10127199B2 (en) * | 2014-03-28 | 2018-11-13 | Adobe Systems Incorporated | Automatic measure of visual similarity between fonts |
JP6001010B2 (ja) * | 2014-06-11 | 2016-10-05 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US10013643B2 (en) * | 2016-07-26 | 2018-07-03 | Intuit Inc. | Performing optical character recognition using spatial information of regions within a structured document |
US11544579B2 (en) | 2016-11-23 | 2023-01-03 | Primal Fusion Inc. | System and method for generating training data for machine learning classifier |
WO2018094496A1 (en) * | 2016-11-23 | 2018-05-31 | Primal Fusion Inc. | System and method for using a knowledge representation with a machine learning classifier |
CN111213156B (zh) * | 2017-07-25 | 2024-05-10 | 惠普发展公司,有限责任合伙企业 | 字符识别锐度确定 |
US10241992B1 (en) | 2018-04-27 | 2019-03-26 | Open Text Sa Ulc | Table item information extraction with continuous machine learning through local and global models |
US10545096B1 (en) * | 2018-10-11 | 2020-01-28 | Nanotronics Imaging, Inc. | Marco inspection systems, apparatus and methods |
US10594899B1 (en) * | 2019-02-15 | 2020-03-17 | Kyocera Document Solutions Inc. | Methods and system for generating a confidential document |
CN110009712B (zh) * | 2019-03-01 | 2021-05-04 | 华为技术有限公司 | 一种图文排版方法及其相关装置 |
CN111950329B (zh) * | 2019-05-16 | 2024-06-18 | 长沙智能驾驶研究院有限公司 | 目标检测及模型训练方法、装置、计算机设备和存储介质 |
SG10201905273VA (en) * | 2019-06-10 | 2019-08-27 | Alibaba Group Holding Ltd | Method and system for evaluating an object detection model |
RU2721186C1 (ru) * | 2019-07-22 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Оптическое распознавание символов документов с некопланарными областями |
US10915992B1 (en) | 2019-08-07 | 2021-02-09 | Nanotronics Imaging, Inc. | System, method and apparatus for macroscopic inspection of reflective specimens |
US11593919B2 (en) | 2019-08-07 | 2023-02-28 | Nanotronics Imaging, Inc. | System, method and apparatus for macroscopic inspection of reflective specimens |
CN110706317A (zh) * | 2019-10-11 | 2020-01-17 | 北京一起教育信息咨询有限责任公司 | 印刷手写混合的数学公式数据生成方法及装置 |
CN110717492B (zh) * | 2019-10-16 | 2022-06-21 | 电子科技大学 | 基于联合特征的图纸中字符串方向校正方法 |
US11200411B2 (en) * | 2019-10-16 | 2021-12-14 | The Toronto-Dominion Bank | Training a card type classifier with simulated card images |
CN112836732B (zh) * | 2021-01-25 | 2024-04-19 | 深圳市声扬科技有限公司 | 数据标注的校验方法、装置、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4599692A (en) * | 1984-01-16 | 1986-07-08 | Itt Corporation | Probabilistic learning element employing context drive searching |
US4769716A (en) * | 1986-10-17 | 1988-09-06 | International Business Machines Corporation | Facsimile transmission using enhanced symbol prototypes with precalculated front and back white spaces |
US5020112A (en) * | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
US5237627A (en) * | 1991-06-27 | 1993-08-17 | Hewlett-Packard Company | Noise tolerant optical character recognition system |
US5493688A (en) * | 1991-07-05 | 1996-02-20 | Booz, Allen & Hamilton, Inc. | Pattern categoritzation system having self-organizing analog fields |
US5526444A (en) * | 1991-12-10 | 1996-06-11 | Xerox Corporation | Document image decoding using modified branch-and-bound methods |
US5321773A (en) * | 1991-12-10 | 1994-06-14 | Xerox Corporation | Image recognition method using finite state networks |
US5303313A (en) * | 1991-12-16 | 1994-04-12 | Cartesian Products, Inc. | Method and apparatus for compression of images |
US5491758A (en) * | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
-
1995
- 1995-04-28 US US08/431,223 patent/US5689620A/en not_active Expired - Lifetime
-
1996
- 1996-03-14 CA CA002171773A patent/CA2171773C/en not_active Expired - Fee Related
- 1996-04-19 JP JP09869096A patent/JP3822277B2/ja not_active Expired - Fee Related
- 1996-04-25 DE DE69610243T patent/DE69610243T2/de not_active Expired - Lifetime
- 1996-04-25 EP EP96302899A patent/EP0740263B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2171773A1 (en) | 1996-10-29 |
CA2171773C (en) | 2000-04-11 |
DE69610243T2 (de) | 2001-01-25 |
DE69610243D1 (de) | 2000-10-19 |
JPH08305803A (ja) | 1996-11-22 |
EP0740263B1 (en) | 2000-09-13 |
US5689620A (en) | 1997-11-18 |
EP0740263A3 (en) | 1997-09-10 |
EP0740263A2 (en) | 1996-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
US5956419A (en) | Unsupervised training of character templates using unsegmented samples | |
US5706364A (en) | Method of producing character templates using unsegmented samples | |
US11922318B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
US5594809A (en) | Automatic training of character templates using a text line image, a text line transcription and a line image source model | |
EP0745952B1 (en) | Method and system for automatic transcription correction | |
US6687404B1 (en) | Automatic training of layout parameters in a 2D image model | |
US6252988B1 (en) | Method and apparatus for character recognition using stop words | |
JP3447762B2 (ja) | 画像生成器及び画像認識システム | |
JP3640972B2 (ja) | ドキュメントの解読又は解釈を行う装置 | |
EP0439951B1 (en) | Data processing | |
Kovalevsky | Image pattern recognition | |
Berg-Kirkpatrick et al. | Unsupervised transcription of historical documents | |
CN110114776B (zh) | 使用全卷积神经网络的字符识别的***和方法 | |
CN111401099B (zh) | 文本识别方法、装置以及存储介质 | |
Ma et al. | Adaptive Hindi OCR using generalized Hausdorff image comparison | |
JP4704601B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
US20070041643A1 (en) | Character recognition apparatus and character recognition method | |
JPH08167000A (ja) | 文字認識装置および方法 | |
JP5343617B2 (ja) | 文字認識プログラム、文字認識方法および文字認識装置 | |
JP2011090578A (ja) | 画像処理装置、画像処理方法及びプログラム | |
Kumar et al. | Line based robust script identification for indianlanguages | |
US11270153B2 (en) | System and method for whole word conversion of text in image | |
JP2007052782A (ja) | 認識距離を調整するプログラム、装置および方法、ならびに文字列を認識するプログラム | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060214 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060622 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100630 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110630 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120630 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130630 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |