JPH08305803A - 文字テンプレートセット学習マシン動作方法 - Google Patents

文字テンプレートセット学習マシン動作方法

Info

Publication number
JPH08305803A
JPH08305803A JP8098690A JP9869096A JPH08305803A JP H08305803 A JPH08305803 A JP H08305803A JP 8098690 A JP8098690 A JP 8098690A JP 9869096 A JP9869096 A JP 9869096A JP H08305803 A JPH08305803 A JP H08305803A
Authority
JP
Japan
Prior art keywords
image
character
sample
template
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8098690A
Other languages
English (en)
Other versions
JP3822277B2 (ja
Inventor
Gary E Kopec
イー.コペック ゲイリー
Philip Andrew Chou
アンドリュー チョー フィリップ
Leslie T Niles
ティー.ニルス レスリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH08305803A publication Critical patent/JPH08305803A/ja
Application granted granted Critical
Publication of JP3822277B2 publication Critical patent/JP3822277B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 学習データ準備へのユーザの関与を必要とせ
ずにテンプレートが効果的に自動生成される文字テンプ
レートセット学習マシン動作方法を提供する。 【解決手段】 ボックス220において2D画像ソース
モデルによって定義される空間位置決め情報を用いて各
2D画像内の絵文字サンプル位置を決定し、ボックス2
50においてトランスクリプションと2D画像ソースモ
デルによって定義されたマッピングデータとを用いて2
D画像内の各絵文字サンプルの位置を決定し、これらの
ステップによって学習データとして用いられるラベル付
けされた絵文字サンプルのセットを示すデータストラク
チュアを生成し、文字テンプレートが当該ラベル付けさ
れた絵文字サンプルのセットを示すデータストラクチュ
アにより構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、コンピュ
ータによるパターン認識の分野に係り、特に、文書画像
復号化及び文字認識を実行するコンピュータによるシス
テムに用いる文字テンプレート学習(トレーニング)に
関する。
【0002】
【従来の技術】文字認識システムは、一般に、分離され
た入力文字画像、即ち「グリフ(glyph )」の外観が解
析され、意思決定プロセスにおいて所定の文字のセット
内の異なる文字として分類されるプロセスを含む。用語
「グリフ」は、文字の実現されたインスタンスを示す画
像を称する。その分類解析は、一般に、分離された入力
グリフの特性(例えば、そのピクセル成分又は他の特
性)を文字セット内の文字に関する参照情報のユニット
と比較することを含み、これらのユニットの各々は、画
像形成プロセスによって導入されるノイズ又は歪みが生
じない場合に画像内に出現する文字の「理想的な」視覚
表示の特性を文字の特定のサイズ、フォント及び書体に
おいて定義する。一般に、「文字テンプレート」、「テ
ンプレート」、又は「プロトタイプ」と呼ばれる各文字
に対する参照情報のユニットは、文字を文字セット内の
文字の内の一つとして固有に識別する「文字ラベル」と
呼ばれる識別情報を含む。グリフと文字ラベルを示す参
照情報との間で十分な整合がなされたことを分類解析が
決定した時、文字ラベルは入力グリフの識別として出力
される。
【0003】文字テンプレートを備える参照情報の表現
がそのモデルと呼ばれてもよい。一つのタイプの文字テ
ンプレートモデルは一つの文字のビットマップされた又
は2値の画像として知られている。2値文字テンプレー
トモデルのカテゴリ内には、少なくとも二つの異なるタ
イプのモデルが定義されている。一つは「セグメンテー
ションベース」のモデルと呼ばれ、文字テンプレートを
「境界ボックス」と呼ばれる矩形領域内に完全にあては
まるものとして記述し、隣接文字テンプレートの結合を
「非連結」な、オーバーラップしない境界ボックスを必
要とするものとして記述している。米国特許第5,321,77
3 号は、他の2値文字テンプレートモデルを開示してお
り、このモデルは、ディジタル・タイポグラフィの分野
で使用される、文字(letter form)形状の記述及び位置
決めのサイドベアリング(字面の左右の肩部)モデルに
基づく。図1の説明において以下により詳しく記述され
たサイドベアリングモデルは、一つのテンプレートの前
景(例えば、一般に黒色)ピクセルが隣接テンプレート
の前景ピクセルによって共用されていない即ちこの隣接
テンプレートの前景ピクセルと共通している間は、オー
バーラップする矩形境界ボックスを許容するようにテン
プレートの結合を記述している。このことはテンプレー
トが実質的「非連結サポート」を持つように要求すると
きに記述される。
【0004】学習文字テンプレートは、認識プロセスに
用いられるテンプレートを生成、作成、又は更新するた
めに学習データを使用するプロセスである。学習データ
は、文字画像サンプルの集合として広く定義されること
ができ、テンプレートを定義する文字テンプレートモデ
ルによりテンプレートを生成するのに必要な情報を提供
する。文字画像サンプルの各々は、当該サンプルが示す
文字セット内の文字を識別する割り当てられた文字ラベ
ルを有している。既存の学習プロセスの有効度は、学習
データの品質及び精度、特にグリフサンプルの品質に直
接依存する。
【0005】良質のグリフサンプルはこれらが学習プロ
セスに入力された時に欠落した又は無縁の前景ピクセル
によって実質的に損傷を受けないグリフサンプルであ
る。走査やファクスプロセスのような周知のソースから
生成されるビットマップ画像から導入されるグリフサン
プルは、ビットマップの実際の外観の不確実性に拍車を
かける画像ノイズや歪みによって品質が低下することを
余儀なくされる。この点に関する特定の問題は、テキス
ト内の文字がブレたり、併合したり又は途切れたりする
傾向である。このような低品質画像は、本明細書中にお
いては「雑音性」画像と呼ばれる。既存の学習プロセス
への入力として良質なグリフサンプルの必要条件は、概
して、グリフサンプルのソースとして使用される入力画
像が相対的に非雑音性であること、又はノイジー画像の
使用が可能となってもグリフサンプル内のノイズ除去又
は補償のためのプロセスが存在すべきであることを限定
している。
【0006】認識システムは、一般に、文字テンプレー
トを学習するために個別の学習サブシステムを提供して
いる。学習システムは「スーパバイズド」又は「非スー
パバイズド」であってもよい。非スーパバイズド学習
は、概して、認識及び学習の2段階のプロセスを有す
る。
【0007】既存のスーパバイズド学習は、学習データ
の態様が学習プロセスのユーザによりある程度特別に準
備されたプロセスとして記述される。このプロセスは、
グリフサンプルの分離、グリフサンプルに割り当てられ
ようとする文字ラベルの識別、及びグリフサンプルへの
文字ラベルの実際の割当ての内のどれかを含んでいても
よいし、又はこれらの三つの態様を全て含んでいてもよ
い。スーパバイズド学習は、(学習データの)品質及び
精度に関してユーザがある程度のコントロールを実行す
る学習データを用いて新規又は既存のテンプレートを学
習する機会を提供する。
【0008】一つのタイプの既存のスーパバイズド学習
システムにおいては、入力されたグリフサンプルは、
「セグメント化」されること即ち分離されており、個別
的、且つ相対的に非雑音性のグリフサンプルであること
と、学習プロセスへの入力の前の適切な文字ラベルによ
ってラベル付けされることが要求される。一般に、学習
データを準備する為のユーザインタフェースを有するソ
フトウェアは、ユーザに学習データの品質と精度の完全
なコントロールを委ねながら、ユーザが画像内のグリフ
サンプルの回りに境界ボックスを手描きし、それらにラ
ベルを割り当てるのを可能にする。
【0009】学習データの準備の三態様の内の一つ以上
が、直接的なユーザの関与を減少する為に自動化されて
もよい。例えば、グリフサンプルのセグメンテーション
及び境界ボックスの決定がテキスト文書画像全体又はテ
キストのラインの画像若しくはワード画像に適用される
自動プロセスであってもよい。ユーザは、自動セグメン
テーションの結果を検査し、誤ってセグメント化された
サンプルを補正し、文字ラベルをサンプルへ割り当てる
機会を有することもある。
【0010】画像モデルは、認識システムが設計される
使用可能な入力画像のセットの特性又は記述であると共
に、使用可能な画像のどの画像が所与の入力画像と最も
良く整合するかを決定するために使用され得る形式で提
供される。画像モデルは、使用可能な入力画像のセット
についての"priori (事前)" 情報を示すと共に、特定
の入力画像を定義する又は特定画像に対する解析及び認
識プロセッシングの実行結果を含むデータストラクチュ
アから区別できる。
【0011】形式的画像モデルは、形式的文法又は有限
状態遷移ネットワークのような形式的記述言語を用いて
使用可能な画像のセットを記述する。形式的文法は、特
定の言語でのステートメント実行が許容される許容可能
フォーマット(シンタックス)を定義するルールのセッ
トである。文法は、非制限、文脈依存、文脈自由、及び
正規などのタイプ別に特徴付けられてもよいし、特別な
タイプの文法は多かれ少なかれ特定の画像モデルに適す
ることもある。
【0012】あらゆるテキスト認識システムのデザイン
は、明示的画像モデル又は暗示的画像モデルに基づく。
画像モデルが当該モデルを使用するプロセッシングアル
ゴリズムとは無関係な方法で明示的且つ形式的に述べら
れているか又は画像モデルが画像解析動作を実行するコ
ード本文として暗示的に示されているにすぎないかにつ
いて区別される。この点において、形式的画像モデル
は、このモデルを使用するパーザコードとは無関係な明
示的データストラクチュアとして存在する文法ベース文
字ストリング解析システムにおける形式的文法に類似し
ている。
【0013】形式的画像モデルは、ゼロ次元(0D)、
1次元(1D)、又は2次元(2D)の形式をとること
ができる。
【0014】H. S. ベアード(Baird )は、「自己補正
100フォント判別手段(A Self-Correcting 100-Font
Classifier )」(1994年発行、文書認識SPIE Vol.2181
)において、ゼロ次元(0D)画像モデルを使用する
ポリフォント・リコグナイザのための特徴テンプレート
の学習へのアプローチを開示している。ベアードは、任
意の100の字形(タイプフェース)を適度に認識でき
るポリフォント判別手段が読み取ろうとする単一だが未
知の字形を当該ポリフォント判別手段が自ら自動指定す
ることが可能な自己補正方法を開示している。この自己
補正方法は、多数の字形をN個の文字(シンボル)クラ
ス、{Ci i=1,N に「程良い」精度をもって区別する
ことができるポリフォント判別手段を必要とすると共に
クラス別にラベル付けされた分離サンプル文字画像上で
学習可能な判別手段技術も必要とする。ベアードのテン
プレート学習システムは、分類及び学習プロセスへの入
力前に画像サンプルが分離されるのを必要とする、非ス
ーパバイズドで学ぶ形式である。
【0015】「擬似2次元隠れマルコフモデルを用いた
低品質印刷文書におけるキーワードスポッティング("K
eyword spotting in poorly printed documents using
pseudo 2D hidden Markov models" )」(1994年8
月発行「パターン解析とマシンインテリジェンス」に関
するIEEEトランザクション第16巻、No.8の8
42乃至848ページ)において、S. Kuo(クオ)及び
O. E. Agazzi(アガツィ)(以下、クオ等と称する)
は、低品質印刷文書に埋め込まれたキーワードのロバス
トな(堅牢な)マシン認識のためのアルゴリズムを開示
している。モデルと呼ばれるテンプレートは、整合され
ようとする既知のキーワードのセットを示す。キーワー
ドモデル毎に、実際のキーワード及び他の全ての無縁ワ
ードをそれぞれ示す、"pseudo 2D hidden Markov model
s"(擬似2次元隠れマルコフモデル)及び" PHHMs"
と呼ばれる二つの統計的モデルが生成される。本明細書
中に提供される用語の文脈において、キーワードテンプ
レートを示すPHHMは、形式的1次元画像モデルであ
る。
【0016】文字境界情報に無関係な文字のストリング
(例えば、ワード)の認識に使用する1D画像モデルの
文脈における特徴ベースのテンプレート学習は、199
2年9月オランダで開催されたパターン認識についての
国際会議議事録の116乃至119ページの「隠れマル
コフモデルを用いた連結され且つ低下したテキスト認
識」において、C.ボース(Bose) 及びS.クオによって開
示されている。この文献に開示された認識方法は、公知
のアルゴリズムを用いたページレベルプロセッシングが
学習ステップの前に行われると共に分離されたワード又
はラインの画像がリコグナイザへ提供されると仮定して
おり、この認識手段は隠れマルコフモデルとして表現さ
れる形式的1Dモデルに基づいている。スーパバイズド
学習プロセスが開示されており、このプロセスは、各々
が隠れマルコフモデルとして表現される0Dモデルの個
別の特徴ベース学習テンプレートに基づく。
【0017】米国特許第5,020,112 号及び第5,321,773
号は、形式的2D画像モデルに基づく認識システムを開
示している。「2次元の確率論的文法を用いた画像認識
("Image Recognition Using Two-Dimensional Stochas
tic Grammars" )」と題され且つ本発明の発明者の中の
一人、P. A. チュウ(Chou)へ与えられた米国特許第5,02
0,112 号は、2Dの確率論的文脈自由文法をベースとす
る2D画像モデルを用いてビットマップされた画像オブ
ジェクトを識別する方法を開示している。この米国特許
第5,020,112 号は、対応する画像内での発生確率を各々
が有する全ての対象となる可能性のある画像オブジェク
トの多数のn×mのビットマップされたテンプレートを
含むオブジェクト・テンプレート・ライブラリを開示し
ている。画像グリフは、それらの境界ボックスが有効に
オーバーラップしないという意味でセグメント化可能と
なるように要求される。形式的2D画像モデルは、矩形
の画像モデルによって画像内のオブジェクト同士の間の
空間関係を定義する生成ルールを有する確率論的2D文
法として示される。この文法は、オブジェクトのリスト
を解析して最大の発生確率を有する使用可能な解析ツリ
ーの内の一つを決定する為に使用される。学習のために
使用されようとする画像サンプルを認識プロセスがオリ
ジナル入力画像から分離し且つ認識手段による画像サン
プルの分類に基づいてセグメント化された画像サンプル
へ文字ラベルを割り当てると、学習プロセスは非スーパ
バイズドとなる。この説明に使用される用語の文脈にお
いて、テンプレートモデルはセグメンテーションベース
モデルであるので、2D画像モデルは、使用可能な画像
のセットを記述し、このセットはそれぞれが実質的にセ
グメント化できる画像オブジェクトを含まなければなら
ないし、これらの画像オブジェクトの各々はオーバーラ
ップされない境界ボックス内に実質的に含まれることが
可能でなければならない。
【0018】本発明の発明者であるG. Kopec(コペッ
ク)とP. A. Chou(チュウ)へ与えられ、「有限状態ネ
ットワークを用いた画像認識方法("Image Recognigtio
n Method Using finite State Networks" )」と題され
た米国特許第5,321,773 号は、米国特許第5,020,112 号
に使用されている文脈自由文法とは反対に、正規文法に
よって画像生成を定義する確率論的有限状態遷移ネット
ワークとして示される形式的2D画像モデルを開示して
いる。2D画像モデルによって記述されたテンプレート
モデルは、図1に関して詳細に説明される文字形状の記
述及び位置決めのサイドベアリングモデルを定義してい
る。
【0019】米国特許第5,321,773 号に使用されている
文字テンプレートの学習は、適切なテンプレート位置決
めに必要とされる特定のタイポグラフィ特性やパラメー
タの推定又は演算を含む。これらはフォント・メトリッ
ク(字体距離)と集合的に呼ばれる文字のサイドベアリ
ング及びベースラインの深さとして知られている。グリ
フの形状は、グリフのタイポグラフィーの原点が図1の
交差点2、5、6によって示された点(0、0)になる
ように位置合わせされた局所座標システムによって画定
される。グリフの文字「セット幅」は、グリフの起点位
置によって画定され、第1のグリフのグリフ原点の位置
から第2の隣接グリフの原点が連続文字画像形成時に通
常に配置される点までの変位ベクトルΔ=(Δx
Δy )である。ローマ字を含む大部分のインド−欧州ア
ルファベットにおいて、Δx >0及びΔy =0である。
図1において、文字”e”の文字セット幅は変位Δx
表記される。しかしながら、他の書き込みシステムにお
いて、Δx は、負(例えば、セム語)になることが可能
であり、又はΔy はノンゼロであってもよい(例えば、
東洋グリフ)。特定のαに対してΔy =αΔx のとき、
テキストライン内のグリフ原点は同一直線上にあり、テ
キストラインのベースライン4を画定する。グリフの境
界ボックス3は、グリフを取り囲む文字座標軸によって
方向付けられた最小矩形である。タイポグラフィックグ
リフ画像の起点位置が境界ボックスのx,y位置と必ず
しも同じ広がりをもたないことが図1によって示されて
いる。図1は境界ボックス3の外側のグリフ”e”に対
するグリフ画像起点位置5と境界ボックス8の内側のグ
リフ”j”に対するグリフ画像起点位置を示す。左のサ
イドベアリングは、グリフの原点から境界ボックスの左
端までの水平変位λである。同様に、右のサイドベアリ
ングは、境界ボックスの右端から次のグリフの原点まで
の水平変位ρである。これらのサイドベアリングの一つ
又は両方が負であってもよい。
【0020】米国特許第5,321,773 号は、11乃至17
コラムにおいて文字テンプレートの学習を開示してお
り、この学習プロセスは、1993年10月発行の画像
処理に関するIEEEトランザクションの510乃至5
19ページ、G. Kopec(コペック)著の「画像の最小二
乗フォント・メトリック推定("Least-Squares Font Me
tric Estimation from Images")(以下、コペックの
「フォント・メトリック推定」と呼ぶ)に更に記述され
ている。開示されたスーパバイズド学習技術は、この特
許の図14と、グリフサンプルがセグメント化可能であ
ったコペックの「フォント・メトリック推定」の図3に
示された特別に準備された入力画像を使用した。これら
のサンプルには、フォントサンプルページの各ライン内
のテキストライン及び個別文字が、テキスト画像エディ
タの単純連結成分ベースの解析手順を用いて導入される
コペックの「フォント・メトリック推定」の516ペー
ジに記述された事前学習セグメンテーションステップが
実行された。テキスト画像エディタによって分離された
各グリフサンプルは、入力画像内のグリフサンプルと1
対1ベースでペアリングされたサンプルを識別する順序
付き文字ラベルを含んだサンプルページの手書きで準備
されたテキスト・トランスクリプションを用いてラベル
付けされた。
【0021】
【発明が解決しようとする課題】本発明は、学習に使用
されようとするグリフサンプルのソースとしてテキスト
文書の2次元(2D)画像を用い、グリフサンプルのラ
ベリングに関する情報のソースとして非制限形式のトラ
ンスクリプションを用い、且つ2D画像におけるグリフ
サンプルと当該トランスクリプション内の情報との関係
を定義する学習プロセスへの明示的入力として形式的2
D画像モデルを用いることによって、学習データ準備の
三態様全部へのユーザの関与を最小とし、これにより略
正確な文字ラベルが適切なグリフサンプルへ割り当てら
れる。実際、この学習技術は、グリフの2D画像ソース
及び2D画像に対応するトランスクリプションを提供す
るのとは別に、全てのユーザの学習データ準備への関与
を実質的に取り除くために実行されることができ、テン
プレートが効果的に自動生成される。
【0022】学習プロセスへの明示的入力として形式的
2D画像モデルを使用することは、テンプレート学習の
ためのグリフサンプルのソースとして既存テキスト文書
の画像を使用する機会を提供し、これによってユーザが
サンプルの特定画像を手書き設計し準備する必要性が取
り除かれる。形式的2D画像モデルは、学習プロセスへ
の入力として受容される使用可能な2D入力画像のセッ
トに関する事前情報を示す。明示的な形式的2D画像モ
デルを使用することの重要な利点は、学習のためのグリ
フサンプルが得られる使用可能な2D入力画像のセット
を記述するときにフレキシビリティや詳細さを提供する
ことであり、このことは、広範囲の既存テキスト文書画
像が学習のために使用されてもよいことを同時に意味す
る。既存の学習技術に対する本発明の重要且つ固有の利
点は、学習のためのグリフサンプルのソースとしてのテ
キスト文書画像の使用によって、入力された2D画像内
のグリフサンプル又はテキストのラインの事前セグメン
テーション又は分離の必要性が取り除くかれることであ
る。学習プロセスは入力された2D画像内のグリフサン
プルの位置を配置するために2D画像モデルによって提
供された情報を使用し、これにより、グリフサンプルセ
グメンテーションが文書画像から通常ユーザによって手
動で行われるスーパバイズド学習システムにおいてユー
ザの学習データ準備への関与が減少される。
【0023】学習手順への入力として明示的に定義され
る2D形式的画像モデルを用いる更なる利点は、学習の
ためのグリフサンプルのソースとして使用され得るテキ
スト文書画像のタイプ(例えば、構造的外観)が新しい
タイプの画像に関する情報を反映するように形式的2D
画像モデルを単純に変化させることによって変更され得
る、即ち、入力された画像のタイプが変化する時に学習
プロセスを実行する命令を上書きする必要がないことで
ある。本発明は、グリフサンプルの入力された2D画像
ソースに関する詳細な情報を、特定の実現においてはユ
ーザへアクセスすることができる入力されたデータスト
ラクチュアへ置く。
【0024】学習プロセスへの入力としてのフレキシブ
ルに定義された制限されない形式のトランスクリプショ
ンの使用は、特定のトランスクリプションを明示的に準
備すること又は文字ラベルを特定のグリフサンプルへ明
示的に割り当てることをユーザに要求せずに、テンプレ
ート学習で使用されるグリフサンプルのラベルリングに
対して明示的コントロールを実行する機会をユーザに提
供する。学習技術は、最終的に正確な文字ラベルが特定
のグリフサンプルへ割り当てられるようにリテラル・ト
ランスクリプションをユーザが準備するのを可能にする
ように実現されてもよいが、この技術は、文字ラベルを
グリフサンプルへマップするために形式的2D画像モデ
ルによって必要とされる情報を含む適切なトランスクリ
プションをユーザが簡単に選択できるようにもっと一般
的な方法で実現され得る。
【0025】既存の学習技術に対する本発明の学習技術
の他の重要な利点は、本発明が、従来のスーパバイズド
学習システムにおいて使用された1対1のシーケンスの
文字ラベルより広い範囲の学習用トランスクリプション
タイプの使用を提供することである。最も単純な形式に
おいて、このトランスクリプションは、各々が文字ラベ
ルを示し、各々が1対1のペアリングにおいて2D入力
画像内のグリフサンプルとそれぞれペアリングする、ト
ランスクリプションラベルのストリングであってもよ
い。トランスクリプションは、文書プロセッシング、フ
ォーマッティング又はワードプロセッシングのアプリケ
ーションのための文書の構造的ピースを識別するタグと
して知られるマークアップ(markup)情報を含むことも
でき、このタイプのトランスクリプションは本明細書中
において「タグ・トランスクリプション」と呼ばれる。
【0026】
【課題を解決するための手段】従って、本発明によれ
ば、複数の文字テンプレートを学習するためのマシン動
作方法が提供されている。この方法によって動作される
マシンは、命令データを含むデータを記憶するメモリデ
バイスと、前記メモリ内に記憶されたデータへアクセス
すると共に前記マシンを動作するための命令を実行する
ために連結されたプロセッサと、を有する。
【0027】本発明の学習技術の重要な利点は、文字画
像の境界ボックスの識別に加えて又はその代わりに文字
画像の起点位置の識別を必要とする文字形状の記述又は
位置決めのサイドベアリングモデルのようなテンプレー
トモデルによって定義される文字テンプレートの学習へ
の学習技術の特定アプリケーションである。サイドベア
リング文字テンプレートモデルに基づいた学習文字テン
プレートは、2D画像内で生じるグリフサンプルの画像
の起点位置を知るだけで効果的に達成されるので、特定
の文字テンプレート内に含まれようとするピクセルを識
別するためにグリフサンプルの周辺に境界ボックスを決
定することに頼る必要がない。従って、本発明の学習技
術の一つの実現は2段階プロセスである。第1のステッ
プは形式的2次元モデルとトランスクリプションを使用
して、2D画像内のグリフサンプルの画像起点位置を識
別し且つこのグリフサンプル画像起点位置へ文字ラベル
を割り当てる。この実現は、グリフサンプルが2次元入
力画像内に発生する場所に関する情報を事前に持たずに
グリフサンプルの画像起点位置を決定する。
【0028】この実現の第2のステップにおいて、第1
のステップの出力であるラベル付けされたグリフの起点
位置が、次に、学習されたテンプレートを生成する新し
いテンプレート構成プロセスへ入力される。2値文字テ
ンプレートを学習する既存の学習システムにおいて、境
界ボックスの使用によるグリフサンプルのセグメンテー
ションは、一般に、周知のピクセル平均化プロセスを用
いて、複数の文字の分離サンプルから相対的に判りやす
い文字テンプレートの決定を許容する。本発明の学習技
術においては、グリフサンプルのグリフ起点位置を決定
するだけでよく、グリフサンプル周辺の境界ボックスを
決定することによって2D入力画像内のグリフサンプル
のセグメンテーションを実行する必要がないのである。
従って、グリフサンプル境界を知ることに依存する既存
のビットマップ平均化技術を使用することができない。
本発明の技術は、グリフセグメンテーションの関数的結
果をビットマップされたテンプレートの実際の構成と本
質的に結合させる、新しいテンプレート構成技術を用い
てグリフサンプルの画像起点位置だけに関する情報から
2値文字テンプレートを生成する技術である。この技術
において、2値文字テンプレートを記憶するのに適した
縦及び横の寸法を有するテンプレート画像領域と呼ばれ
るテンプレートピクセル位置のアレイが、学習される各
文字テンプレートごとに生成され、各文字テンプレート
に対するグリフサンプルの内の一つを各々が含む2D入
力画像内のサンプル画像領域を文字テンプレート毎に決
定するように使用される。テンプレート画像領域は、テ
ンプレート起点位置として指定されたテンプレートピク
セル位置を有し、グリフサンプルを含む2D入力画像内
のサンプル画像領域はテンプレート画像領域の局所座標
システムに相対して決定され、これにより、グリフサン
プルの画像起点位置が、当該テンプレート画像領域内の
テンプレート起点位置のピクセル位置と同じ相対的ピク
セル位置をサンプル画像領域内に有することになる。グ
リフサンプル文字セット内の文字の内のそれぞれ同じ文
字を示すサンプル画像領域の全てはサンプル画像領域の
集合と呼ばれる。この集合の中の各サンプル画像領域
は、全ての他のサンプル画像領域に位置合わせされ、画
像起点位置においては、その文字のためのテンプレート
に位置合わせされる。2値文字テンプレートは、前景ピ
クセルカラー値をテンプレート画像領域の内の選択され
た領域内のテンプレートピクセル位置へ割り当てること
により文字テンプレート毎に位置合わせされたサンプル
画像領域の集合から略同時期に生成され、このテンプレ
ート画像領域の内の選択された領域は、サンプル画像領
域に含まれたそれぞれペアの位置合わせされたサンプル
ピクセル位置を用いて演算されたテンプレート補助測定
を基本にして選択される。
【0029】本発明の学習技術が、文字位置決めのため
の文字画像起点位置を使用する文字テンプレートモデル
によって記述された学習文字テンプレートに用いられる
時、本発明の学習技術から得られる幾つかの利点及び利
益がある。グリフの2D入力画像ソースに関する「事
前」情報を提供する明示的な形式的2D画像モデルは、
グリフサンプルのグリフ画像起点位置を検出するプロセ
スにおいて入力画像内のノイズによる妨害を最小とす
る。更に、テンプレート構成前のセグメンテーション・
ステップ除去により、ノイズのある画像でセグメンテー
ションを実行する時に導入されるセグメンテーション・
エラーを除去し、多様な品質の既存テキスト文書の画像
がグリフサンプルのソースとして使用されるのを可能に
する。ノイズのある画像内で発生する振れたり、途切れ
たり、併合されるグリフサンプル、又は文字画像が連結
されるように設計されたフォント内で自然発生する併合
されたグリフサンプルを巧妙に処理する。このテンプレ
ート連結プロセスは、2D入力画像のテキスト内で発生
する複数のグリフサンプルを使用すると共にこれらのテ
ンプレートを略同時期に生成するので、当該画像内のノ
イズから得られる一つ又は二つの振れたり途切れたり併
合されるサンプル内で発生する無縁又は紛失ピクセル
は、これらの低品質サンプルが他のノイズなしの高品質
サンプルによって処理される時に、学習された文字サン
プルの品質に殆ど影響を与えない。更に、この新しいテ
ンプレート構成方法はグリフサンプル毎に実際の境界ボ
ックスを見つけることを必要としないので、容易にセグ
メント化されない潜在的により広い範囲のシンボルセッ
ト、アルファベット、及び文字フォントが本発明の学習
技術によって供給されることができ、本発明の学習技術
はまた、既存テキスト文書の広範囲な画像がグリフサン
プルのソースとして使用されるのも可能にする。
【0030】本発明の学習技術の一つの実現において、
学習のためのグリフサンプルのソースとして作用され得
る使用可能な画像のセットのストラクチュアを記述する
形式的2D画像モデルが、ペアのノード同士の間の一続
きのノードと遷移を含む有限状態遷移ネットワークの形
式を有するマルコフ(Markov) ソースとして示される。
文字テンプレート、メッセージストリング、遷移確率、
及びベクトル変位を含む遷移データアイテムがネットワ
ーク内の各遷移に対応付けられる。グリフサンプルに割
り当てられようとする文字ラベルに関する情報が導入さ
れ得るトランスクリプションのセットは有限状態遷移ネ
ットワークとしても示され、この有限状態遷移ネットワ
ークにおいて、各遷移は、代替トランスクリプションに
対して使用可能なトランスクリプション・ラベルに対応
付けられる。形式的2D画像モデルがトランスクリプシ
ョンの入力セットと共に使用可能な入力画像の相対的に
小さなセットを記述するために、一つ以上のトランスク
リプション・ラベルが、形式的2D画像モデルにおける
遷移に対応したメッセージ・ストリングに関連してい
る。この学習技術は、トランスクリプションのセットに
よって制約された時、2D画像モデルを介して最良の経
路を提供する遷移のセットを見つけるために形式的2D
画像モデルを使用する。各グリフサンプルの画像起点位
置は、このサンプルに対するそれぞれの文字ラベルと一
緒に最良の経路を形成する遷移のシーケンスから識別さ
れ、次いでこのラベル付けされたグリフ画像起点位置デ
ータは上記の新しいテンプレート構成プロセスへの入力
として使用される。
【0031】本発明の態様は、認識システムに使用する
ための文字テンプレートのセットを学習するマシンを動
作する方法であって、前記マシンが、プロセッサとデー
タを記憶するメモリデバイスとを含み、前記メモリデバ
イス内に記憶されたデータが、前記マシンを動作するた
めに前記プロセッサが実行する命令データを含み、前記
プロセッサが、前記メモリデバイス内に記憶されたデー
タにアクセスするために前記メモリデバイスに連結され
ており、前記プロセッサを動作して、以下「グリフサン
プルの2D画像ソース」と呼ばれる複数のグリフサンプ
ルを含む2次元画像を定義する画像定義データストラク
チュア内に発生する各グリフサンプルのグリフサンプル
ピクセル位置を決定するステップであって、前記グリフ
サンプルの2D画像ソースがグリフの単一ラインより大
きな縦寸法を有し、前記グリフサンプルの2D画像ソー
ス内に含まれる各グリフサンプルが以下「グリフサンプ
ル文字セット」と呼ばれる複数の文字セット内の文字の
それぞれの画像インスタンスであり、学習される文字テ
ンプレートのセットの各々が前記複数のグリフサンプル
文字セット内の文字のそれぞれを示すと共に前記グリフ
サンプル文字セット内のそれぞれの文字を示す文字ラベ
ルデータアイテムにより識別され、前記プロセッサが、
前記各グリフサンプルのグリフサンプルピクセル位置を
決定する時、前記マシンの前記メモリデバイス内に記憶
された、以下「2D画像ソースモデル」と呼ばれる2次
元画像ソースモデル・データストラクチュアを使用し、
前記2D画像ソースモデルが、2次元(2D)画像のセ
ットの空間的画像ストラクチュアを文法としてモデリン
グし、前記グリフサンプルの2D画像ソースが、前記2
D画像ソースモデルによってモデリングされた2D画像
のセットの内の一つであり、前記2D画像ソースモデル
が、前記グリフサンプルの2D画像ソース内で発生する
複数のグリフの空間的位置決めをモデリングする空間的
位置決めデータを含み、前記プロセッサが、前記各グリ
フサンプルのグリフサンプルピクセル位置を決定するた
めに前記空間的位置決めデータを使用する、ステップを
有し、前記プロセッサを動作して、前記グリフサンプル
の2D画像ソース内で発生する前記各グリフサンプルの
グリフサンプルピクセル位置とペアリングされた以下
「それぞれペアリングされたグリフラベル」と呼ばれる
グリフラベルデータアイテムを生成するステップであっ
て、前記それぞれペアリングされたグリフラベルが前記
グリフサンプル文字セット内の文字のそれぞれを示し、
前記プロセッサが、前記それぞれペアリングされたグリ
フラベルを生成する時、前記グリフサンプルの2D画像
ソース内で発生するグリフのそれぞれを前記グリフサン
プル文字セット内の文字を示すグリフラベルとマッピン
グする前記2D画像ソースモデル内に含まれたマッピン
グデータを使用し、前記プロセッサが、前記それぞれペ
アリングされたグリフラベルを生成する時更に、前記グ
リフサンプルの2D画像ソースに対応し且つ以下「トラ
ンスクリプション・ラベル」と呼ばれるトランスクリプ
ションラベル・データアイテムの順序付き配列を含む、
以下「トランスクリプション」と呼ばれるトランスクリ
プション・データストラクチュアを使用し、前記プロセ
ッサが、グリフラベルを前記各グリフサンプルのグリフ
サンプルピクセル位置とペアリングするために前記トラ
ンスクリプション及び前記マッピングデータを使用す
る、ステップを有し、前記プロセッサを動作して、前記
それぞれペアリングされたグリフラベルによって識別さ
れた前記グリフサンプルの2D画像ソース内で発生する
前記グリフサンプルのグリフサンプルピクセル位置を用
いて前記グリフサンプル文字セット内の文字のそれぞれ
を示す文字テンプレートのセットを生成するステップで
あって、各それぞれがペアリングされたグリフラベル
が、前記文字テンプレートの各々に対する学習データサ
ンプルとしてグリフサンプルピクセル位置を識別する、
ステップと、を備える文字テンプレート学習マシン動作
方法である。
【0032】
【発明の実施の形態】本明細書中においては、用語「デ
ータ」又は「データアイテム」は、情報を示す又は情報
を含む物理的信号を称する。第2のデータアイテムが第
1のデータアイテムから得られる時、第1のデータアイ
テムを用いて第2のデータアイテムにアクセスできる
時、第1のデータアイテムを復号することにより第2の
データアイテムが得られる時、又は第1のデータアイテ
ムが第2のデータアイテムの識別子であり得る時、デー
タの第1のアイテムは、第2のデータアイテムを「示す
(indicate)」。例えば、図3の有向矢印36は、文字
テンプレートデータストラクチュア20内の文字ラベル
データアイテム28が文字”a”の画像を描く文字テン
プレート22を示すことを図示している。データアイテ
ムが、各々が識別可能なアイテムの内の多くとも一つと
マップされ得るデータアイテムのセットの内の一つであ
る場合、当該データアイテムは、識別可能なアイテムの
セットの内の一つを「識別する」か又は当該識別可能な
アイテムのセットの内の一つの「識別子」になる。例え
ば、図3において、文字ラベルデータアイテム28は、
文字テンプレート22を識別するように命令されてもよ
い。
【0033】画像を定義するデータは、「画像定義デー
タ」と呼ばれてもよい。例えば、二次元(2D)アレイ
は、このアレイ内の各データアイテムが画像の各位置の
カラーを示す値を付与することで、画像の全て又は画像
のいかなる部分をも定義することができる。このタイプ
の画像表示(representation)において、このような画
像位置の各々は、従来、「画像素子」又は「ピクセル」
と呼ばれ、画像の小さな固有領域を示す。一般に、ブラ
ック&ホワイト(白黒)の2値画像においてピクセルの
値は黒又は白を示し、黒は前景カラーであり且つ画像内
のそれぞれのマーク又はアクティブ位置を示すように意
図されると共に、白は背景カラーである。黒は前景ピク
セルカラーとして使用される一般的なカラーなので、本
明細書中の説明を通しては、明示的に表記される場合を
除いて、黒ピクセルと前景カラーに関する言及は置換可
能に使用される。ピクセルを定義するデータアイテムの
2Dアレイによって示されるプロセッサ制御システムに
おける画像は、「ビットマップ画像」又は「2値画像」
と呼ばれる。
【0034】用語「ディスプレイ特性」は、ディスプレ
イ装置によって生成されるあらゆる人間の知覚を称し、
単一ディスプレイ特性を含み、画像内のディスプレイ特
性のパターンを共に形成する複数のディスプレイ特性を
含んでいてもよい。「ディスプレイ・オブジェクト」又
は「オブジェクト」は、可干渉性(コヒーレントな)単
一物として知覚可能なディスプレイ特性である。画像
は、この画像の提示(presentation)が特徴又はオブジ
ェクトの知覚を生成することができる場合、ディスプレ
イ特徴又はオブジェクトを「含む」。
【0035】本明細書中において使用される「文字(ch
aracter )」は、単一で、ディスクリート(離散的)
な、抽象的な、エレメント又はシンボルを意味する。例
えば、文字は、書き込み又はプリント形式の言語で出現
する抽象的なシンボルを含むことができる。言語におけ
る文字は、アルファベットや数を示すエレメントだけで
なく、句読点、区分発音符、等式のような数学的表記に
使用される数学的且つ論理学的シンボル、及び書き込み
又はプリント形式の言語に使用される他のエレメントも
含むことができる。より一般的には、文字は、英数字の
エレメントの他に、表音文字、表意文字、又は象形文字
のエレメントを含むことができる。例えば、象形文字言
語におけるシンボルと音楽記号を示すシンボルとが、用
語「文字」に含まれる。特定の言語、又は音楽のような
他のシンボル表記に関連する文字の全てが、「文字セッ
ト」を備える。
【0036】「文字コード」は、プロセッサに対して文
字(抽象的シンボル)を定義する又は示すプロセッサ制
御マシン又はシステムにおけるデータアイテムである。
言語に属する文字セットのような文字セットの符号化
は、当該セット内の文字毎にそれぞれの文字コードを含
む文字コードのセットの定義を必要とする。文字コード
のセットの例は、英語の言語(以下、英語と呼ぶ)を構
成するシンボルに対するアスキー(ASCII)コードのセッ
トである。
【0037】「グリフ(glyph )」は、例えば、用紙又
はディスプレイスクリーンのようなマーキング媒体へ画
像として実現される文字の、単一インスタンス又は例で
ある。文字の画像が印字、走査、複写、又はファクスさ
れる時、当該文字の画像がどのように生成されるかにつ
いて種々のファクタが影響を与え得るので、テキスト画
像内の文字の一つのグリフが、当該テキスト画像内の同
じ文字の他のグリフと一致しないこともある。
【0038】用語「複数のグリフの入力された2D画像
ソースを定義する画像定義データ」(以下、「グリフサ
ンプルの2D画像ソース」、「2D画像データストラク
チュア」又は単に「2D画像」と称する)は、プロセッ
サ制御マシンのメモリデバイス内への記憶に適したデー
タストラクチュアを称する。データストラクチュアは、
文字の複数のビットマップ表示が画像により定義される
2D空間内に発生する2D画像を定義する。この2D画
像データストラクチュアの構成は、個々のピクセル位置
がプロセッサによってアクセスできるようにされている
が、個々のグリフを備えるピクセルはプロセッサへアク
セスできるデータのユニットとして初めは識別されない
し、また、2D画像内の特定のx,y座標位置がグリフ
内に含まれたピクセルの内の一つを示すか否かについて
の情報もプロセッサは初めは入手できない。グリフサン
プルの2D画像ソースは、本発明に従って文字テンプレ
ートを学習するために使用されるグリフサンプルの入力
されたソースである。2D画像は概念的には文書のペー
ジに類似しており、グリフを2D空間に縦そして横に分
散させることで、実際の物理的ページの画像を頻繁に示
す。2D画像はグリフを含むだけに限定されない。従っ
て、グラフィカル・オブジェクト若しくは形状、絵、ハ
ーフトーン(中間調)画像、線画、写真、他の絵画的エ
レメント、又はノイズを構成する画像のような他の画像
オブジェクトが、グリフの入力された2D画像ソース内
に含まれてもよい。
【0039】図2は、英語から成る文字セット内の文字
のビットマップ表示を含む2D画像データストラクチュ
ア10を示す。図2において、2D画像10内の英字
(英語の文字)の各ディスクリートな表示は、グリフで
ある。グリフ12及び14は、これらのグリフのそれぞ
れの画像を構成する個々のピクセルの概略的な表示を示
すように拡大されている。図2における2D画像10
は、新聞の記事を走査することによって生成された2値
画像を示すデータストラクチュアの部分を示すと共に、
この2D画像内に含まれたラインセグメント16、ノン
グリフ(nonglyph))を備えるピクセルを含む。
【0040】「テンプレート」又は「文字テンプレー
ト」は、文字のビットマップされた画像を示すデータス
トラクチュアである。ビットマップされた文字テンプレ
ートの「サポート」は、テンプレートが背景とは異なる
ピクセル位置のセットである。「文字ラベル」は、文字
セット内の文字の一つを文字のビットマップされた画像
を示すそれぞれの文字テンプレートを用いて固有に識別
する情報を示すデータアイテムである。文字ラベルは、
テンプレートを識別するためにASCII コードのような文
字コードを示してもよいし、又は文字セット内の文字の
特定の一つのビットマップされた画像を示すテンプレー
トとして当該テンプレートを固有に識別する、フォント
識別情報、サイズ情報、又はタイプスタイル情報のよう
な他の情報を示すこともある。「ラベル付けされた文字
テンプレートのセット」又は「文字テンプレートのセッ
ト」は、少なくとも一つの文字テンプレートと、文字テ
ンプレートを固有に識別するそれぞれの文字ラベルと、
を含むデータストラクチュアである。
【0041】図3は、英語の文字セット内の文字を示す
ラベル付けされた文字テンプレートのセット20を示
す。文字テンプレート・データストラクチュア22、2
4、及び26は、文字テンプレート22から文字ラベル
28への例示した有向矢印34によって示されているよ
うに、文字ラベルデータアイテム28、30、及び32
をそれぞれ示す。文字ラベルデータアイテム28、3
0、及び32の各々における識別情報は引用符に囲まれ
た文字として図示されている。この表示は、文字の画像
を示すピクセルと区別されるようにプロセッサ制御マシ
ンのデータメモリ内に記憶されるそれぞれの文字コード
を示すために本明細書の図中に使用されている。
【0042】完全な文字を示すピクセルの明示的2Dア
レイに対して任意の方法で文字テンプレートを示すデー
タストラクチュアは、図3の文字テンプレートの図に限
定されない。テンプレートは、縦のストローク、接合部
(ジョイン)、アセンダ、ディセンダ、及びカーブ部の
ようなビットマップされた文字の構成部分の連結から構
成されてもよい。テンプレートは、(明示的2Dアレイ
の)出力としての完全な文字を示すピクセルの明示的2
Dアレイを生成する形式的モデルによって示されてもよ
い。
【0043】本明細書中に使用されているように、「ト
ランスクリプション・データストラクチュア」又は「ト
ランスクリプション」は、固有のメッセージストリング
Mを示すデータストラクチュアである。メッセージスト
リングMは、各々が複数の文字セット内の文字の内の少
なくとも一つを示す、複数のメッセージサブストリン
グ、m1 、m2 、...mn を含む。各ストリングmi
は、「トランスクリプション・ラベル・データアイテ
ム」として又は単に「トランスクリプション・ラベル」
として呼ばれる。形式的2D画像が、トランスクリプシ
ョン内の文字によって示される情報と共に、グリフの入
力された2D画像ソース内の一つ以上のグリフサンプル
と、学習される文字テンプレートのセット内の文字テン
プレートを示す一つ以上の文字ラベルと、の間でマッピ
ングを設定する時、当該トランスクリプションは、(以
下に定義される)形式的2D画像ソースモデルに「対応
付けられる」といわれる。用語「マッピング」は、第1
のセットの各メンバを第2のセットの単一メンバと対応
させる二つのセット間で設定される対応のルールを称す
るため、本明細書中では数学的意味で用いられている。
トランスクリプションが、トランスクリプションラベル
の順序がトランスクリプションタイプの定義により明示
的に示されたタイプのトランスクリプションでない場
合、トランスクリプションラベルは、対応付けられる2
D画像において、互いに、又はグリフサンプルに対し
て、含意又は推論される順序を持たない。
【0044】トランスクリプションは、トランスクリプ
ション・データストラクチュアが以下の二つの条件の内
の一つを満たした時、グリフの特定の入力された2D画
像ソースに「対応付けられる」といわれる。 (1)トランスクリプション・データストラクチュア
が、入力された2D画像上で実行される認識動作の出力
から生成される又は生成されることができる。認識動作
は、特定の2D画像上で実行されるコンピュータによる
認識又は復号動作のようなプロセッサ制御であってもよ
い。或いは、認識動作はプロセッサ制御マシンを用いて
ユーザによって実行されてもよい。例えば、ユーザは、
2D画像を目視検査することによって、及び文字コード
を示す信号を生成するキーボードのような従来の入力デ
バイスを用いて文字コードを入力することによって、ト
ランスクリプション・データストラクチュアを生成して
もよい。 (2)トランスクリプション・データストラクチュア
は、2D画像を生成する文書フォーマッティング動作の
ような画像レンダリング動作への入力ソースであるデー
タストラクチュアから生成される又は生成されることが
できる。トランスクリプションが対応付けられる入力さ
れた2D画像は、「対応付けられる2D画像」と呼ばれ
る。
【0045】「リテラル・トランスクリプション」はト
ランスクリプション・ラベルの順序付きシーケンスを含
む。これらのトランスクリプション・ラベルの各々は、
学習されるテンプレートのセット内の文字テンプレート
に対して文字ラベルを示す。これらのトランスクリプシ
ョン・ラベルの略全ては、トランスクリプション内でシ
ーケンシャルな発生順で取り込まれて、対応付けられる
入力された2D画像の目視検査によって、対応付けられ
る画像内で発生するそれぞれの個別のグリフとペアリン
グされることができ、当該対応付けられる画像は、グリ
フが対応付けられる2D画像の読み取り順に合わせたシ
ーケンスで取り込まれる時にトランスクリプション内の
それぞれの文字ラベルによって示された文字を示す。図
4は、グリフ10(図2)の2D画像ソースに対応付け
られると共に、トランスクリプション・ラベルの単一順
序付きシーケンスを含むリテラル・トランスクリプショ
ン60を示す。復帰改行文字62は、この復帰改行文字
の後に続く文字ラベルが対応2D画像の次行に位置決め
されるペアリングされたグリフサンプルを有することを
示すラベルである。復帰改行文字は、一般にテキストエ
ディタを用いてテキスト文書を準備するユーザにより、
テキストを示すデータストラクチュアへ挿入される。
【0046】「ノンリテラル・トランスクリプション」
は、リテラル・トランスクリプションではないグリフの
入力された2D画像ソースに対応付けられるトランスク
リプションのタイプである。ノンリテラル・トランスク
リプションは、例えば、エラーではないと共に目視検査
によって対応付けられる2D画像内のグリフとペアリン
グされることができない文字を示すトランスクリプショ
ン・ラベルを含んでいてもよい。非文字ラベルデータ
は、学習されるテンプレートによって示される文字セッ
ト以外の文字セット内の文字を示すことができる。例え
ば、対応付けられる入力された2D画像内のグリフとし
て出現する特別の文字、数学的シンボル、又は音楽記号
が、拡張された文字セット内の文字として又は一つ以上
のASCII 文字のストリングとして、トランスクリプショ
ンラベル内に示されてもよい。ノンリテラル・トランス
クリプションは、対応付けられる2D画像内の幾つかの
グリフに対するトランスクリプション・ラベルを意図的
に省略できる。このタイプのトランスクリプションの例
は、事前プリント形式の2D画像と対応付けられる例で
あり、この例において、トランスクリプションは、この
形式のフィールドへ挿入される情報に対するトランスク
リプション・ラベルは含むが、命令情報を提供するグラ
フィック・エレメント及びグリフのような、この形式上
の事前情報として出現するものに対するトランスクリプ
ション・ラベルは省略する。
【0047】「タグ・トランスクリプション」は、非文
字ラベルデータが「タグ」又は「タグデータ」と呼ばれ
る情報を示すグリフの対応付けられる2D画像ソースの
ノンリテラル・トランスクリプションのタイプである。
この「タグ」又は「タグデータ」と呼ばれる情報は、文
書プロセッシング動作によって変換されると、対応付け
られる2D画像のフォーマットにおいて、又は当該対応
付けられる2D画像内のグリフの一部として、知覚可能
なディスプレイ特徴を生成する。タグデータは、ペー
ジ、段落、及び区切れの箇所(line breaks )のような
2D画像のフォーマット特性とこの2D画像内のグリフ
の位置の決定論的な行間隔とを識別する情報、グリフが
出現するフォント又はフォントバリエーションのような
一つ以上のグリフの一つ以上の外観属性を指定する情
報、又は文書がフォーマットされる時にトランスクリプ
ション内の明示的トランスクリプションラベルが全くマ
ップされることができない2D画像内のグリフを生成す
る結果を生じる情報、を含む。タグによって示され得る
種々のタイプの情報は、本明細書中では、一般に、「マ
ークアップ情報」と呼ばれる。タグデータは、一般に、
文書プロセッシングシステム同士の間で文書ストラクチ
ュア及び内容を示すための標準文書交換フォーマットと
して作用するように意図されたデータストラクチュア内
で発生する。このようなデータストラクチュアは、入力
文書データストラクチュア又は入力画像のいずれかを標
準交換言語で文書を示すデータストラクチュアへ変換す
る動作の出力として一般に生成される。このような言語
の例は、SGML(Standard Generalized Markup Languag
e)、ODA (Office Document Architecture)、HTML(H
ypertext Markup Language )を含む。タグデータはデ
ータストラクチュアにおいて発生し、当該データストラ
クチュアは、マークアップ言語を使って生成された文書
データストラクチュア内で発見される文書のフォーマッ
ト及び論理的ストラクチュアのための命令をデータスト
ラクチュア内に含む自動テキスト・レイアウトシステム
とも呼ばれる文書指定及びフォーマッティングシステム
によって使用又は生成される。このような文書指定及び
フォーマッティングシステムの例は、GML(Generalized
Markup Language)、TeX 及びLaTeX を含む。
【0048】図5は、テクニカル・ディクショナリのデ
ィクショナリ・ページのためのタグ・トランスクリプシ
ョン・データストラクチュア40を示す。タグ・トラン
スクリプション40は、図6の2D画像50として示さ
れたディクショナリ・ページの画像と対応付けられる。
タグ・トランスクリプション40は、ディクショナリ・
エントリのエントリ、ネーム、カテゴリ、及びボディそ
れぞれの構造的部分を識別するタグ・データを示すトラ
ンスクリプション・ラベル42、44、46、及び48
を含む。
【0049】図5及び図6は、トランスクリプション内
の明示的トランスクリプション・ラベルは、2D画像内
のグリフとマップされることができない当該2D画像内
のグリフが結果的に発生されるタグ・データの例を示し
ている。画像50は、文字"electr"を描くグリフのシー
ケンスの回りに左右の括弧54及び55をそれぞれ含
む。タグ・トランスクリプション40は左右の括弧54
及び55に対するトランスクリプション・ラベルを含ま
ないが、メッセージ・サブストリング"electr"がワード
エントリのためのカテゴリ情報であることを示すトラン
スクリプション・ラベル47を含むことが理解され得
る。文書プロセッシング動作によってフォーマッティン
グ情報として解釈される時、メッセージ・サブストリン
グ" \category" は、画像50内のディスプレイ・オブ
ジェクトとして左右の括弧54及び55を生成したと推
論される。
【0050】「トランスクリプションのセット」は同じ
タイプの少なくとも二つのトランスクリプションを称
し、これらのトランスクリプションの全てが単一2D画
像に対応付けられる。数学的にトランスクリプション・
データストラクチュアのセットは正規セットであるとみ
なされる。図7は、グリフ10の入力された2D画像ソ
ースにおいて"from"を示すグリフに対して"F(r|n)(om
|orn)" の代替トランスクリプション・ラベル72を提
供して、画像10に対して4つのトランスクリプション
・データストラクチュア70のセットを生成する、単一
トランスクリプション・メッセージの直截的ケースを示
す。
【0051】「形式的トランスクリプション・モデル」
又は「トランスクリプション・モデル」は、トランスク
リプションのメッセージストリングを、有限状態遷移ネ
ットワーク又は文法のような正規セットとして示すデー
タストラクチュアである。例えば、有限状態遷移ネット
ワークは、各遷移がトランスクリプション内のトランス
クリプション・ラベルに対応付けられる多数の遷移を有
している。
【0052】トランスクリプションのセットは、形式的
トランスクリプションモデルとして示されてもよい。図
8におけるモデル800は、図7におけるトランスクリ
プション70のセットのための有限状態遷移ネットワー
クの例を図示し、トランスクリプション70内のワー
ド"From"に対して発生する遷移を示す。
【0053】「形式的2次元画像ソースモデル」又は
「形式的2D画像モデル」は、2D画像内のグリフサン
プルのグリフ位置とそれぞれの文字ラベルによって示さ
れる文字のサンプルとしてグリフを識別するテンプレー
トの文字ラベルとの間でマッピングを定義するデータス
トラクチュアである。形式的2D画像モデルは、本明細
書中の学習技術及びシステムへの明示的入力であり、且
つ形式的文法又は有限状態遷移ネットワークのような形
式的記述言語の形態における命令を含み、これらの命令
は、認識システムが定義される使用可能な2D入力画像
のセットとこの使用可能な画像のセットに対応する使用
可能なトランスクリプションのセットに関して、構造的
特徴及び関数的特性を含む「事前」情報を特徴とするか
又は記述する。形式的2D画像は、学習されようとする
テンプレートをモデリングする文字テンプレートモデル
を記述すると共に、文字テンプレートの初期セットを含
む。形式的2D画像モデルは、それを使用するパーザの
命令(即ち、コード)とは無関係の明示的データストラ
クチュアとして存在する文法ベースの文字ストリング解
析システムにおける形式的文法に類似している。
【0054】テキストライン分離又は個別のグリフ分割
の事前学習ステップを全く必要としないように、形式的
2D画像モデルは、本発明が2D画像の定義域内で動作
するのを可能とする。構造的には、本発明の学習技術及
びシステムに使用するのに適したモデルのタイプである
ように意図された形式的2D画像モデルが、使用可能な
2D画像のセット内に含まれる画像内の使用可能な画像
オブジェクト(例:グリフ、グラフィカル・オブジェク
ト、写真、他)が2D画像内でいかにして空間配列され
るかについての画像位置情報を定義する。頻繁である
が、必ずしもそうとは限らずに、画像が英語の文書を示
す時、モデルによって定義されるグリフ位置情報は、こ
の文書が人間によって読み取られる時の当該文書に対す
る従来の読取り順と一貫性がある。下記の図示された実
施の形態において、図2におけるグリフ10の入力され
た2D画像ソースを含む画像は矩形であり、xが右へ大
きくなり、yが下へ大きくなり、且つ上部左コーナーが
x=y=0である画像座標システム13(図2)を有し
ていると仮定される。ノングリフ画像オブジェクトに対
する画像位置情報のモデルの記述は、所与の入力された
画像の部分又は複数の部分がグリフサンプルの使用可能
な画像位置として除去されるのを許容する。モデルのこ
の態様が広範囲の入力された2D画像がグリフサンプル
ソースとして適用されるのを許容し、当該モデルは、例
えば、プリントされた楽譜の画像、式の画像、及びビジ
ネスレター、記入用紙、電話の職業別ページのような固
定又は公知の構造的特徴を有する画像、を含む入力され
た多数の2D画像のクラスのどれか一つを記述するよう
に構成されてもよい。
【0055】形式的2D画像モデルは、トランスクリプ
ション内のメッセージサブストリングによって示される
情報と、2D画像内に現れる文字ラベル及び画像内にサ
ブストリング毎に現れるサブストリングの外観に関する
実際のメッセージサブストリングと、のマッピングを定
義するルールのセットとして、トランスクリプションラ
ベル情報を表現する。このマッピングは、使用可能な2
D画像のセットと使用可能なトランスクリプションのセ
ットと文字テンプレートのセットとの間でマッピングを
効果的に設定し、学習技術が使用可能な2D入力画像の
内のどれか一つ、即ち、テキストストリングのラインの
どのシーケンスにおける文字のどのシーケンスが、特定
のトランスクリプションに対応付けられる特定の2D入
力画像に最良整合するかを決定するのを可能にする。こ
の最良整合情報から、モデルは、学習技術が2D画像内
のグリフサンプルの位置を決定すると共に文字ラベルを
サンプルへ割り当てるのを可能にする。学習技術によっ
て決定されなければならいグリフサンプルに関する特定
位置情報は、文字テンプレートを定義する特定テンプレ
ートモデルの関数である。テンプレートモデルは、文字
テンプレートに従ってグリフサンプルがいかにして画像
内で互いに対して空間配列されるか又は位置決めされる
かを定義する。テンプレートがセグメンテーションベー
スモデルとして定義された場合、学習技術は当該形式的
モデルによって設定されたマッピングからグリフ境界ボ
ックスを示す情報を生成することが可能でなければなら
ない。テンプレートがサイドベアリングモデルのような
ノンセグメンテーションベースモデルとして定義される
場合、学習技術は当該形式的モデルによって設定された
マッピングからグリフ起点位置を示す情報を生成するこ
とが可能でなければならない。
【0056】学習手順への入力として使用されようとす
る形式的2D画像モデルの設計は、使用されようとする
トランスクリプションのタイプ及び内容によって影響を
受け、従って、学習データを学習手順へ提供する際によ
り一層のフレキシビリティをユーザへ許容する。トラン
スクリプションの構造的及び関数的特徴に関する形式的
2D画像モデル内に含まれる情報は、グリフサンプルと
文字ラベルの間で必要なマッピングを設定するために当
該モデルによって必要とされる情報のみであり、その情
報は、当該モデルによって定義される使用可能な画像の
セットから特定の画像を指定するために当該モデルによ
って必要とされる追加の情報でもある。トランスクリプ
ション内の情報が、グリフの対応付けられる入力された
2D画像のリテラル・トランスクリプションからさらに
遠くへ取り除かれれば取り除かれる程、正確なマッピン
グを設定するために2D画像モデル内ではもっと多くの
情報が必要とされる。
【0057】本発明に使用されるように意図されると共
に下記の図解されている実施の形態に使用されるタイプ
の、形式的2D画像ソースモデルの実現の例は確率論的
有限状態遷移ネットワークであり、当該ネットワーク
は、正規文法としてのその生成ルールを示し、文字形状
の記述及び位置決めのサイドベアリングモデルをその文
字テンプレートモデルとして明示的に定義する。マルコ
フソースとしてのこのモデルの簡略化された一般的な説
明が、図9においてモデル820として略示され、本発
明の特定の実現の説明において以下により詳細に記述さ
れている。
【0058】図10のブロック図に示された本発明の文
字テンプレート学習方法200は、全てが上記に定義さ
れたグリフサンプルの2D画像ソース10と形式的トラ
ンスクリプションモデル810と画像モデル40の入力
を備える。文字テンプレート学習方法200は、文字テ
ンプレートのセット及び特定の文字セット用のこれらの
テンプレートのそれぞれの文字ラベルデータアイテムを
含む文字テンプレートデータストラクチュア20を生成
するためにこれらの入力されたデータのソースを使用す
る。
【0059】本発明は、グリフサンプルの2D画像ソー
スが、一般に、特定のフォントにおいて文字セット内の
固有文字の複数のサンプル画像を含み、2D画像のx、
y座標の位置と各サンプルの文字識別を示す情報が知ら
れていた場合、これらのサンプルの特定のフォントにお
いて、2D画像内の各固有の文字毎に学習された文字テ
ンプレートが、各グリフサンプルを構成するピクセルの
セットのピクセルカラーから導入されることができる。
本発明は、2D画像に対応付けられるトランスクリプシ
ョンが、グリフサンプルのそれぞれのサンプルの文字を
識別するために使用されるかもしれない2D入力画像内
のグリフの各々に対して識別及びシーケンス情報を提供
することも認識する。本発明への入力として明示的に指
定された文法ベースの2D画像ソースモデルは、グリフ
サンプルを配置するためにグリフサンプルの2D画像ソ
ース内で発生するグリフに関する情報の空間的位置決め
を定義すると共に、2D画像内で発生するグリフのそれ
ぞれのグリフと、グリフサンプル文字セット内の文字を
示すグリフラベルの、マッピングを示すマッピングデー
タを定義する。
【0060】文字テンプレート学習方法200は、2D
画像10内にグリフが発生される文字に対してのみラベ
ル付けされた文字テンプレートを生成することが可能で
あると供に、文字テンプレートが学習される文字セット
の完成度は、文字セット内の文字毎に少なくとも一つの
グリフサンプルを有するグリフサンプルの2D画像ソー
ス10に依存する。例えば、英文字”j”、”q”、”
x”及び”z”は図2に示された2D画像10の部分に
現れないので、文字テンプレート学習方法200は、こ
の2D画像10の部分のみがグリフサンプルのソースと
して使用された時はこれらのテンプレートを生成しな
い。便宜上、文字テンプレートが学習されている文字セ
ットは以下「グリフサンプル文字セット」と呼ばれて、
グリフサンプルの2D画像ソース10内に発生するグリ
フサンプルへの依存度を示す。各学習されたテンプレー
トの品質は、一般に、このグリフサンプルの2D画像ソ
ース10内で使用可能なグリフサンプルの数に依存す
る。
【0061】図11に示された文字テンプレート学習方
法の汎用ステップ200は、ボックス220において、
文法ベースの2D画像ソースモデル40によって定義さ
れる空間位置決め情報を用いて2D画像10内の各グリ
フサンプルの位置を決定するステップを有すると供に、
ボックス250において、トランスクリプション70と
2D画像10内に発生するグリフサンプルの内の各々を
当該グリフサンプルによって示されるグリフサンプル文
字セット内の文字を示すグリフラベルへマップする2D
画像ソースモデル40によって定義されたマッピングデ
ータとを用いて2D画像10内の各グリフサンプルの位
置を決定するステップを有する。ステップ220及び2
50の結果は、文字テンプレートが生成されるかもしれ
ない学習データであるラベル付けされたグリフサンプル
のセットを示すデータストラクチュアを生成することで
ある。次いで、ボックス270において、文字テンプレ
ートはラベル付けされたグリフサンプルのセットを示す
データストラクチュアを用いて構成される。文字テンプ
レート学習方法200の特定の実現において、グリフサ
ンプルとこれらのラベルが同時期に決定されると供に、
ステップ220及び250における関数はステップ27
0へ入力される学習データを生成するために結合される
のがビューされる。この結合された関数が点線のボック
スでステップ220及び250を囲む手順210によっ
て図11に示されている。
【0062】ステップ220及び250によって生成さ
れる学習データを示す出力されたデータストラクチュア
の編成及び内容は、文字テンプレート学習方法200の
特定の実現の態様を反映する幾つかの相関ファクタによ
って決定される幾つかの形式の内の一つを取ってもよ
い。
【0063】学習されている文字テンプレートの文字テ
ンプレートモデルがサイドベアリングモデルである時、
手順210はラベル付けされたグリフサンプルを示す学
習データを生成しなければならない。当該ラベル付けさ
れたグリフサンプルの各々は、2D画像10内のグリフ
サンプルの画像起点位置を示すグリフサンプルの2D画
像ソース10内のx、y位置によって識別される。図2
1に伴う説明を手始めに詳細に記述される新しいテンプ
レートの構成技術は、ステップ270において、2D画
像10内のグリフサンプルの画像起点位置を示すラベル
付けされた画像起点位置のリストを用いて2D画像文字
テンプレートを構成するために使用される。
【0064】学習されている文字テンプレートの文字テ
ンプレートモデルがセグメンテーションベースモデルで
ある時、ステップ220は、2D画像10内のグリフサ
ンプル毎に境界ボックスを発見し、ラベル付けされた境
界ボックスの座標、又は2D画像10から抽出されたラ
ベル付けされた分離されたグリフサンプルのセットを学
習データとして生成する。任意の周知のピクセル平均化
及び閾値化技術が、ステップ270において、セグメン
ト化又は分離された学習データから2D画像文字テンプ
レートを生成するために使用される。一つのこのような
技術において、各サンプル内のピクセル位置毎の前景及
び背景の数が計算され、この数がサンプルの総数で割り
算され、平均値が前景又は背景の決定をもたらすかを評
価するために閾値が使用される。
【0065】図12に関して、米国特許第5,321,773 号
に開示されたものと同様の確率論的有限状態遷移ネット
ワークとして示される2D画像ソースモデル830及び
有限状態遷移ネットワーク850は、トランスクリプシ
ョン−画像ネットワーク870と呼ばれる併合された有
限状態ネットワークを生成するネットワーク併合プロセ
ス300への入力である。併合されたネットワークは、
当該併合されたネットワークを介して遷移の最良シーケ
ンス又は経路を生成するヴィタビ復号プロセス330を
用いてグリフサンプル10の2D画像ソースを復号する
ために使用される。文字テンプレート500の初期セッ
トは復号プロセス期間中使用される。点線矢印832
は、前述のように文字テンプレートがネットワーク83
0内の遷移上の属性であるかもしれないため、文字テン
プレートの初期セット500が有限状態遷移ネットワー
ク830の一部であることを示す。ヴィタビ復号プロセ
ス330によって生成されると、プロセス374は、ト
ランスクリプション−画像ネットワーク870を介して
最良の経路を構成する遷移とこれらの遷移の2D画像1
0内で対応付けられる画像の起点位置とを識別する。プ
ロセス380は、非ヌル(non-null)のテンプレート属
性を有する遷移から画像起点位置とメッセージストリン
グとを決定する。これらの画像起点位置は、2D画像1
0内のグリフの推定位置を示す。学習データ即ちラベル
付けされたグリフ画像起点位置390は、このシーケン
スのプロセスの出力である。
【0066】図13におけるフローチャートは、形式的
2D画像ソースモデルとして有限状態遷移ネットワーク
を使用すると共にトランスクリプションを示すため、ト
ランスクリプションネットワーク850を使用する図1
1の文字テンプレート学習の実現のステップを示す。復
号ステップ330は、トランスクリプション−画像ネッ
トワーク870を介して最良の経路を決定するためにテ
ンプレートの現在セットを使用する。復号の初期反復の
間、任意の内容を有する文字テンプレートの初期セット
はトランスクリプション−画像ネットワーク870内の
トランスクリプションと対応するためにプロセッサによ
って発生されてもよい。ボックス330、380、40
0、及び490における復号ステップ、学習データ抽出
ステップ、テンプレート構成ステップ、及び文字セット
幅決定ステップは、ボックス384においてテストされ
る停止条件が満たされるまで反復され続け、初期反復に
続く反復の間、復号ステップ330において使用される
テンプレートのセットが、テンプレート構成ステップ4
00の出力として生成されるテンプレートの現在セット
である。プロセス374と380として図12に示され
た、2D画像10を復号することによって生成された最
良の経路からの学習データ抽出は、図13において組み
合わされたプロセス380として示されている。プロセ
ス300、330、及び380は以下に詳細に説明され
る。
【0067】図9に関しては、画像のセットのストラク
チュアは、画像発生を画像ソースモデル820としてモ
デリングすることにより形式的に捕捉され、これもマル
コフソースと呼ばれる。マルコフソースは、状態(ノー
ド、頂点)の有限セットNと有向遷移(ブランチ、エッ
ジ)Bのセットから成る。各遷移tは、それぞれtの先
行値(左)状態及び後続値(右)状態と呼ばれるペアの
状態Lt 及びR tを連結する。Nの二つの区分されたメ
ンバは、参照番号822の初期状態nI と参照番号82
4の最終状態nF である。どの遷移もその先行値として
F を持たないため、最終状態がトラップ状態であると
仮定される。各遷移tは、参照番号826の4つの要素
から成る属性(Qt 、at 、mt 、Δt )と対応付けら
れ、Qtがテンプレートであり、at が遷移確率であ
り、mt がメッセージストリングであり、参照番号82
8で示されるΔt が文字のセット幅に類似するtのベク
トル変位である。(文字セット幅の記述に付いては添付
の図1に関する前述の説明を参照。)図示されている実
現において、これらの属性の内の幾つかは特定の遷移に
対してヌルであってもよいし、画像ソースモデル820
の各遷移メッセージストリングmt は、単一文字を含む
エンプティストリング∈、その他であると仮定され、ベ
クトル変位828はマイナス、ゼロ、又はプラスのスカ
ラ(scalar)成分値を有することができる。テンプレー
トQt のサポート(ノンゼロのセット、前景ピクセル)
は通常局所テンプレート座標システムの起点の近くの小
さな領域内に局所化されるが、このテンプレートQ
t は、画像平面Ωの全体に対して定義される。
【0068】マルコフ画像ソースモデルは完全経路上の
確率分布を定義し、
【0069】
【外1】
【0070】を経路πに対応するメッセージとしてメッ
セージ上の確率分布を帰納する。
【0071】各経路πにはベクトル画像ピクセル位置x
1 ... xのシーケンスと複合画像Qが対応している。Q
[x]は、その局所座標システムの起点がxに位置する
ようにシフトされるQを示し、二つのテンプレート画像
の合併はこれらの二つのテンプレート画像のいずれかが
前景ピクセルを有する前景ピクセルを持っている画像で
ある。経路πに対して、
【0072】
【外2】
【0073】は経路の変位として定義され、
【0074】
【外3】
【0075】のx及びy成分をそれぞれ示す。ペア(x
i 、ti )とマルコフソースの対応している遷移は、
「ラベル付けされた遷移画像起点位置」と呼ばれる。完
全経路によって定義される全てのこのようなペアのセッ
トはこの経路のラベル付けされた遷移画像起点位置のセ
ットと呼ばれる。各遷移tに対して、Nt はtでラベル
付けされた経路の遷移画像起点位置の数を表し、対応し
ている遷移画像起点位置は
【0076】
【外4】
【0077】で示される。
【0078】フォントは一般に文字のグリフの前景ピク
セルがテキストストリング内でオーバーラップしない
(同じ前景ピクセルを共有する)ようにデザインされる
という前提条件に基づいて、図9及び図示された実現に
おいて示されたタイプの画像ソースモデルが、(xj
j )において位置決めされたテンプレートのピクセル
と(xi 、ti )で位置決めされたテンプレートのピク
セルの合併が全ての経路πに対してi≠jであるエンプ
ティセットとなるようにデザインされることが要求され
る。この必要条件は隣接テンプレートサポートの「テン
プレート非結合制約条件」と呼ばれてもよい。
【0079】画像ソースモデル820(図9)は、双方
向である基礎的経路を介してメッセージストリングと画
像の間の関係又はマッピングを定義する。
【0080】画像ソースモデルは、モデルによって発生
されたメッセージの言語に対して有限状態アクセプタを
定義する。従って、メッセージストリングMが付与され
れば、
【0081】
【外5】
【0082】である完全経路πが存在するか否かを決定
することは簡単であり、このような経路が存在すれば、
それを見つけるのは簡単である。画像、
【0083】
【外6】
【0084】は、Mの画像である。画像ソースモデルが
メッセージ言語に対して決定論的なアクセプタを定義す
る場合、画像ソースモデルを用いたメッセージ画像形成
のプロセスは単純な手順の変換(解釈)を容認する。入
力されたメッセージ「プログラム」によって制御されな
がら、出力された画像平面内で所謂「理想的な」画像を
描く画像形成装置(イメージャ)オートメーションを想
像されたい。このイメージャのストラクチュアは、図9
に示されたタイプの有限状態画像ソースモデルによって
定義される。イメージャは、内部状態nI において出力
される画像形成平面の位置(0、0)で開始される。イ
メージャは、入力されたメッセージ内の第1の文字を検
査し、それをnI からの遷移上のメッセージラベルと比
較し、そのメッセージが入力された文字と整合されるブ
ランチを選択する。選択されたブランチと対応付けられ
たテンプレートが非ヌル(non-null)である場合、イメ
ージャは、テンプレートの起点をイメージャの現在画像
位置と位置合わせして、テンプレートのコピーを出力さ
れた画像平面上に描画する。イメージャは次にイメージ
ャの現在画像位置をブランチ変位分インクリメントし、
その内部状態を選択されたブランチの後続値ノードにな
るように更新する。このプロセスは、理想的画像、
【0085】
【外7】
【0086】即ち、ネットワークにわたる初期ノードn
I から最終ノードnF までの経路が完成するまで、入力
されたメッセージの各文字に対して反復される。
【0087】画像ソースモデル820は、画像デコーダ
として、画像のリテラル・テキスト・トランスクリプシ
ョン(マッチング又は論理的ストラクチュア・タグを持
たないトランスクリプション)を生成するために、参照
された画像から単純なテキストストリングを抽出するた
めに使用されてもよい。これらのテキストストリング
は、参照される画像が復号されている間、モデル820
を介して識別された経路内に含まれる各遷移に対応付け
られたメッセージストリング属性から抽出される。図1
4における画像ソースモデル830は、単純なテキスト
コラムの共通の空間的ストラクチュアを有する2D画像
のセットをモデリングすると共に、画像復号のプロセス
をより詳細に図示するために使用される。単純テキスト
コラムは、テキストラインの垂直シーケンスによって構
成され、ホワイト(背景)スペースと交互になってい
る。水平のテキストラインは、図1に示されたサイドベ
アリングモデルに応じた文字タイプセットのシーケンス
である。グリフサンプルの2D画像ソース10は、画像
ソースモデル830によってモデリングされるタイプの
代表的画像である。モデル830は、英文テキスト用の
従来の読出し順序に追従するテキストの単一列の2D画
像を介して経路をモデリングするが、この場合、経路が
画像を介して当該画像の上部左コーナでスタートし、下
部右コーナへ進み、反復される1D(1次元)ラインの
シーケンスにおいて当該画像の左から右へ進むと仮定さ
れる。ネットワーク内のノード同士間の各遷移ti は、
図14に示される対応付けられた4つの要素から成る属
性を[at ](Δt )、mt 、Qtの順に有し、テンプ
レートQt が一つの遷移に対応付けられる時、メッセー
ジストリングmt は、当該テンプレートによって示され
る文字を識別する。これらの属性の内のいくつかはいく
つかの遷移に対してヌルであることが理解されよう。
【0088】図14に関しては、状態n1 は垂直ホワイ
トスペースの作成に対応している。どの画像テンプレー
トもt1 と対応されないので、ブランチt1 が走査され
る度に、イメージャは出力される画像形成平面上に何も
描かないで、1行(ロー)下へ下がる。ある点におい
て、イメージャはテキストラインのトップへ到達し、ブ
ランチt2 に追従する。t2 の変位(0、B)はカーソ
ルをテキストベースラインへ下ろす。Bはベースライン
より上のフォント高さである。状態n2 は水平テキスト
ラインの作成を示す。n2 からn2 までの自己遷移には
2つのタイプがある。画像テンプレートQi でラベル付
けされたFの遷移ti 及び単一文字メッセージストリン
グ”ci が、出力された画像平面上に個々のグリフを描
くために使用される。これらのブランチの各々に対応付
けられる水平の変位は、文字セット幅、
【0089】
【外8】
【0090】である。ブランチt3 とt4 は、これらに
対応付けられるブランクテンプレートを有すると共にホ
ワイトスペースを示す。ブランチt3 は最小(1ピクセ
ル)幅のホワイトスペースを示し、微細な空間調整のた
めに使用される。ブランチt4はフォント依存幅Ws
実際の空間文字に対応しており、スペースメッセー
ジ””でラベル付けされる。テキストラインの終りで
は、イメージャは、t5 (ラインフィード"line feed"
)を走査し、キャリッジリターン("carriage return")
状態n3 を実行する。t5 上のメッセージは新しいライ
ン文字("\n" )である。t5 に対応付けられる垂直の
変位はフォントデプスDである。ブランチt6 の走査毎
にイメージャは1ピクセルずつ左へ移動する。最後に、
遷移t7 はイメージャを状態n1 へ戻し、このプロセス
は次のテキストラインにも反復される。最後のテキスト
ラインが作成された後、イメージャはt8 を走査して最
終状態nFを生成する。
【0091】グリフサンプルの2D画像ソース10と対
応付けられた使用可能なトランスクリプションのセット
を示すトランスクリプション・データストラクチュア7
0も以下に「トランスクリプション・ネットワーク」と
呼ばれる有限状態ネットワークとして示される。トラン
スクリプション・ネットワーク850は、図9に示され
たタイプの有限状態画像ソースモデルの簡略化された形
式であり、この形式において、各遷移はメッセージスト
リングmt に対応付けられるが、他の属性には対応付け
られない。図15は、シンボル”\n”がニューライン
文字を示す二つのトランスクリプションストリング”o
rn\n”と”om\n”を含むセットを示しながら、
トランスクリプション70に対してトランスクリプショ
ン・ネットワーク850の一部852の単純な例を示し
ている。画像ソースモデル830の場合と同様に、図示
されている実現において、トランスクリプション・ネッ
トワーク850の各遷移メッセージストリングmt は、
単一文字を含むエンプティストリング∈、その他である
と仮定される。トランスクリプションネットワーク85
0を示すデータストラクチュアは、ボックス292で、
図示された実施の形態におけるテンプレート学習方法へ
の入力として受信され且つ記憶される。トランスクリプ
ションネットワーク850は、従来の手動又は自動プロ
セス、例えば、有限状態ストリング文法及び遷移ネット
ワークを生成するための従来のツールを使用するプロセ
スによってトランスクリプション・データストラクチュ
ア70から生成されてもよい。
【0092】画像ソースモデル830及びトランスクリ
プションネットワーク850は、理想的な画像内の指定
された画像位置に配置され且つトランスクリプションと
一致しているメッセージストリングに応じて選択された
文字テンプレートのコピーの空間的配列である理想的な
画像を結合定義し、また、この理想的な画像は、当該ト
ランスクリプションが対応付けられた実際の入力された
2D画像の近似である。これにより、経路に一致してい
る理想的な画像、つまりは経路、つまりはトランスクリ
プションネットワーク850によって発生されるメッセ
ージストリングを発生するように復号を制約することが
可能であった場合、画像ソースモデル830を用いた2
D画像10の復号が最も効率的であることがわかる。画
像ソースモデル830をトランスクリプションネットワ
ーク850に併合することにより、画像ソースモデル8
30を用いる復号プロセスにこのような制約条件を課す
ことができる。
【0093】ネットワーク併合ステップ300への入力
(図12及び図13)は、2D画像ソースモデル830
及びトランスクリプションネットワーク850である。
このステップの出力は、トランスクリプション−画像ネ
ットワーク870と呼ばれる図9に示されたタイプの第
2のマルコフ画像ソースモデルである。トランスクリプ
ション−画像ネットワーク870は、以下の二つの特性
によって定義される。 (a)トランスクリプション−画像ネットワーク内の各
完成経路πに対して、πと同じトランスクリプションス
トリング及び画像を有する完全経路が画像ソースモデル
830内にあること、(b)画像ソースモデル830内
の完成経路π毎に、πのトランスクリプションが、トラ
ンスクリプションネットワーク850によって発生され
たトランスクリプションのセット内にある場合、πと同
じトランスクリプションストリング及び画像を有する完
全経路がトランスクリプション−画像ネットワーク87
0内にあること。トランスクリプション−画像ネットワ
ークによって発生されたトランスクリプションのセット
は、画像ソースモデル830によって発生されたトラン
スクリプションのセットとトランスクリプションネット
ワーク850によって発生されたトランスクリプション
のセットの交差点である。所与のトランスクリプション
を有するトランスクリプション−画像ネットワークによ
って発生された理想的な画像は、このトランスクリプシ
ョンを有する画像ソースモデル830によって発生され
た理想的な画像と同じである。
【0094】ネットワーク併合ステップ300は、トラ
ンスクリプションネットワーク状態が上記に定義された
二つの特性(a)と(b)を満たすように併合されたト
ランスクリプション−画像ネットワーク内のペアの画像
ソース及びトランスクリプションネットワーク状態同士
の間で遷移を構成することに本質的に関与している。こ
れらのトランスクリプションは以下の三つのステップに
よって構成される。 (1)mt =∈である(tに対応付けられたメッセージ
がヌルストリングである)画像ソースモデル830の各
遷移tに対して、j=0...T−1の各々に対して、
ノード(Lt ,sj )からノード(Rt ,sj )までの
遷移をトランスクリプション−画像ネットワークに加算
する。当該トランスクリプション−画像ネットワークの
このような遷移毎に対応付けられたメッセージ、テンプ
レート、及び変位は、tのメッセージ、テンプレート、
及び変位と同じである。 (2)mt ≠∈である(tに対応付けられたメッセージ
は単一文字ストリングである)画像ソースモデル830
の各遷移tに対して、及びmt'=mt であるトランスク
リプションネットワーク850の各遷移t’に対して、
ノード(Lt t')からノード(Rt t')までの遷移
を当該トランスクリプション−画像ネットワークに加算
する。当該トランスクリプション−画像ネットワークの
このような各遷移に対応付けられたメッセージ、テンプ
レート、及び変位は、tのメッセージ、テンプレート、
及び変位と同じである。 (3)mt =∈であるトランスクリプションネットワー
ク850の各遷移t’に対して、及びi=0...N−
1の各々に対して、ノード(ni t')からノード(n
i t')までの遷移をトランスクリプション−画像ネッ
トワークに加算する。当該トランスクリプション−画像
ネットワークのこのような各遷移に対応付けられたメッ
セージとテンプレートは共にエンプティであり、そのベ
クトル変位は0である。
【0095】トランスクリプション−画像ネットワーク
870の部分の構成は、図15に示されたトランスクリ
プションネットワーク850の単純なテキストコラム及
び部分852に図14における画像ソースモデルを用い
て、図16、17、18、及び19において概略的に示
されている。図16は、2次元(2D)格子860にお
いて、ネットワーク併合プロセス300によって構成さ
れたトランスクリプション−画像ネットワークのノード
をドット又は点として示し、2D格子860において、
画像ソースモデルノード862を水平に位置すると共に
トランスクリプションネットワークノード864を垂直
に位置する。初期状態(nI I )と最終状態(nF
F )のそれぞれに対する格子点866と868は、ドッ
ト回りの円によってそれぞれ表される。図17は、トラ
ンスクリプション−画像ネットワーク内の遷移を上記手
順のステップ(1)により構成した後のトランスクリプ
ション−画像ネットワークを示している。簡略化するた
め、遷移確率は図示しない。図18は、ネットワーク併
合プロセスのステップ(1)に追加された図17の遷移
を点線で示し、上記手順のステップ(2)におけるトラ
ンスクリプション−画像ネットワークに追加された遷移
を実線で示している。遷移確率と変位はここでも図示し
ない。図15におけるトランスクリプションネットワー
ク850がエンプティメッセージストリングを有する遷
移を含まないので、遷移を構成するための上記手順のス
テップ(3)はこの実施の形態には適用されない。
【0096】完全経路上に置くことができないあるノー
ドがそのノードが復号に使用される前に結合されたトラ
ンスクリプション−画像ネットワークからデリートされ
てもよい。デリートされたノードに入出力する全ての遷
移も同様である。図19は、この簡略化が実行された後
に残っている結合されたトランスクリプション−画像ネ
ットワークの部分872を図示している。この簡略化又
は併合されたネットワークが、図18の結合されたトラ
ンスクリプション−画像ネットワークよりもかなり少な
い状態及び遷移だけしか含まないことに注目されたい。
従って、ネットワークの簡略化又は併合によって、グリ
フサンプルの入力ソースの復号化がより迅速に行われる
ことになる。
【0097】復号プロセス330(図13)は、2D画
像内のグリフサンプル10を示すラベル付けされたグリ
フ画像起点位置を生成するために、併合されたトランス
クリプション−画像ネットワークを使って2D画像10
を復号するのに適したあらゆるタイプのソフトウェア又
はハードウェア実現デコーダを用いて実行され得る。特
に、オリジナルの入力された2D画像と目標となる理想
的2D画像、
【0098】
【外9】
【0099】の間のエラー確率を最小にするダイナミッ
クプログラミングアルゴリズムに基づいたデコーダは、
特定の実現に使用するのに最適な復号プロセスになる確
率が高い。
【0100】概して、本発明に使用するのに適したタイ
プの復号プロセスは、各々が目標の理想的2D画像、
【0101】
【外10】
【0102】を示すトランスクリプション−画像ネット
ワークを介した完全なトランスクリプション−画像経路
の内のいくつか又は全てを識別すると共に、定義付けら
れた整合基準に応じて目標の理想的2D画像の内のどれ
がグリフサンプルの2D画像ソースに最良整合するかを
決定することにより、識別された経路の内のどれが最良
経路であるかを決定する。ネットワークを介した最良経
路は、最良整合された目標の理想的2D画像を示すトラ
ンスクリプション−画像経路である。グリフサンプルの
2D画像ソース内の遷移画像起点位置は、この最良経路
を構成する遷移から演算されることができ、グリフ画像
起点位置とこれらのラベルは、また、これら遷移の内の
選択された遷移及びこれらの遷移画像起点位置から使用
可能である。整合基準は任意の適切な画像測定値であっ
てもよい。一般に、整合基準は、グリフサンプルの2D
画像ソースと比較された目標の理想的画像に対するピク
セル整合スコアを最適化することを含む。
【0103】図示された実現において、復号プロセス3
30(図13)は、仮定された非対称ビットのフリップ
チャネルモデルを用いて、トランスクリプション−画像
ネットワークを介して最大事後経路(MAP)を発見す
る。ヴィタビ・デコーダの目的は、ネットーワークを介
して最も尤度が高い経路を決定するためにトランスクリ
プション−画像ネットワークを介して全ての完全経路に
わたって再帰的MAP決定関数を最大にすることであ
る。画像ソースモデル830を用いた復号の説明におい
て上記に述べたように、トランスクリプション−画像ネ
ットワークを介した各経路は、復号の間に形成された理
想的画像に対応している。従って、ヴィタビデコーダ
は、ネットワークを介した完全経路から生成された使用
可能な理想的な画像の内のどれが、復号されている入力
画像即ち2D画像10に最も近い外観(ピクセルによ
る)を有するかを決定する。ヴィタビ・デコーダは、経
路内の個別の遷移に対するスコアの総和である理想的な
画像を定義する経路に対して、尤度測定値又は尤度スコ
アを演算することによってこれを実行する。
【0104】図20は、図示された実施の形態の復号プ
ロセス330のヴィタビ・デコーダを実現する複数のス
テップのシーケンスを示すフローチャートである。ヴィ
タビ画像復号には、復号トレリス(trellis )と呼ばれ
る3次元復号格子内での経路発見も含まれる。この復号
格子は、一つがソースモデルの各ノード又は状態に対応
している画像平面のスタックを形成するとビューできる
ノードによって構成されている。トランスクリプション
−画像ネットワーク内の状態及び経路と格子内のノード
及び経路との間で1対1で対応付けされ、格子内のノー
ド同士の間で対応している遷移は、トランスクリプショ
ン−画像ネットワーク内の状態同士の間の遷移と同じ属
性情報を有している。従って、ステップ334におい
て、トランスクリプション−画像ネットワーク870
は、最初、データストラクチュア内に復号格子として示
される。次いで、ボックス338においては、格子内の
ノードに対するスコアが演算される順序が決定されなけ
ればならない。これは、再帰に対するスコア演算スケジ
ュールを作成し、格子のノードが参照される順序を示
し、結果的には、そのノードスコアが演算される順序を
示すことによって達成される。次いで、ボックス340
においては、前記スケジュールで既述された順序でノー
ド毎の最尤スコアが演算される。ノード毎に、尤度スコ
アを最大化するノードへの遷移が識別され、記憶され
る。復号プロセス330のステップは、図示されている
実現による復号の間、実行される関数を記述するための
特定のシーケンスにおいて実行されるものとして図示さ
れている。これらのステップは、通常、実際のソフトウ
ェア実現において同時期に実行される。
【0105】復号の終りに、復号格子内のnF 画像平面
に対する尤度スコアが演算された後、ボックス380に
おいて、復号格子内で最終ノードから初期ノードまでの
記憶された遷移を介してバックトレースする(後戻りす
る)ことによりヴィタビ・デコーダによって発見された
最尤完全経路が検索され、最良経路を構成する遷移を識
別すると共に、上記の式(5)と(6)を用いて2D画
像10内の遷移画像起点位置(xi 、ti )を演算す
る。最良経路の各遷移が遷移画像起点位置を定義する。
しかしながら、2D画像10内のこれらの画像位置のす
べてが対象になるとは限らない。フィルタリングステッ
プは、2D画像10内の推定グリフ画像起点位置を示す
遷移(グリフサンプル文字セット内の文字に対して非ヌ
ル文字テンプレートを属性として含む遷移)を識別し、
識別された遷移画像起点位置の全てからこれらの画像起
点位置を抽出し、これらの画像起点位置を、識別された
各遷移上のテンプレート属性のそれぞれの文字ラベル
と、ペアリングする。
【0106】復号は、2D画像内のグリフサンプルの画
像起点位置の推定値を提供するが、当該画像内のグリフ
サンプルの広がり又はサイズに関する情報を提供しな
い。例えば、間違いだらけのトランスクリプション又は
ノイジーな2D画像10が学習手順への入力である場
合、復号は不完全な結果を生成し得るので、画像起点位
置は入力画像内のグリフサンプルの位置の推定値である
と考えらる。
【0107】文字テンプレート構成プロセス270(図
11)は、図13において、全く新しいテンプレート構
成方法400として実現されており、学習データの分離
グリフサンプルへの事前セグメンテーションやサンプル
に対する境界ボックスの識別を行わずに、学習及びラベ
ル付けされた文字テンプレートのセットを生成する。テ
ンプレート構成方法400は、画像起点位置を示すグリ
フサンプルの2D画像10内のx、y座標位置と、それ
ぞれの画像起点位置に位置されたグリフサンプルによっ
て示された文字を識別するラベルのみを使って、学習デ
ータ内の各グリフサンプルを識別する。
【0108】図21に関して、テンプレート構成におけ
る第1のステップは、ボックス410において、学習デ
ータから生成されようとする各2値文字を記憶するため
のテンプレート画像領域を作成することである。各テン
プレート画像領域内の各ピクセル位置は、最初に、背景
ピクセルカラー値を示す。原則として、文字毎のテンプ
レート画像領域は、全方向に境界付けされない画像平面
全体に渡って拡がる。しかしながら、一般に、テンプレ
ートのサポートがこのテンプレートの起点ピクセル位置
を取り囲む比較的小さな領域へ局所化されることによ
り、テンプレート画像領域が、画像平面全体よりも小さ
いがテンプレートのサポート全体を含む程十分に大きい
境界付けされた画像領域となるように選択される。図2
2は、各テンプレートQt のサポートが、高さH及び幅
Wの矩形内に置かれると仮定する模式的なテンプレート
画像領域502を示す。テンプレート画像領域502
は、テンプレートの「カンバス」と呼ばれる。テンプレ
ートカンバスの形状は基本的には任意形状であり、一般
に、テンプレートが学習されている文字セットについて
及び当該学習データ内のサンプルについての仮説を基本
にして選択される。
【0109】カンバスの垂直及び水平サイズ寸法即ち高
さH及び幅Wのカンバスパラメータの選択は、学習され
ている文字セット内の文字に関する情報を利用する二つ
のファクタを基本として行われる。まず第1に、H及び
Wのカンバスパラメータは、作成された結果的に得られ
た画像領域が単一テンプレートのサポートの全体を含む
程の十分な大きさであるように選択される。実際、Hと
Wのカンバスパラメータの選択は、カンバスの外のピク
セルがテンプレートの一部ではなく背景(ホワイト)カ
ラーであると仮定される決定を反映する。HとWのカン
バスパラメータは、2D入力画像内に作成された結果的
に得られた画像領域が少なくとも単一の画像サンプル全
体を含む程の十分な大きさであるように選択される。
【0110】テンプレートカンバス502は当該テンプ
レートカンバス502に対応付けられた局所座標システ
ムを有しており、このシステムにおいて、xは右に行く
につれて大きくなり、yは下へ行くにつれて大きくな
り、この座標システムの起点506は、カンバス502
の下部左コーナ508に相対して(x、−ψ)である。
従って、0≦x<W及び0≦ψ<Hである、カンバス5
02の下部左コーナ508はこの局所座標システムに相
対して(−x、ψ)の座標を有する。このカンバス矩形
502はCで表され、 C=[−x、−x+W−1]×[ψ−H+1,ψ] (1) となる。カンバス・パラメータH、W、x及びψは全て
のテンプレートに対して一様である必要はなく、特定の
文字テンプレートが記憶されることによって変化しても
よい。通常、テンプレート毎に同じカンバスパラメータ
を使用することが一層便利である。
【0111】各文字テンプレートはカンバス502内に
置かれると仮定されるテンプレートの起点として指定さ
れたピクセル位置を含む。テンプレート起点ピクセル位
置はテンプレート起点506として図22に示されてい
る。カンバス矩形502内のテンプレート起点506の
指定は任意であるが、カンバス矩形502内に記憶され
ようとするテンプレートは、そのテンプレートの起点が
選択されたテンプレート起点506に位置する時、全体
がカンバス矩形502内に含まれなければならないとい
う制約条件を受ける。
【0112】図21では、ボックス430において、本
発明のテンプレート構成手順における次のステップは、
上記に示されたネットワークの併合及び復号プロセスの
出力として生成される学習データ内に含まれる各ラベル
付きグリフ画像起点位置に対してグリフの2D画像ソー
ス10内のサンプル画像領域を決定することである。テ
ンプレート画像領域502はサンプル画像領域の各々の
二つの重要な特性を決定する時のパターン又はガイドと
して使用される。第1に、学習データ内の各ラベル付け
されたグリフ画像起点位置に対する2D画像10内のサ
ンプル画像領域は、カンバス矩形502の垂直及び水平
サイズ寸法(H及びWのカンバスパラメータ)に一致し
た垂直及び水平サイズ寸法を有している。第2に、グリ
フサンプルのグリフ画像起点位置は、テンプレート起点
位置506として指定されたカンバス矩形502内にピ
クセル位置と一致しているか、又はそれぞれペアリング
されるピクセル位置におけるサンプル画像領域内に位置
している。サンプル画像領域を識別して得られた結果
は、学習データ内のグリフ画像起点位置と対応付けられ
たグリフラベルによって識別された各固有の文字に対し
て2D画像10内のサンプル画像領域の集合を生成する
ことである。
【0113】図23は、2D画像10の画像領域18内
のグリフ画像起点位置85、87及び89に対して識別
された三つのサンプル画像領域80、82及び84を示
し、これらのサンプル画像領域は、それぞれ、文字”
r”を示すグリフラベルを有している。各サンプル画像
領域は、サンプル画像領域84の周辺でH及びWの指定
によって示されたカンバス矩形502の同一高さH及び
幅Wを有している。各サンプル画像領域は、図23に示
されているように、代表的サンプル画像領域80の起点
85によってその起点をグリフ起点位置に位置合わせし
た局所座標システムを有している。グリフ画像起点位置
85、87及び89はサンプル画像領域80、82及び
84内のピクセル位置に位置され、当該サンプル画像領
域80、82及び84内のピクセル位置は、テンプレー
トカンバス矩形502の下部左コーナ508からのテン
プレート起点506のxとyの変位に一致したサンプル
画像領域のそれぞれの下部左コーナからのxとyの変位
を有している。
【0114】ラベル付けされたグリフ画像起点位置に対
するサンプル画像領域を識別すると、以下のように要約
されることができる。ベクトルxi =(xi 、yi )が
テキストの画像内のグリフ起点位置である場合、対応し
ているグリフサンプル画像領域は、以下の式によって定
義される領域内のテキスト画像のその部分であると定義
される。
【0115】xi −x≦xi <xi −x+W、及びyi
+ψ−H<y≦yi +ψ。即ち、テンプレート起点がグ
リフ起点と一致している時、グリフ位置に対するグリフ
サンプル画像はテンプレートカンバス内のテキスト画像
のその部分である。
【0116】用語「位置合わせされたサンプル画像領
域」は、テンプレートカンバス矩形502の下部左コー
ナー508からのテンプレート画像起点506のxとy
の変位に一致しているサンプル画像領域の下部左コーナ
からのxとyの変位を有するサンプル画像領域内のピク
セル位置に位置されているグリフサンプルの画像起点位
置の各サンプル画像領域の特性を示すために導入され
る。位置合わせされたサンプル画像領域の概念は図24
に示され、この図において、カンバス矩形502より上
で、一つの層が他の層の上になって層状にスタックされ
た図23からの2D画像10のサンプル画像領域80、
82及び84が示されている。サンプル画像領域80、
82及び84のそれぞれの画像起点位置85、87及び
89は互いに且つテンプレート起点位置506から点線
で示した軸88に沿って「垂直に」位置合わせされてい
る。このように、それぞれの画像起点位置における同じ
サイズのサンプル画像領域の位置合わせは、サンプル画
像領域の局所座標システムに相対するサンプル画像領域
の各々におけるそれぞれのピクセル位置の中で空間的な
関係又はペアリングを設定すると共に、サンプル画像領
域の集合内のペアリングされたピクセル位置のセットと
テンプレート座標システムに相対するカンバス矩形50
2内のピクセル値との間で同一の空間的関係又はペアリ
ングを設定する。このように関係付けられた位置合わせ
されたサンプル画像領域内のピクセルの各セットは、
「それぞれペアリングされたピクセル」又は「位置合わ
せされたピクセル」と呼ばれる。
【0117】テンプレートが学習されている文字セット
内の文字の内の特定の一つに対して2D画像10内で識
別されたサンプル画像領域の全てが、サンプル画像領域
の「集合」と呼ばれる。図示された実現において、サン
プル画像領域の集合は、互いに、そして画像起点位置で
テンプレート画像領域502に、位置合わせされたサン
プル画像領域の分離したデータストラクチュア内で示さ
れる。図25は、2D画像10によって示された画像で
ある全体が走査された新聞記事内の文字”a”に対する
サンプル画像領域の集合であるデータストラクチュア9
0を示す。図25においては、データストラクチュア9
0が、カンバス矩形502によって提供されたパターン
に応じて2D画像10からクリッピングされた連鎖及び
位置合わせされたサンプル画像領域のロー(行)及びコ
ラム(列)において示されている。サンプル画像領域は
図示するためにボーダーで示されている。
【0118】図21を再度参照すると、ボックス450
において、本発明のテンプレート構成手順における次の
ステップは、サンプル画像領域内のピクセルカラー値を
基本にして前景ピクセルカラー値を各カンバス矩形50
2の内のピクセルへ生成される文字テンプレート毎に割
り当てることである。本発明のテンプレート構成手順
は、これらの文字の各々のグリフサンプル画像の集合が
与えられた場合、文字テンプレートのセット内の各ピク
セルへカラーを割り当てることによって略同時期に文字
テンプレートのセットを構成する。従来の方法とは異な
り、本発明の技術におけるグリフサンプル画像は図25
に示されるように隣接するグリフの部分を含むことが許
容される。本発明のテンプレート構成手順は、文字テン
プレートが構成される間、グリフサンプル画像内の前景
ピクセルの内のどれが中心グリフ(テンプレートの起点
に起点が一致しているグリフ)に属するか及びどれが隣
接グリフに属しているかを効果的に決定する。
【0119】qt (x)は、テンプレートQt の位置x
におけるピクセルのカラーを示し、ここで、t∈Bがマ
ルコフ画像ソースの遷移である。前景ピクセルカラーは
ビット値1で示され、背景ピクセルカラーはビット値0
(ゼロ)で示される。ラベル付けされたグリフサンプル
起点位置(x1 、ti )、i=1...Pのセットが付
与された場合、テンプレート構成の目的は、遷移t∈B
毎に、及び遷移x∈C毎に、値をqt (x)に割り当て
ることである。
【0120】
【外11】
【0121】式(5)の左側はQt に対して位置合わせ
されたサンプル画像領域の集合内の黒(前景ピクセル)
である位置xにおけるピクセルの割合である。従って、
t (x;Z)は、テンプレートQt に対する位置xに
おける「位置合わせされたピクセルスコア」又は「テン
プレート補助測定値」と呼ばれる。ML決定ルール
(3)は、位置合わせされたサンプル画像領域内の位置
xにおける黒ピクセルの割合が閾値を越えた場合、xに
おけるテンプレートピクセルは黒でなければならないこ
とを定める。単に、テンプレートの非結合制約条件が無
視された場合、テンプレートに対してピクセル毎ベース
で位置合わせされた画像領域の集合を平均し且つ閾値化
することにより各MLテンプレートは個別に計算されて
もよい。
【0122】図26は、テンプレート非結合制約条件を
参照せずに決定ルール(3)を用いて、文字”e”、”
a”、及び”r”のそれぞれに対するサンプル画像領域
の集合から構成されるテンプレートのセットから選択さ
れた三つのテンプレート94、96、及び98を示す。
使用されるサンプル画像領域は、図25におけるサンプ
ル画像領域に類似しており、2D画像10に類似してい
る新聞のコラムの走査された画像から抽出された。テン
プレート94、96、及び98は、(”+”によって示
された)各カンバス矩形の起点に位置合わせされた「正
確な」テンプレート画像93、95、及び97を明確に
含んでいるのが理解されよう。しかしながら、各テンプ
レートカンバスが、テンプレートに明確に属さない黒ピ
クセルを含んでいるのも理解されよう。これらの余分な
黒ピクセルは、決定ルール(3)の平均化及び閾値化動
作がテンプレートに対する集合内の各サンプル画像領域
内の隣接しているグリフにおいて実行される時、当該テ
ンプレート内に発生する。これらの余分なピクセルは、
単一の分離したグリフとは対照的に、複数のグリフを含
むサンプル画像領域を使用した結果として明確に発生す
る。例えば、従来のテンプレート構成方法に要求された
ようにサンプル画像領域が対象となる中心ピクセルのみ
を含んでいた場合、これらの余分なピクセルは消えてし
まう。
【0123】テンプレートの非結合制約を条件として、
式(2)を最大化することは、NP−完成であるという
形式的な意味では、演算上困難な問題である。制約され
たMLテンプレート構成問題を正確に解くためには、指
数アルゴリズムを使用するより、本発明のテンプレート
構成方法を使えば、テンプレートの非結合制約を実質的
に参照するテンプレートを生成する概算ではあるが効果
的な解決法を提供する。この解決法は、図21のボック
ス450において詳細に図示し、図27ではフローチャ
ート形式で示されている。
【0124】基本的な戦略は以下の通りである。ピクセ
ル毎ベースで単一テンプレート内に含まれた各テンプレ
ートピクセルへ式(3)を個別に適用するより、S
t (x;Z)>0であるあらゆるテンプレート内の各テ
ンプレートピクセルへ値1がある順序で割り当てられ、
これにより割り当てられたテンプレートピクセルを生成
する。このような各割当ての後、参照された画像Z(図
示された実施の形態におけるグリフサンプルの2D画像
ソースからクリッピングされたサンプル画像領域)は、
新しく割り当てられたテンプレートピクセルとペアリン
グ又は一致する位置において全ての位置合わせされたサ
ンプルピクセルをゼロにセットすることによって変更さ
れる。例えば、テンプレートピクセルqs (W)=1
が、たった今、位置合わせされたと仮定する。次いで、
次のテンプレートピクセルの割当てが未だ割り当てられ
ていないテンプレートピクセルに対して実行される前
に、位置W+xi (S) 、i=1....NS における画
像Zのピクセルは、0にセットされる。一致しているテ
ンプレート割当てが実行された後で、参照された画像内
のサンプルピクセルをゼロにセットした効果は、「Zの
ピクセルのクリアリング」と呼ばれ、1にまだセットさ
れていないオーバーラップしているテンプレートピクセ
ルに対する引き続く演算St (x;Z)に対してS
t (x;Z)の値を減算することであり、これによって
オーバーラップするピクセルが引き続き1へセットされ
る尤度を減少させることになる。シーケンシャルな割当
ては、幾つかの未だ割り当てられていないテンプレート
ピクセルに対して、St (x;Z)>0の場合はシーケ
ンシャルな割当てが続く。本発明のテンプレート構成方
法の正味の結果は、プラスのSt (x;Z)が全く残ら
なくなるまで一つのテンプレートも完成されないまま、
学習された文字テンプレートのセット全体を同時期に生
成することである。
【0125】図27に関しては、ボックス452におい
て、各テンプレートカンバス内のピクセル位置に対応付
けられたピクセルスコア又はテンプレート補助測定値S
t (x;Z)をゼロより大きい値に初期化した後で、S
t (x;Z)が、このテンプレートに対して位置合わせ
されたサンプル画像領域の集合内のそれぞれペアリング
された位置合わせされたサンプルピクセル位置を用い
て、現在のプラスのピクセルスコアを有する各テンプレ
ート内の各未だ割り当てられてないテンプレートピクセ
ルに対して計算される。ピクセルスコアは、ボックス4
60において、演算されたピクセルスコアの内のどれか
がゼロよりも大きい場合、手順は、任意のテンプレート
の最高のプラスのピクセルスコアを有するテンプレート
ピクセルが選択されるボックス470へ進み、前景カラ
ー値はこの選択されたテンプレートピクセルへ割り当て
られる。ボックス480において、選択されたテンプレ
ートピクセルとペアリングされた位置合わせされたサン
プル画像領域の集合内の位置合わせされたピクセルのカ
ラー値はゼロ(背景カラー値)にセットされる。次い
で、処理は、ピクセススコアが残っている未だ割り当て
られてないテンプレートピクセルに対して再び演算され
るボックス456へ戻る。
【0126】図28は、テンプレートピクセルカラー割
当てのアルゴリズムを、図26に示されたテンプレート
を発生するために使用された同じグリフサンプル画像デ
ータへ、適用した結果を示す。図28におけるテンプレ
ート510のセットは「スペース」、小文字、大文字、
数字、及び句読点の順に配列される。文字が入力された
画像内に発生されない場合、そのテンプレートは実線の
黒い四角として提供される。図26と比較すると、図2
8におけるテンプレートは余分な黒のピクセルを殆ど含
んでおらず、このアルゴリズムの「Zピクセル・クリア
リング」の効果が出ている。特に、文字”e”、”
a”、及び”r”のそれぞれを示すテンプレート51
6、514、及び518は、それらを図26のテンプレ
ート94、96、及び98と比較するために呼び出され
た。ピクセルスコアの演算には、γ>0及びβ<0であ
るγ及びβ係数の使用が必要とされる。図26に示され
たテンプレートを生成した図示された実施の形態におい
ては、これらの係数のために使用された値はそれぞれ
2.237と−1.629であって、チャネルノイズパ
ラメータα0 =.9及びα1 =.51に対応している。
【0127】有限状態画像モデルネットワークにおける
ノード同士の間の各遷移t1 は、図14に示された対応
付けられた4つの要素から成る属性を[at
(Δt )、mt 、Qt の順に有している。テンプレート
t が、図14においてFの遷移t1で示されるような
一つの遷移t1 に対応付けられる時、この遷移に対応付
けられた水平の変位Δi はテンプレートの文字セット
幅、
【0128】
【外12】
【0129】である。文字セット幅は、グリフ起点位置
から、ワードの連続文字を画像形成する時に次のグリフ
の起点が通常配置される点まで、のベクトル変位Δ=
(Δx 、Δy )である。この文字セット幅は、文字形状
の記述や位置決めのサイドベアリングモデルによってモ
デリングされた文字テンプレートを完全に記述するため
に必要とされる字体距離の内の一つである。従って、テ
ンプレート構成手順400により文字テンプレートを構
成することの他にこの構成されたテンプレートに対する
文字セット幅を決定することも必要である。
【0130】各2値テンプレートの文字セット幅はこの
テンプレートに対して識別されたサンプル画像領域の集
合を用いて決定される。2D入力画像内のグリフサンプ
ルのグリフ画像起点位置を識別することが推定のプロセ
スであるので、当該識別されたサンプルの少なくとも幾
つかが不正確な画像起点位置を識別してしまうことも予
想される。しかしながら、サンプル画像領域内に含まれ
た各グリフサンプルのセット幅が2D画像内の次の隣接
するグリフサンプルの判っている画像起点位置から演算
されることができる。従って、テンプレートに対するセ
ット幅の演算には、サンプル画像領域の集合と、各サン
プル内の各画像起点位置から2D画像内の次の隣接グリ
フの画像起点位置までの変位と、を用いてこのテンプレ
ートに対して識別された各サンプルに対するセット幅を
計算することが含まれる。グリフサンプルに対して演算
されたセット幅の集合は、当該テンプレートに対するセ
ット幅に達するように使用される。例えば、全てのサン
プルに対する平均値又は中間値のセット幅は当該テンプ
レートに対するセット幅であるように決定されてもよ
い。或いは、これらのサンプルを用いて演算される最小
のセット幅はテンプレートのセット幅として使用されて
もよい。
【0131】図13は、テンプレート構成手順400に
続いて、文字セット幅を決定するこのステップをボック
ス490として示している。しかしながら、記述されて
いるように、図示されている実現において、各テンプレ
ートのセット幅はサンプル画像領域の集合を用いて決定
されるが、構成されたテンプレートからは決定されな
い。従って、文字セット幅の決定は、テンプレート構成
の完成に依存せずに、2D入力画像内のグリフサンプル
に対してラベル付けされたグリフ画像起点位置を生成す
る、復号やバックトレーシングステップの後の、任意点
で行われてもよい。さらに、図13は、復号、バックト
レーシング(戻り)、及びテンプレート構成ステップ3
30、380、及び400をそれぞれ反復する反復処理
ループ内に含まれているステップとしてこのステップを
示している。セット幅を演算するための好ましい方法
は、復号プロセスの引き続く反復の間の文字の位置決め
に使用されるセット幅が、入力された2D画像入力画像
内のグリフを位置決めするために使用される実際のセッ
ト幅よりも常に少なくなることを確実とするため、サン
プル画像領域の集合に対して演算されるセット幅から最
小セット幅を決定し、次いでこのテンプレートに対する
セット幅としてその最小値のパーセント、例えば90パ
ーセント、を取ることである。
【0132】前述のように、図9、図14、及び図19
に示されたタイプの2D画像ソースモデルを用いて参照
された2D画像の画像復号が文字テンプレートの初期セ
ットの使用を仮定するので、文字テンプレート学習方法
200の図示されている実施の形態は、基本的には反復
プロセスである。学習の状態において一般的であるよう
に、テンプレートの初期セットが使用不可能である時、
図示されている実施の形態は、復号ステップ330の前
に、復号の間に使用するための文字テンプレートの初期
セットを示す文字テンプレートデータストラクチュアを
発生するための処理を含む。文字テンプレートの初期セ
ット内の各セットは、復号プロセス330によって実践
的に使用されるあらゆる任意ピクセルの内容を有してい
てもよいし、図示されている実施の形態において各テン
プレートは実線の黒の矩形の前記任意の初期ピクセル内
容を有しており、且つ文字が示す当該文字に関する特定
のピクセル情報は有していない。このような矩形の黒画
像のテンプレートの初期セットが付与された場合、復号
ステップ330及びバックトレーシングステップ380
はそれぞれ、先行する反復において構成された文字テン
プレートを用いて、各引き続く反復を有する2D画像内
のグリフサンプル10のラベル付けされたグリフ画像起
点位置の改良された推定値を生成しやすい。
【0133】文字テンプレート構成の完成を制御するた
めに使用される停止条件は、ヒューリスティックに決定
されてもよいし又は一つ又はそれより多くの処理パラメ
ータの関数であってもよい。図示されている実施の形態
においては、停止条件は、最高の品質のテンプレートを
生成し、それに引き続く当該テンプレートに対する参照
可能な改良点が殆どないか又は有効度を持たないような
反復回数であることを経験から証明した固定された反復
回数である。停止条件は、復号の間に演算された最尤ス
コアに関連する閾値をベースにしている。
【0134】2D画像ソースモデルと形式的モデルとし
て示されたトランスクリプションの両方を有すると共に
学習手順への明示的入力として示された2D画像ソース
モデルを有するフレキシビリティが、従来、学習テンプ
レートに適したトランスクリプション即ちリテラルトラ
ンスクリプションのタイプとして考えられてきた概念を
拡張し、広範囲の他のメッセージストリングの含むよう
になった。例えば、学習のために使用されるグリフサン
プルの2D入力画像ソースが常に公知の固定されたトラ
ンスクリプションを有する特定のドキュメントのセット
の内の一つである状態が発生し得る。これらの所定のト
ランスクリプションをモデリングするトランスクリプシ
ョンネットワーク又はトランスクリプション−画像ネッ
トワークは、これらの特定のトランスクリプションの各
々を学習する前に生成され且つ記憶されてもよいと共
に、ユーザが「トランスクリプション」として入力する
ものは、実際には、学習において使用されようとするグ
リフサンプルの2D画像ソースに対応付けられようとす
る特定のトランスクリプションを識別するネームであ
る。
【0135】他の例において、2D画像内の文字コード
に対する論理構造及びフォーマット情報を示すマークア
ップラベル又はタグを含む使用可能なデータストラクチ
ュアも入力トランスクリプションとして使用され、ユー
ザがタグをマニュアルで取り除いたり、データストラク
チュアをリテラルトランスクリプションへ変換する必要
がない。これらのマークアップデータストラクチュア
が、それらのドキュメント画像と共にドキュメントデポ
ジトリ内で使用可能である場合、本発明の学習技術は、
このようなドキュメント画像とその対応するタグトラン
スクリプションを用いて文字テンプレートを学習するこ
とを可能にする。
【0136】本発明のテンプレート学習方法におけるタ
グ付けされたトランスクリプションの使用は、収容タグ
が本質的に画像ソースネットワーク内のメッセージスト
リングの処理を含むので、このようにして記述された画
像モデルに対して関数的な変更を全く要求しないし、図
9において提供されたマルコフ画像ソースモデルの一般
的な形式が、各遷移に対してメッセージストリング及び
テンプレートの独立仕様を可能とする。また、メッセー
ジ及びテンプレートのいずれか又は両方が遷移属性セッ
トから省略されてもよい。従って、以下に示されるよう
に、タグがモデリングフレームワークに対する変更をせ
ずに収容されてもよい。
【0137】図29は、サブスクリプトを含む単純テキ
ストラインを画像形成するライン画像ソースモデル77
0を示す。遷移確率はこのモデルから省略されている。
モデル770によって定義されるこれらのライン画像
は、様々な文字間スペースを有する文字”a”のグリフ
の全体から成る。モデル770における状態及びこれら
の状態の遷移は、サブスクリプトをシミュレートするた
めにグリフがベースライン上又は5ピクセル下へ配置さ
れることができることを示す。モデル770内に示され
た遷移属性から、状態n2 とその自己遷移777及び7
78が、主要ベースライン上で位置合わせされた文字”
a”の連続テンプレートを画像形成すると共に、”a”
のメッセージストリングを発生するのが理解されよう。
遷移778上のベクトル変位から、水平x方向の”a”
のセット幅が25で付与されるのがさらに理解されよ
う。モデル770は、状態n1 から状態n4 までの遷移
によってサブスクリプトベースライン上でのグリフの画
像形成を可能とする。この状態n1 から状態n4 までの
遷移は、画像平面において現在画像形成位置を下へ移動
する5のプラスのy変位を遷移属性として示し、メッセ
ージストリング772”{”も示すがテンプレートはな
い。状態n4 とその自己遷移779及び780は、サブ
スクリプトベースライン上で位置合わせされた文字”
a”の連続テンプレートを画像形成すると共に、”a”
のメッセージストリングも発生する。状態n 4 から状態
3 までの遷移は、変位776によって示されるよう
に、現在画像形成位置を主要ベースラインへ戻す。この
遷移はメッセージストリング属性774”{”を有する
がテンプレートは有さない。遷移状態n3 から状態n1
までの遷移のため、ラインはベースライン上のストリン
グと交互に形成される任意数のサブスクリプト・ストリ
ングを含んでいてもよい。(モデル770が主要テキス
トベースラインの下で画像形成されるテキストを含む画
像のセットをモデリングするので、全てのブランチ変位
が2次元ベクトルとして指定される。しかしながら、モ
デル770を介する全ての完全経路がゼロのy変位を有
すること、即ち、πが完全経路とすると、
【0138】
【外13】
【0139】をベリファイすることは容易である。従っ
て、このモデルはラインモデルであることの定義条件を
満たす。即ち全ての完全経路が同一y変位を有する。)
【0140】図30は、ライン画像ソースモデル770
によってモデリングされたライン画像のセット内に含ま
れるライン画像712、714、及び716の幾つかの
例を示す。図示目的のため、図44内のサブスクリプト
のベクトル変位が誇張されており、ライン718のよう
なダッシュラインが主要テキストベースラインを図示す
るために示されている。その復号モードにおいて、モデ
ル770はライン画像712、714、及び716をそ
れぞれメッセージストリング(トランスクリプショ
ン)”aaa{aa}a”、”a{a}aa{a}
a”、及び”a{a}a”として復号する。或いはこれ
とは逆に、当該ライン画像712、714、及び716
は、入力メッセージストリング”aaa{aa}
a”、”a{a}aa{a}a”、及び”a{a}a”
が付与された場合、その画像合成モードにおいてモデル
770が発生するライン画像としてビューされることが
できる。いずれの事象においても、状態n1 から状態n
4 までの遷移と状態n4 から状態n3 までの遷移上で消
失されているテンプレートによってサポートされている
事実から、実際のメッセージストリング”{”an
d”}”は図44におけるライン画像712、714、
及び716のいずれかにおけるグリフと視覚的にペアリ
ングされることは不可能である。モデル770に遭遇し
た場合、メッセージストリング”{”and”}”は、
当該モデルによって発生された画像内の一つ又はそれよ
り多くのグリフの画像形成における知覚可能な変化を示
す。メッセージストリング”{”and”}”は従っ
て、これらのタグに先行又は後行するテキストからの画
像形成におけるフォーマッティング又は論理的変化を有
しつつ、当該タグ同士の間のテキストをマークするタグ
として機能する。この場合、これらのタグはサブスクリ
プトとして変換又はタイプセットされようとするテキス
トをマークする。
【0141】タグ付けされたトランスクリプションネッ
トワークを有するタグメッセージストリングを収容する
画像ソースモデルの併合は、2Dネットワークとライン
ネットワークの併合に関して前述した方法と同様に進め
られる。併合されたタグトランスクリプション画像ネッ
トワークの関数的特性は2D実現に関して前もって提供
された特性と同じである(ネットワーク特性(a)及び
(b)として参照される)。ネットワーク併合手順は、
タグトランスクリプションネットワークによって定義さ
れたトランスクリプションのセットからトランスクリプ
ションのみを発生するように制約された変更された画像
ソースモデルを生成する。
【0142】テンプレート学習手順のために生成された
学習データのためのグリフラベルの入力ソースとしてタ
グ付けされたトランスクリプションの使用は画像及びト
ランスクリプションモデルが以下にして定義され且つ併
合されるかによって完全に処理されると供に、復号プロ
セス又は最良経路からのグリフ画像起点位置の抽出に対
して全く変更を要求しない。テンプレート学習手順の残
りの部分は、入力されたライン画像内に含まれるグリフ
のグリフ画像起点位置をテンプレート構成手順へ提供す
るためにタグトランスクリプション画像ネットワークを
用いて、前述のように処理される。
【0143】
【発明の効果】ユーザの学習データ準備への関与を実質
的に取り除くと供にテンプレートが効果的に自動生成さ
れる文字テンプレートセット学習マシン動作方法を提供
する。
【図面の簡単な説明】
【図1】文字形状記述及び配置のサイドベアリングモデ
ルの単純化されたバージョンを示す図である。
【図2】本発明による学習文字テンプレートのためのグ
リフサンプルのソースとして使用するための複数のグリ
フの2D画像を示す図である。
【図3】本発明によって生成された文字テンプレートデ
ータストラクチュアの例を示す図である。
【図4】本発明の学習方法及びシステムへの入力として
使用するのに適した図2の2D画像のためのトランスク
リプションデータストラクチュアの例を示す図である。
【図5】本発明の学習方法への入力トランスクリプショ
ンとして使用するのに適したディクショナリの部分に対
するトランスクリプションデータストラクチュアの他の
例を示す図である。
【図6】図6がトランスクリプションであるディクショ
ナリページの2D画像を示す図である。
【図7】図2の2D画像に対する他のトランスクリプシ
ョンメッセージを示すトランスクリプションデータスト
ラクチュアのセットを示す図である。
【図8】簡単化された有限状態遷移ネットワークの部分
として示される図7に示されたトランスクリプションの
セットを示す図である。
【図9】簡単化された有限状態遷移ネットワークの部分
としてその一般的な形式で示された形式的2D画像ソー
スモデルを示す図である。
【図10】本発明の学習方法及びシステムの入力及び出
力を示す略ブロック図を示す図である。
【図11】本発明の文字テンプレート学習方法の一般的
なステップを示すフローチャートである。
【図12】テンプレート構成への学習データ入力を生成
する本発明の学習方法及びシステムの図示されたソフト
ウェア実現の一部の入力及び出力データストラクチュア
を示す略ブロック図である。
【図13】ラベル付けされたグリフ画像起点位置を学習
データとして生成する本発明の図示された実現の部分の
一般的なステップを示すフローチャートである。
【図14】本発明の文字テンプレート学習方法の図示さ
れた実現に使用される図2の2D画像のような単一テキ
ストコラムの空間ストラクチュアを有する2D画像のク
ラスをモデリングする有限状態遷移ネットワークを示す
図である。
【図15】本発明の文字テンプレート学習方法の図示さ
れた実現に使用される図8のトランスクリプションネッ
トワークの簡単化された部分を示す図である。
【図16】本発明の図示された実現に従って、図14の
有限状態遷移ネットワークと図15のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。
【図17】本発明の図示された実現に従って、図14の
有限状態遷移ネットワークと図15のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。
【図18】本発明の図示された実現に従って、図14の
有限状態遷移ネットワークと図15のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。
【図19】本発明の図示された実現に従って、図14の
有限状態遷移ネットワークと図15のトランスクリプシ
ョンネットワークの併合を概略的に示す図である。
【図20】本発明の図示された実現によって図13にお
けるフローチャートの復号ステップをヴィタビ・デコー
ダとして示すフローチャートである。
【図21】本発明の図示された実現において使用された
テンプレート構成方法の一般的なステップを示す図であ
る。
【図22】図21に示されたテンプレート構成方法の間
に学習されたテンプレートを記憶するために使用された
テンプレート画像領域の概念を示す図である。
【図23】グリフサンプルの2D画像ソース内で識別さ
れるサンプル画像領域を示すと共に、当該グリフサンプ
ルの2D画像ソースから図21に示されたテンプレート
構成方法によってテンプレートが学習される図である。
【図24】本発明の図示された実現によってグリフサン
プルの画像起点位置において整合されたサンプル画像領
域の概念を示す、図22のテンプレート画像領域よりも
上に層状になった図2の2D画像の三つのサンプル画像
領域の概略的な画像を示す図である。
【図25】本発明の図示された実現によってテンプレー
ト学習の際に使用するための2D画像からクリッピング
されたサンプルの画像領域の集合の画像を提供する図で
ある。
【図26】文字テンプレートに課された重要な数学的制
約条件を参照しない方法を用いて生成された三つの模範
的だが不満足なテンプレートを示す図である。
【図27】本発明の図示された実現のテンプレート構成
方法によって、図22のテンプレート画像領域と図24
及び図25の整合されたサンプル画像領域とを用いて、
文字テンプレートの全てを同時期に構成するステップを
示すフローチャートである。
【図28】図27に示された新しいテンプレート構成方
法によって生成された学習されたテンプレートの最終セ
ットを示す図である。
【図29】単一テキストラインの空間ステップを有する
と共に模範的タグトランスクリプションと一貫性を有す
るメッセージストリングを収容するライン画像のセット
をモデリングする有限状態遷移ネットワークを示す図で
ある。
【図30】図29の有限状態遷移ネットワークによって
モデリングされたサンプルライン画像を示す図である。
【符号の説明】
10 2D画像データストラクチュア 12、14 グリフ 13 画像座標システム 16 ラインセグメント
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フィリップ アンドリュー チョー アメリカ合衆国 94025 カリフォルニア 州 メンロ パーク ブラックバーン ア ベニュー 116 (72)発明者 レスリー ティー.ニルス アメリカ合衆国 94306 カリフォルニア 州 パロ アルト ベンチュラ アベニュ ー 264

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 認識システムに使用するための文字テン
    プレートのセットを学習するマシンを動作する方法であ
    って、 前記マシンが、プロセッサとデータを記憶するメモリデ
    バイスとを含み、 前記メモリデバイス内に記憶されたデータが、前記マシ
    ンを動作するために前記プロセッサが実行する命令デー
    タを含み、 前記プロセッサが、前記メモリデバイス内に記憶された
    データにアクセスするために前記メモリデバイスに連結
    されており、 前記プロセッサを動作して、以下「文字画像インスタン
    スサンプルの2次元画像ソース」と呼ばれる複数の文字
    画像インスタンスサンプルを含む2次元画像を定義する
    画像定義データストラクチュア内に発生する各文字画像
    インスタンスサンプルの文字画像インスタンスサンプル
    ピクセル位置を決定するステップであって、前記文字画
    像インスタンスサンプルの2次元画像ソースが、文字画
    像インスタンスの単一ラインより大きな縦寸法を有し、
    前記文字画像インスタンスサンプルの2次元画像ソース
    内に含まれる各文字画像インスタンスサンプルが、以下
    「文字画像インスタンスサンプル文字セット」と呼ばれ
    る複数の文字セット内の文字のそれぞれの画像インスタ
    ンスであり、学習される文字テンプレートのセットの各
    々が、前記複数の文字画像インスタンスサンプル文字セ
    ット内の文字のそれぞれを示すと共に前記文字画像イン
    スタンスサンプル文字セット内のそれぞれの文字を示す
    文字ラベルデータアイテムにより識別され、 前記プロセッサが、前記各文字画像インスタンスサンプ
    ルの文字画像インスタンスサンプルピクセル位置を決定
    する時、前記マシンの前記メモリデバイス内に記憶され
    た、以下「2次元画像ソースモデル」と呼ばれる2次元
    画像ソースモデル・データストラクチュアを使用し、前
    記2次元画像ソースモデルが、2次元画像のセットの空
    間的画像ストラクチュアを文法としてモデリングし、前
    記文字画像インスタンスサンプルの2次元画像ソース
    が、前記2次元画像ソースモデルよってモデリングされ
    た2次元画像のセットの内の一つであり、前記2次元画
    像ソースモデルが、前記文字画像インスタンスサンプル
    の2次元画像ソース内で発生する複数の文字画像インス
    タンスの空間的位置決めをモデリングする空間的位置決
    めデータを含み、前記プロセッサが、前記各文字画像イ
    ンスタンスサンプルの文字画像インスタンスサンプルピ
    クセル位置を決定するために前記空間的位置決めデータ
    を使用する、ステップを有し、 前記プロセッサを動作して、前記文字画像インスタンス
    サンプルの2次元画像ソース内で発生する前記各文字画
    像インスタンスサンプルの文字画像インスタンスサンプ
    ルピクセル位置とペアリングされた以下「それぞれペア
    リングされた文字画像インスタンスラベル」と呼ばれる
    文字画像インスタンスラベルデータアイテムを生成する
    ステップであって、前記それぞれペアリングされた文字
    画像インスタンスラベルが、前記文字画像インスタンス
    サンプル文字セット内の文字のそれぞれを示し、 前記プロセッサが、前記それぞれペアリングされた文字
    画像インスタンスラベルを生成する時、前記文字画像イ
    ンスタンスサンプルの2次元画像ソース内で発生する文
    字画像インスタンスのそれぞれを前記文字画像インスタ
    ンスサンプル文字セット内の文字を示す文字画像インス
    タンスラベルとマッピングする前記2次元画像ソースモ
    デル内に含まれたマッピングデータを使用し、 前記プロセッサが、前記それぞれペアリングされた文字
    画像インスタンスラベルを生成する時更に、前記文字画
    像インスタンスサンプルの2次元画像ソースに対応し且
    つ以下「トランスクリプション・ラベル」と呼ばれるト
    ランスクリプションラベル・データアイテムの順序付き
    配列を含む、以下「トランスクリプション」と呼ばれる
    トランスクリプション・データストラクチュアを使用
    し、前記プロセッサが、文字画像インスタンスラベルを
    前記各文字画像インスタンスサンプルの文字画像インス
    タンスサンプルピクセル位置とペアリングするために前
    記トランスクリプション及び前記マッピングデータを使
    用する、ステップを有し、 前記プロセッサを動作して、前記それぞれペアリングさ
    れた文字画像インスタンスラベルによって識別された前
    記文字画像インスタンスサンプルの2次元画像ソース内
    で発生する前記文字画像インスタンスサンプルの文字画
    像インスタンスサンプルピクセル位置を用いて前記文字
    画像インスタンスサンプル文字セット内の文字のそれぞ
    れを示す文字テンプレートのセットを生成するステップ
    であって、 それぞれがペアリングされた各文字画像インスタンスラ
    ベルが、前記文字テンプレートの各々に対する学習デー
    タサンプルとして文字画像インスタンスサンプルピクセ
    ル位置を識別する、ステップと、 を備える文字テンプレート学習マシン動作方法。
  2. 【請求項2】 第2の文字テンプレートのテンプレート
    画像起点位置が、先行の第1文字テンプレートのテンプ
    レート画像起点位置からこの先行の第1文字テンプレー
    トの文字セット幅だけ変位され、当該第2の文字テンプ
    レートが画像内に位置決めされる時、及び前記第1の文
    字テンプレートを完全に収容する第1の境界ボックス
    が、前記第2の文字テンプレートを完全に収める第2の
    境界ボックスと前記画像内でオーバーラップする時、前
    記第1と第2の文字テンプレートが実質的にオーバーラ
    ップしない前景ピクセルを有するように、前記文字テン
    プレートのセット内の各文字テンプレートが特性文字画
    像位置決め性を有する文字テンプレートモデルをベース
    とし、 前記文字画像インスタンスサンプルの2次元画像ソース
    内で発生する前記各文字画像インスタンスサンプルの文
    字画像インスタンスサンプルピクセル位置が、前記文字
    画像インスタンスサンプルの画像起点位置を示す前記文
    字画像インスタンスサンプルの2次元画像ソース内の単
    一2次元画像位置であり、 前記プロセッサを動作して、前記文字テンプレートのセ
    ットを生成するステップが、 前記文字画像インスタンスサンプルの2次元画像ソース
    内のサンプル画像領域を決定し、各サンプル画像領域
    が、「サンプルピクセル位置」と呼ばれる前記文字画像
    インスタンスサンプルの2次元画像ソース内に複数の画
    像ピクセル位置を含み、前記サンプルピクセル位置の内
    の第1のサンプルピクセル位置が第1の文字画像インス
    タンスサンプルの画像起点位置であり、各サンプル画像
    領域が更に前記サンプルピクセル位置の内の第2のサン
    プルピクセル位置が第2の文字画像インスタンスサンプ
    ルの画像起点位置となる程十分大きいことと、全ての文
    字テンプレートが、前記テンプレートモデルの特性画像
    形成性を観測するように一つのテンプレートピクセル位
    置に対して一つのピクセルカラー値を決定するためにサ
    ンプル画像領域が使用されるサンプル画像位置を決定す
    るテンプレートピクセル割当て基準をベースとして、前
    記サンプル画像領域内に含まれる前記サンプルピクセル
    位置によって示されたピクセルカラー値を用いて、前記
    文字テンプレートのそれぞれに含まれるテンプレートピ
    クセル位置へピクセルカラー値を割当てることと、を有
    することよりなる請求項1に記載の文字テンプレートセ
    ット学習マシン動作方法。
  3. 【請求項3】 前記文字画像インスタンスサンプルの2
    次元画像ソースに対応付けられるトランスクリプション
    は、前記文字画像インスタンスサンプルの2次元画像内
    のそれぞれの文字画像インスタンスが、前記文字画像イ
    ンスタンスサンプルの2次元画像内のそれぞれの文字画
    像インスタンスの目視検査によってペアリングされない
    文字を示す少なくとも一つの文字コードを示す、以下
    「タグ」と呼ばれる少なくとも一つのノンリテラル・ト
    ランスクリプション・ラベルを含むタグ・トランスクリ
    プションであり、前記タグによって示された前記少なく
    とも一つの文字コードが、前記文字画像インスタンスサ
    ンプルの2次元画像ソースに関するマークアップ情報を
    示すと共に、 前記プロセッサが、前記トランスクリプション及び前記
    マッピングデータを用いて前記文字画像インスタンスラ
    ベルを生成する時、前記タグに関連した少なくとも一つ
    の文字画像インスタンスサンプルを識別するために前記
    文字画像インスタンスサンプルの2次元画像ソース内に
    発生する前記複数の文字画像インスタンスサンプルに関
    する空間的位置決め情報を使用し且つ文字画像インスタ
    ンスラベルを前記文字画像インスタンスサンプルとペア
    リングするために前記タグを使用する、 請求項1に記載の文字テンプレートセット学習マシン動
    作方法。
JP09869096A 1995-04-28 1996-04-19 文字テンプレートセット学習マシン動作方法 Expired - Fee Related JP3822277B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US431223 1995-04-28
US08/431,223 US5689620A (en) 1995-04-28 1995-04-28 Automatic training of character templates using a transcription and a two-dimensional image source model

Publications (2)

Publication Number Publication Date
JPH08305803A true JPH08305803A (ja) 1996-11-22
JP3822277B2 JP3822277B2 (ja) 2006-09-13

Family

ID=23711011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09869096A Expired - Fee Related JP3822277B2 (ja) 1995-04-28 1996-04-19 文字テンプレートセット学習マシン動作方法

Country Status (5)

Country Link
US (1) US5689620A (ja)
EP (1) EP0740263B1 (ja)
JP (1) JP3822277B2 (ja)
CA (1) CA2171773C (ja)
DE (1) DE69610243T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338953A (ja) * 1999-04-01 2000-12-08 Adobe Syst Inc フォント特徴ファイル処理

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549638B2 (en) 1998-11-03 2003-04-15 Digimarc Corporation Methods for evidencing illicit use of a computer system or device
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
DE4440598C1 (de) 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US5897644A (en) * 1996-09-25 1999-04-27 Sun Microsystems, Inc. Methods and apparatus for fixed canvas presentations detecting canvas specifications including aspect ratio specifications within HTML data streams
WO1998016897A1 (en) * 1996-10-16 1998-04-23 Convey Corporation Isomorphic pattern recoginition
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
US5842213A (en) * 1997-01-28 1998-11-24 Odom; Paul S. Method for modeling, storing, and transferring data in neutral form
US6567548B2 (en) * 1999-01-29 2003-05-20 International Business Machines Corporation Handwriting recognition system and method using compound characters for improved recognition accuracy
US6513003B1 (en) 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
ES2208164T3 (es) * 2000-02-23 2004-06-16 Ser Solutions, Inc Metodo y aparato para procesar documentos electronicos.
US6738518B1 (en) 2000-05-12 2004-05-18 Xerox Corporation Document image decoding using text line column-based heuristic scoring
US6678415B1 (en) 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US6594393B1 (en) 2000-05-12 2003-07-15 Thomas P. Minka Dynamic programming operation with skip mode for text line image decoding
US6768560B1 (en) 2000-05-19 2004-07-27 Xerox Corporation Assist channel coding with vertical block error correction
US6628837B1 (en) 2000-05-19 2003-09-30 Xerox Corporation Assist channel coding with convolution coding
US6862113B1 (en) 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US7110621B1 (en) 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US9177828B2 (en) 2011-02-10 2015-11-03 Micron Technology, Inc. External gettering method and device
US6920241B1 (en) * 2000-09-29 2005-07-19 Cognex Corporation System and method for bundled location and regional inspection
WO2002037933A2 (en) * 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
DK1288792T3 (da) 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Fremgangsmåde til automatisk indeksering af dokumenter
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
PT1456810E (pt) 2001-12-18 2011-07-25 L 1 Secure Credentialing Inc Características de segurança com imagens múltiplas para documentos de identificação e processo para as efectuar
US7694887B2 (en) 2001-12-24 2010-04-13 L-1 Secure Credentialing, Inc. Optically variable personalized indicia for identification documents
AU2002364255A1 (en) 2001-12-24 2003-07-15 Digimarc Id Systems, Llc Covert variable information on id documents and methods of making same
US7728048B2 (en) 2002-12-20 2010-06-01 L-1 Secure Credentialing, Inc. Increasing thermal conductivity of host polymer used with laser engraving methods and compositions
US7793846B2 (en) 2001-12-24 2010-09-14 L-1 Secure Credentialing, Inc. Systems, compositions, and methods for full color laser engraving of ID documents
US7824029B2 (en) 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
US7089185B2 (en) * 2002-06-27 2006-08-08 Intel Corporation Embedded multi-layer coupled hidden Markov model
US7804982B2 (en) 2002-11-26 2010-09-28 L-1 Secure Credentialing, Inc. Systems and methods for managing and detecting fraud in image databases used with identification documents
US7712673B2 (en) 2002-12-18 2010-05-11 L-L Secure Credentialing, Inc. Identification document with three dimensional image of bearer
US7225991B2 (en) 2003-04-16 2007-06-05 Digimarc Corporation Three dimensional data storage
US7296223B2 (en) * 2003-06-27 2007-11-13 Xerox Corporation System and method for structured document authoring
US7246311B2 (en) * 2003-07-17 2007-07-17 Microsoft Corporation System and methods for facilitating adaptive grid-based document layout
DE10342594B4 (de) * 2003-09-15 2005-09-15 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE10345526A1 (de) * 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
US7744002B2 (en) 2004-03-11 2010-06-29 L-1 Secure Credentialing, Inc. Tamper evident adhesive and identification document including same
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
US7175090B2 (en) * 2004-08-30 2007-02-13 Cognex Technology And Investment Corporation Methods and apparatus for reading bar code identifications
ATE527637T1 (de) * 2005-06-01 2011-10-15 Priv Id Bv Vorlagenerneuerung in helper-datensystemen
DE102005032046A1 (de) * 2005-07-08 2007-01-11 Océ Document Technologies GmbH Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung
US8451327B2 (en) * 2005-08-18 2013-05-28 Hoya Corporation Electronic endoscope, endoscope light unit, endoscope processor, and electronic endoscope system
WO2007022460A2 (en) * 2005-08-18 2007-02-22 Digital Business Processes, Inc. Post-ocr image segmentation into spatially separated text zones
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US8633930B2 (en) * 2007-03-26 2014-01-21 Apple Inc. Non-linear text flow
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4402138B2 (ja) * 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US8229232B2 (en) * 2007-08-24 2012-07-24 CVISION Technologies, Inc. Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
JP5376795B2 (ja) * 2007-12-12 2013-12-25 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
US8682056B2 (en) * 2008-06-30 2014-03-25 Ncr Corporation Media identification
US20100312813A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for distributing, storing, and replaying directives within a network
US8286084B2 (en) * 2009-06-08 2012-10-09 Swakker Llc Methods and apparatus for remote interaction using a partitioned display
US20100309196A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for processing related images of an object based on directives
WO2010144429A1 (en) * 2009-06-08 2010-12-16 Swakker Llc Methods and apparatus for processing related images of an object based on directives
US20100311393A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for distributing, storing, and replaying directives within a network
US20100313244A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for distributing, storing, and replaying directives within a network
US20100310193A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for selecting and/or displaying images of perspective views of an object at a communication device
US20100313249A1 (en) * 2009-06-08 2010-12-09 Castleman Mark Methods and apparatus for distributing, storing, and replaying directives within a network
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US8321357B2 (en) * 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US9152883B2 (en) * 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9213756B2 (en) * 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
CN102184383B (zh) * 2011-04-18 2013-04-10 哈尔滨工业大学 一种印刷体字符图像样本的自动生成方法
US20130077856A1 (en) * 2011-09-23 2013-03-28 General Electric Company Processes and systems for training machine typesets for character recognition
US8958630B1 (en) * 2011-10-24 2015-02-17 Google Inc. System and method for generating a classifier for semantically segmenting an image
US8799269B2 (en) 2012-01-03 2014-08-05 International Business Machines Corporation Optimizing map/reduce searches by using synthetic events
US10332213B2 (en) 2012-03-01 2019-06-25 Ricoh Company, Ltd. Expense report system with receipt image processing by delegates
US8990112B2 (en) 2012-03-01 2015-03-24 Ricoh Company, Ltd. Expense report system with receipt image processing
US9659327B2 (en) * 2012-03-01 2017-05-23 Ricoh Company, Ltd. Expense report system with receipt image processing
US9245296B2 (en) 2012-03-01 2016-01-26 Ricoh Company Ltd. Expense report system with receipt image processing
US8903813B2 (en) 2012-07-02 2014-12-02 International Business Machines Corporation Context-based electronic document search using a synthetic event
US9460200B2 (en) 2012-07-02 2016-10-04 International Business Machines Corporation Activity recommendation based on a context-based electronic files search
US8898165B2 (en) 2012-07-02 2014-11-25 International Business Machines Corporation Identification of null sets in a context-based electronic document search
US9262499B2 (en) 2012-08-08 2016-02-16 International Business Machines Corporation Context-based graphical database
US8676857B1 (en) 2012-08-23 2014-03-18 International Business Machines Corporation Context-based search for a data store related to a graph node
US8959119B2 (en) 2012-08-27 2015-02-17 International Business Machines Corporation Context-based graph-relational intersect derived database
US9619580B2 (en) 2012-09-11 2017-04-11 International Business Machines Corporation Generation of synthetic context objects
US9251237B2 (en) 2012-09-11 2016-02-02 International Business Machines Corporation User-specific synthetic context object matching
US8620958B1 (en) * 2012-09-11 2013-12-31 International Business Machines Corporation Dimensionally constrained synthetic context objects database
US9223846B2 (en) 2012-09-18 2015-12-29 International Business Machines Corporation Context-based navigation through a database
US8782777B2 (en) 2012-09-27 2014-07-15 International Business Machines Corporation Use of synthetic context-based objects to secure data stores
US9741138B2 (en) 2012-10-10 2017-08-22 International Business Machines Corporation Node cluster relationships in a graph database
US8931109B2 (en) 2012-11-19 2015-01-06 International Business Machines Corporation Context-based security screening for accessing data
US8983981B2 (en) 2013-01-02 2015-03-17 International Business Machines Corporation Conformed dimensional and context-based data gravity wells
US9229932B2 (en) 2013-01-02 2016-01-05 International Business Machines Corporation Conformed dimensional data gravity wells
US8914413B2 (en) 2013-01-02 2014-12-16 International Business Machines Corporation Context-based data gravity wells
US9053102B2 (en) 2013-01-31 2015-06-09 International Business Machines Corporation Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects
US9069752B2 (en) 2013-01-31 2015-06-30 International Business Machines Corporation Measuring and displaying facets in context-based conformed dimensional data gravity wells
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
US8856946B2 (en) 2013-01-31 2014-10-07 International Business Machines Corporation Security filter for context-based data gravity wells
US9110722B2 (en) 2013-02-28 2015-08-18 International Business Machines Corporation Data processing work allocation
US9292506B2 (en) 2013-02-28 2016-03-22 International Business Machines Corporation Dynamic generation of demonstrative aids for a meeting
US10152526B2 (en) 2013-04-11 2018-12-11 International Business Machines Corporation Generation of synthetic context objects using bounded context objects
US9195608B2 (en) 2013-05-17 2015-11-24 International Business Machines Corporation Stored data analysis
US9348794B2 (en) 2013-05-17 2016-05-24 International Business Machines Corporation Population of context-based data gravity wells
US9697240B2 (en) 2013-10-11 2017-07-04 International Business Machines Corporation Contextual state of changed data structures
US10127199B2 (en) * 2014-03-28 2018-11-13 Adobe Systems Incorporated Automatic measure of visual similarity between fonts
JP6001010B2 (ja) * 2014-06-11 2016-10-05 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US10013643B2 (en) * 2016-07-26 2018-07-03 Intuit Inc. Performing optical character recognition using spatial information of regions within a structured document
US11544579B2 (en) 2016-11-23 2023-01-03 Primal Fusion Inc. System and method for generating training data for machine learning classifier
JP6833999B2 (ja) * 2016-11-23 2021-02-24 プライマル フュージョン インコーポレイテッド 機械学習分類器とともに知識表現を使用するためのシステム及び方法
EP3659066A4 (en) * 2017-07-25 2021-02-24 Hewlett-Packard Development Company, L.P. DETERMINATIONS OF SHARPNESS OF CHARACTER RECOGNITION
US10241992B1 (en) 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models
US10545096B1 (en) * 2018-10-11 2020-01-28 Nanotronics Imaging, Inc. Marco inspection systems, apparatus and methods
US10594899B1 (en) * 2019-02-15 2020-03-17 Kyocera Document Solutions Inc. Methods and system for generating a confidential document
CN110009712B (zh) * 2019-03-01 2021-05-04 华为技术有限公司 一种图文排版方法及其相关装置
CN111950329B (zh) * 2019-05-16 2024-06-18 长沙智能驾驶研究院有限公司 目标检测及模型训练方法、装置、计算机设备和存储介质
SG10201905273VA (en) 2019-06-10 2019-08-27 Alibaba Group Holding Ltd Method and system for evaluating an object detection model
RU2721186C1 (ru) * 2019-07-22 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Оптическое распознавание символов документов с некопланарными областями
US10915992B1 (en) 2019-08-07 2021-02-09 Nanotronics Imaging, Inc. System, method and apparatus for macroscopic inspection of reflective specimens
US11593919B2 (en) 2019-08-07 2023-02-28 Nanotronics Imaging, Inc. System, method and apparatus for macroscopic inspection of reflective specimens
CN110706317A (zh) * 2019-10-11 2020-01-17 北京一起教育信息咨询有限责任公司 印刷手写混合的数学公式数据生成方法及装置
CN110717492B (zh) * 2019-10-16 2022-06-21 电子科技大学 基于联合特征的图纸中字符串方向校正方法
US11200411B2 (en) * 2019-10-16 2021-12-14 The Toronto-Dominion Bank Training a card type classifier with simulated card images
CN112836732B (zh) * 2021-01-25 2024-04-19 深圳市声扬科技有限公司 数据标注的校验方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4599692A (en) * 1984-01-16 1986-07-08 Itt Corporation Probabilistic learning element employing context drive searching
US4769716A (en) * 1986-10-17 1988-09-06 International Business Machines Corporation Facsimile transmission using enhanced symbol prototypes with precalculated front and back white spaces
US5020112A (en) * 1989-10-31 1991-05-28 At&T Bell Laboratories Image recognition method using two-dimensional stochastic grammars
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
US5493688A (en) * 1991-07-05 1996-02-20 Booz, Allen & Hamilton, Inc. Pattern categoritzation system having self-organizing analog fields
US5526444A (en) * 1991-12-10 1996-06-11 Xerox Corporation Document image decoding using modified branch-and-bound methods
US5321773A (en) * 1991-12-10 1994-06-14 Xerox Corporation Image recognition method using finite state networks
US5303313A (en) * 1991-12-16 1994-04-12 Cartesian Products, Inc. Method and apparatus for compression of images
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338953A (ja) * 1999-04-01 2000-12-08 Adobe Syst Inc フォント特徴ファイル処理

Also Published As

Publication number Publication date
US5689620A (en) 1997-11-18
EP0740263B1 (en) 2000-09-13
DE69610243D1 (de) 2000-10-19
EP0740263A3 (en) 1997-09-10
EP0740263A2 (en) 1996-10-30
CA2171773C (en) 2000-04-11
CA2171773A1 (en) 1996-10-29
JP3822277B2 (ja) 2006-09-13
DE69610243T2 (de) 2001-01-25

Similar Documents

Publication Publication Date Title
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US5956419A (en) Unsupervised training of character templates using unsegmented samples
US5706364A (en) Method of producing character templates using unsegmented samples
US5594809A (en) Automatic training of character templates using a text line image, a text line transcription and a line image source model
EP0745952B1 (en) Method and system for automatic transcription correction
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US5410611A (en) Method for identifying word bounding boxes in text
JP3447762B2 (ja) 画像生成器及び画像認識システム
Berg-Kirkpatrick et al. Unsupervised transcription of historical documents
CN110114776B (zh) 使用全卷积神经网络的字符识别的***和方法
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
Elms et al. The advantage of using an HMM-based approach for faxed word recognition
CN111401099B (zh) 文本识别方法、装置以及存储介质
Al-Badr et al. A segmentation-free approach to text recognition with application to Arabic text
JPH08167000A (ja) 文字認識装置および方法
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
US8401298B2 (en) Storage medium storing character recognition program, character recognition method, and character recognition apparatus
Kumar et al. Line based robust script identification for indianlanguages
US11270153B2 (en) System and method for whole word conversion of text in image
CN114639106A (zh) 图文识别方法、装置、计算机设备及存储介质
Toselli et al. Viterbi based alignment between text images and their transcripts
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
Rao et al. Orthographic properties based Telugu text recognition using hidden Markov models

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060214

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060622

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100630

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110630

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110630

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120630

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130630

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees