JPH0721320A

JPH0721320A - 自動スクリプト決定装置

Info

Publication number: JPH0721320A
Application number: JP6070295A
Authority: JP
Inventors: A Lawrence Spitz; ローレンススピッツエイ; David A Hull; エイハルディヴィッド
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-04-19
Filing date: 1994-04-08
Publication date: 1995-01-24
Also published as: KR970002421B1; DE69423926D1; EP0621552A2; EP0621552B1; US5444797A; DE69423926T2; KR940024626A; TW248600B; EP0621552A3

Abstract

(57)【要約】【目的】文書のスクリプトタイプを自動的に決定する
装置を提供する。【構成】本装置の関連構成要素生成手段は文書のテキ
ストイメージを構成する画素から関連構成要素を生成す
る。境界ボックス生成手段は各関連構成要素を取り囲む
境界ボックスを生成する。図心決定手段は１つまたはそ
れ以上の選定したタイプのスクリプト特徴の位置（図心
に対する）を決定する。スクリプト決定手段は全テキス
トイメージについて捜し出したスクリプト特徴の空間分
布を決定し、決定した空間分布と、少なくとも１つのス
クリプトタイプの所定の分布とを比較して、テキストイ
メージのスクリプトタイプを決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動文書認識方法およ
び装置、より詳細には文書のテキスト部分の文字のスク
リプトタイプを自動的に決定する装置に関するものであ
る。

【０００２】

【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切な文字認識方法の選択は文書に使用されて
いるスクリプト（アルファベットまたは表意文字）によ
って大きく左右される。また、適切なエラー修正方法の
選択は文書の言語によって大きく左右される。従来は、
文書に使用されているスクリプトおよび言語が、装置が
使用されている国の「公式」スクリプトおよび言語であ
ると想定して、光学式文字認識方法や光学式文字認識装
置におけるエラー修正方法が提供されてきた。すなわ
ち、米国においては、通常の光学式文字認識装置は、文
書が英語で、ローマン体を使用していると想定している
であろう。これに対し、日本においては、言語が日本語
で、日本文字を使用していると想定して、文字認識装置
が具体化されているであろう。代わりに、複数の言語に
ついて文字認識方法とエラー修正方法を使用し、光学式
文字認識装置を具体化することができる。

【０００３】しかし、これまでは、光学式文字認識装置
に文書の言語を自動的に決定させることは不可能であっ
た。それどころか、各文書を光学式文字認識装置に与え
るときに、文書の個々の言語およびスクリプトについて
一定の指示を光学式文字認識装置に与えなければならな
い。これは、オペレータが文書の言語およびスクリプト
に関するデータを光学式文字認識装置に入力するか、ま
たは文書の言語およびスクリプトを指示する特殊な標識
を文書に付けることによって果たされてきた。

【０００４】

【発明が解決しようとする課題】従って、本発明の目的
は、自動的にスクリプトおよび言語を認識する能力を備
えた光学式文字認識装置を提供することである。

【０００５】本発明の第２の目的は、文書の文字スクリ
プトタイプを自動的に決定する装置を提供することであ
る。

【０００６】本発明の第３の目的は、決定したスクリプ
トタイプに基づいて、文書の個々の言語を決定する装置
を提供することである。

【０００７】本発明の第４の目的は、スクリプト特徴に
基づいて、文書の文字の文字スクリプトタイプを決定す
る装置を提供することである。

【０００８】

【課題を解決するための手段】本発明の第１の好ましい
実施例に従って、文書が走査され、すべての非テキスト
情報が除去される。次に、得られたテキストイメージは
スキュー、その他の走査人工産物について修正される
（もし必要ならば）。文書のイメージが走査され、クリ
ーンアップされたら、イメージは、位置およびイメージ
濃度をもつ画素のビットマップから複数の関連構成要素
へ変換される。関連構成要素が生成されたあと、各関連
構成要素について境界ボックスが生成され、そして境界
ボックスの図心が決定される。次に、所定のスクリプト
特徴の図心まわりの分布が決定される。このスクリプト
特徴の分布に基づいて、文書の言語のスクリプトタイプ
が決定される。

【０００９】本発明の第２の好ましい実施例において
は、選定したスクリプト特徴は上向きに開いた凹形であ
る。そのような凹形を捜し出す好ましい方法は、ブラッ
クパスコード（black pass code) を見つけ出すことで
ある。本発明の第３の実施例においては、境界ボックス
の図心が決定され、この図心に対するスクリプト特徴の
分布が決定される。

【００１０】

【実施例】図８に示すように、従来の光学式文字認識装
置は電荷結合素子（ＣＣＤ）または同種の素子を含むス
キャナ１１０を備えている。スキャナ１１０は、未知の
スクリプトおよび言語の文字列を含むイメージ１０２を
もつ文書１００を走査し、イメージ１０２を構成する複
数の画素の位置およびイメージ濃度を表すディジタルデ
ータ信号を出力する。このディジタルデータ信号はメモ
リ１１２へ送られ、そこに一時的または無期限に保存さ
れる。ディジタルデータ信号は、メモリ１１２から出力
されると、汎用ディジタルコンピュータ１１４へ入力さ
れる。コンピュータ１１４へ入力された後、ディジタル
データ信号は、最初に、イメージ１０２のすべての非テ
キスト部分を除去し、テキスト部分を残すことによって
クリーンアップされる。さらに、ディジタルデータ信号
内のすべてのスキャナ人工産物、たとえばスキューまた
は同種の物が修正される。クリーンアップされたディジ
タルデータ信号は、そのあとメモリ１１２に再び保存さ
れるか、コンピュータ１１４のメモリに保存される。代
わりに、スキャナによって一部の前処理たとえばスキャ
ナ人工産物の除去を実施することができる。

【００１１】図８に示すように、本発明の汎用ディジタ
ルコンピュータ１１４は、制御プログラムを保存するメ
モリ２２と、メモリ１１２からディジタルデータ信号を
入力し、イメージ１０２の決定されたスクリプトタイプ
を表す信号を出力する入出力手段２４を含んでいる。汎
用コンピュータ１１４は、さらに、ディジタルデータ信
号を保存するイメージメモリ２６、ディジタルデータ信
号から関連構成要素を生成する関連構成要素生成手段２
８、各関連構成要素について境界ボックスの座標と、境
界ボックス内のディジタルイメージの画素の座標を決定
する境界ボックス生成手段３０、各境界ボックスの図心
を決定する図心決定手段３２、各境界ボックスについて
１つまたはそれ以上のタイプの所定のスクリプト特徴の
空間位置を決定する特徴決定手段３４、および文書のス
クリプトタイプを決定するスクリプト決定手段３６を含
んでいる。制御プログラムを保存するメモリ２２は、Ｒ
ＯＭ２２ａまたはＲＡＭ２２ｂのどちらでもよい。

【００１２】動作中、図１に示したイメージ１０２をも
つ文書１００がスキャナ１１０に挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。デ
ィジタルデータ信号は、各信号部分が原イメージ１０２
のテキスト部分１０４の対応する画素を表している複数
の信号部分から成っている。テキスト部分１０４の各画
素はテキスト部分１０４内の位置とイメージ濃度を有し
ている。従って、ディジタルデータ信号の各信号部分
は、対応する画素の位置とイメージ濃度を表すデータを
含んでいる。

【００１３】そのあと、スキャナ１１０によって出力さ
れたディジタルデータ信号はメモリ１１２に保存され
る。メモリ１１２はＲＡＭ、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ１１２の
形式に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度データに応じて、メモリ１１２
内に保存される。中間メモリ１１２に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ１１４へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ１１２の代わりに、汎用ディジ
タルコンピュータ１１４のメモリ２２または２６を使用
することができる。いずれにせよ、メモリ１１２がイメ
ージ１０２を長期間保存するため使用されることは理解
されるであろう。

【００１４】オペレータによるスキャナ１１０への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分１０４を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、テキスト部分
１０４を表すディジタルデータ信号がメモリ１１２から
汎用ディジタルコンピュータ１１４へ出力される。汎用
ディジタルコンピュータ１１４の代わりに、専用コンピ
ュータまたはハードワイヤード論理回路を使用してもよ
いことはもちろん理解されるであろう。

【００１５】メモリ１１２に保存されたディジタルデー
タ信号は汎用コンピュータ１１４へ出力され、そこで入
出力手段２４によってイメージメモリ２６へ入力され
る。ディジタルデータ信号がイメージメモリ２６に完全
に保存されたら、ディジタルデータ信号は関連構成要素
生成手段２８にとって利用可能になる。図２に示すよう
に、関連構成要素生成手段２８は、イメージ１０２を表
すディジタルデータ信号を、各関連構成要素が１つまた
はそれ以上の信号部分から成る複数の関連構成要素に分
割する。各関連構成要素は、一定の最小イメージ濃度を
もち、連続する経路を作っている原テキスト部分１０４
の画素に対応する信号部分から成っている。各文字は、
一般に、“Fuji”の“F ”のように１つの関連構成要
素、または“Fuji”の“ｊ”または“ｉ”のように１つ
より多い関連構成要素に対応している。

【００１６】関連構成要素生成手段２８がディジタルデ
ータ信号からテキスト部分１０４について複数の関連構
成要素を生成すると、テキスト部分１０４に対応するデ
ィジタルデータ信号と、関連構成要素生成手段２８によ
って生成された関連構成要素のリストがイメージメモリ
２６と境界ボックス生成手段３０へ出力される。

【００１７】境界ボックス生成手段３０は、テキスト部
分１０４を表すディジタルデータ信号を複数の境界ボッ
クスに再分割する。図２に示すように、各境界ボックス
には、１つの関連構成要素と、その関連構成要素を構成
している信号部分に隣接したディジタルデータ信号の信
号部分が、零、１つまたはそれ以上入っている。各境界
ボックスの寸法は、対応する関連構成要素を構成してい
る一番左と一番右の信号部分、および一番上と一番下の
信号部分の位置データによって決定される。従って、境
界ボックス内の信号部分は、イメージ濃度データに関係
なく、関連構成要素を構成する信号部分と、関連構成要
素を境界ボックスの境界の中に置く位置データをもつ信
号部分である。境界ボックス生成手段３０によって境界
ボックスのリストと各境界ボックスを構成する信号部分
が生成されたら、境界ボックスのリストと対応する信号
部分がイメージメモリ２６と図心決定手段３２へ出力さ
れる。

【００１８】図心決定手段３２は各境界ボックスについ
て「質量中心」を決定する。すなわち、図心決定手段３
２は、図３に示すように、横中央線と縦中央線を決定す
る。横中央線と縦中央線の交点が境界ボックスの図心で
ある。従って、横中央線より上の信号部分のイメージ濃
度の和は横中央線より下の信号部分のイメージ濃度の和
に等しく、また縦中央線より左の信号部分のイメージ濃
度の和は縦中央線の右の信号部分のイメージ濃度の和に
等しい。

【００１９】図心決定手段３２が複数の各境界ボックス
の図心を決定したら、図心のリストがメモリ２６へ出力
され、そして境界ボックスのリスト、各境界ボックスに
対応する信号部分、および各境界ボックスの図心の位置
が特徴決定手段３４へ出力される。特徴決定手段３４
は、境界ボックスの図心に関連して、各境界ボックスに
ついて、個々の境界ボックスに対応する関連構成要素の
１つまたはそれ以上の所定の文字特徴の存在と位置を決
定する。特徴決定手段３４によって決定することができ
る特徴のタイプは一般に自由である。たとえば、特徴
は、関連構成要素内の上向きに開いた凹形（または境界
ボックスの任意の適当な方向に沿った関連構成要素の凹
形）、ホワイトパスの分布（水平および垂直）、形状測
度（非縁の黒色画素から一番近い白色画素まで多くの方
向で距離をサンプリングして測定したストローク厚さの
角度分布、関連構成要素の母集団近接分布、関連構成要
素の境界ボックスの縦横比分布、関連構成要素の境界ボ
ックスの面積分布、関連構成要素の濃度分布（長方形内
の“ｏｎ”画素の割合）、ベースラインに対する関連構
成要素のトップおよびボトム位置、および投影プロフィ
ール（画素、関連構成要素の数）でもよい。しかし、上
向きに開いた凹形を特徴決定手段で決定することが好ま
しい。上向きに開いた凹形を捜し出す好ましい方法は、
「ブラックパスコード（black pass code)」を捜し出す
ことである。本出願の発明者は、各ブラックパスコード
が上向きに開いた凹形に対応することに限定した。

【００２０】ブラックパスコードは、CCITT Group III,
2-dimensional (T.4) and Group IV (T.6) Recommenda
tions によって規定された複数のパスコードの１つであ
る。図７に示すように、ブラックパスコードは、前ライ
ンすなわち「基準」ライン内の第１タイプのイメージ濃
度データをもつ信号部分から第２タイプのイメージ濃度
データをもつ信号部分への遷移の位置に関連して、最初
のラインすなわち「コーディング」ライン内の第１タイ
プのイメージ濃度データをもつ１つまたはそれ以上の信
号部分の列から第２タイプのイメージ濃度データをもつ
１つまたはそれ以上の信号部分の列への個々の遷移であ
ると定義する。本発明においては、各「ライン」は、境
界ボックスの幅を横切って相互に隣接して水平方向に置
かれた画素を表す一組の信号部分であると定義する。

【００２１】詳しく述べると、本発明の特徴決定手段３
４は、高イメージ濃度から低イメージ濃度への最初の遷
移が、基準ライン上の低イメージ濃度から高イメージ濃
度への第２の遷移の右へ、コーディングライン上に出現
したときを決定する。図４に示すように、上記の遷移
は、吟味中の境界ボックスに対応する関連構成要素に上
向きに開いた凹形が出現したことを示す。

【００２２】本発明の第１の好ましい実施例において
は、特徴決定手段３４がブラックパスコードを捜し出
す。従って、特徴決定手段３４によって、すべての上向
きに開いた凹形が捜し出され、対応する境界ボックスの
図心に対するそれらの垂直位置が決定される。図４に示
すように、テキスト部分１０４の複数の境界ボックスが
吟味され、複数の境界ボックス内の関連構成要素の上向
きに開いた凹形が捜し出され、対応する図心に対するそ
れらの位置が決定されたら、特徴決定手段３４は、上に
開いた凹形のリストおよび図心に対するそれらの位置を
メモリ２６およびスクリプト決定手段３６へ出力する。

【００２３】スクリプト決定手段３６は、特徴決定手段
３４によって決定されたスクリプト特徴の空間分布（図
心に対し正規化した）を決定し、その空間分布と広範囲
のスクリプトタイプの既知の空間分布とを比較する。図
５及び図６に示すように、ローマン体やキリル体を含む
ヨーロッパのスクリプトは空間分布内に２つ以上のはっ
きりわかるピーク（図心より上に少なくとも１つ、そし
て図心より下に少なくとも１）を有する。対照的に、漢
字、ハングル、および日本文字を含むアジアのスクリプ
トは、図５及び図６に示すように、図心の近くにピーク
がある、よりなだらかな分布を有する。

【００２４】本発明は、統計に基づいているので、非常
に頑強であり、非常に不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号、またはそのディ
ジタルデータ信号から生成された関連構成要素は、文書
のすべての文字を完璧に表している必要がない。それど
ころか、本発明は、１つの関連構成要素文字を２つまた
はそれ以上の関連構成要素に分割したり、２つまたはそ
れ以上の独立した関連構成要素を１つの関連構成要素に
併合するなど、普通の走査エラーにも耐えることができ
る。

【００２５】さらに、スクリプト決定手段３６によって
スクリプトがヨーロッパのスクリプトであると決定され
たら、テキスト部分１０４と（または）ブラックパスコ
ード空間分布を詳しく分析して、テキスト部分１０４の
文字列がキリル体であるかローマン体であるか、さら
に、テキスト部分１０４のテキスト文字列がローマン体
である場合には、テキスト部分１０４のテキスト文字列
で表現された言語が英語か、フランス語か、ドイツ語か
を決定することができる。さらに、スクリプトがアジア
のスクリプトであると決定された場合には、スクリプト
決定手段３６は、スクリプトがハングル（朝鮮文字）を
表しているか、漢字または日本文字のどちらであるかを
おおざっぱに決定することができる。しかし、スクリプ
ト決定手段３６はスクリプトが漢字であるか、日本文字
であるか決定することができない。その理由はそれらの
スクリプト群がほとんど同じ空間分布をもつからであ
る。

【００２６】スクリプト決定手段３６がスクリプトタイ
プを決定したら、ディジタルデータ信号にさらに処理を
加えて、個々の言語の決定の信頼水準を高めることがで
きる。すなわち、スクリプト決定手段３６の結果を、本
発明によって決定されたスクリプトおよび言語に最も適
した光学式文字認識アルゴリズムを選択することができ
る光学式文字認識装置へ直接に出力することができる。

【００２７】本発明の第２の好ましい実施例において
は、特徴決定手段３４によって捜し出されたスクリプト
特徴のタイプに応じて、図心決定手段３２および境界生
成手段３０を選択的に置き換えたり、除去したりするこ
とができる。たとえば、もし特徴決定手段３４が境界ボ
ックスの縦横比を決定すれば、図心決定手段３２は不要
であり、除去することができる。他方、もし特徴決定手
段３４が形状測度を決定すれば、境界ボックス生成手段
３０も、図心決定手段３２も不要である。従って、特徴
決定手段３４が選定した特徴を捜し出せるように、ディ
ジタルコンピュータ１１４が必要な手段を備えることは
理解されるであろう。

【００２８】図９に、上に述べたスクリプト決定装置の
動作の簡単なフローチャートを示す。ステップＳ１００
において、装置は処理を開始し、ステップＳ１１０にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップＳ１２０において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用し
て、ディジタルイメージデータ信号をクリーンアップす
る。ステップＳ１３０において、ディジタルイメージデ
ータ信号の関連構成要素を識別し、ステップＳ１４０に
おいて、決定した各関連構成要素について境界ボックス
を生成する。ステップＳ１５０において、各境界ボック
スについて図心を決定し、ステップＳ１６０において、
所定のスクリプト特徴のリストから少なくとも１つのス
クリプト特徴を選定する。次に、ステップＳ１７０にお
いて、各スクリプト特徴について、その存在と境界ボッ
クスに対する位置を決定する。次に、ステップ１８０に
おいて、図心に対するスクリプト特徴の空間分布を決定
する。最後にステップ１９０において、その空間分布か
らスクリプトタイプを決定する。

【図面の簡単な説明】

【図１】２つの見本テキストのスクリプト（ローマン体
と日本文字）を含む文書イメージを示す図である。

【図２】図１の文書の各関連構成要素の境界ボックスを
示す図である。

【図３】図２の各関連構成要素の図心の位置を示す図で
ある。

【図４】図２の関連構成要素のブラックパスタイプのス
クリプト特徴を示す図である。

【図５】ヨーロッパ言語とアジア言語について、図心に
対するブラックパスタイプのスクリプト特徴の垂直分布
を示す図である。

【図６】ヨーロッパ言語とアジア言語について、図心に
対するブラックパスタイプのスクリプト特徴の垂直分布
を示す図である。

【図７】図４のブラックパスタイプのスクリプト特徴を
一般化形で示す図である。

【図８】光学式文字認識装置のブロック図である。

【図９】本発明のスクリプト決定のフローチャートであ
る。

【符号の説明】

２２メモリ２４入出力手段２６イメージメモリ２８関連構成要素生成手段３０境界ボックス生成手段３２図心決定手段３４特徴決定手段３６スクリプト決定手段１００文書１０２イメージ１０４テキスト部分１１０スキャナ１１２イメージメモリ１１４ディジタルコンピュータ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ディヴィッドエイハルアメリカ合衆国カリフォルニア州 94305 スタンフォードエスコンディドヴィレッジ 35ディー

Claims

【特許請求の範囲】

【請求項１】文書上のイメージのテキスト部分のスク
リプトタイプを決定するための自動スクリプト決定装置
であって、文書を走査し、各信号部分がイメージの複数の画素の対
応する１つを表すデータを含む複数の信号部分から成
る、文書のイメージを表すディジタルデータ信号を出力
するスキャナ、ディジタルデータ信号を保存するメモリ、およびイメー
ジのテキスト部分のスクリプトタイプを決定する制御装
置、から成り、前記制御装置が、複数の信号部分から複数の関連構成要素を生成する関連
構成要素生成手段、複数の各関連構成要素について複数の信号部分を取り囲
む対応する境界ボックスを生成する境界ボックス生成手
段、各対応する境界ボックスの図心を決定する図心決定手
段、各対応する境界ボックスについて少なくとも１つの所定
のタイプのスクリプト特徴に一致するスクリプト特徴を
捜し出す特徴決定手段、捜し出したスクリプト特徴の空間分布を決定する空間分
布決定手段、決定した空間分布と所定の空間分布とを比較する比較手
段、および決定したスクリプトタイプを表す信号を出力
する出力手段、から成ることを特徴とする装置。