JPH0721320A - 自動スクリプト決定装置 - Google Patents

自動スクリプト決定装置

Info

Publication number
JPH0721320A
JPH0721320A JP6070295A JP7029594A JPH0721320A JP H0721320 A JPH0721320 A JP H0721320A JP 6070295 A JP6070295 A JP 6070295A JP 7029594 A JP7029594 A JP 7029594A JP H0721320 A JPH0721320 A JP H0721320A
Authority
JP
Japan
Prior art keywords
script
image
document
bounding box
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6070295A
Other languages
English (en)
Inventor
A Lawrence Spitz
ローレンス スピッツ エイ
David A Hull
エイ ハル ディヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0721320A publication Critical patent/JPH0721320A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 文書のスクリプトタイプを自動的に決定する
装置を提供する。 【構成】 本装置の関連構成要素生成手段は文書のテキ
ストイメージを構成する画素から関連構成要素を生成す
る。境界ボックス生成手段は各関連構成要素を取り囲む
境界ボックスを生成する。図心決定手段は1つまたはそ
れ以上の選定したタイプのスクリプト特徴の位置(図心
に対する)を決定する。スクリプト決定手段は全テキス
トイメージについて捜し出したスクリプト特徴の空間分
布を決定し、決定した空間分布と、少なくとも1つのス
クリプトタイプの所定の分布とを比較して、テキストイ
メージのスクリプトタイプを決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動文書認識方法およ
び装置、より詳細には文書のテキスト部分の文字のスク
リプトタイプを自動的に決定する装置に関するものであ
る。
【0002】
【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータに変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
しかし、適切な文字認識方法の選択は文書に使用されて
いるスクリプト(アルファベットまたは表意文字)によ
って大きく左右される。また、適切なエラー修正方法の
選択は文書の言語によって大きく左右される。従来は、
文書に使用されているスクリプトおよび言語が、装置が
使用されている国の「公式」スクリプトおよび言語であ
ると想定して、光学式文字認識方法や光学式文字認識装
置におけるエラー修正方法が提供されてきた。すなわ
ち、米国においては、通常の光学式文字認識装置は、文
書が英語で、ローマン体を使用していると想定している
であろう。これに対し、日本においては、言語が日本語
で、日本文字を使用していると想定して、文字認識装置
が具体化されているであろう。代わりに、複数の言語に
ついて文字認識方法とエラー修正方法を使用し、光学式
文字認識装置を具体化することができる。
【0003】しかし、これまでは、光学式文字認識装置
に文書の言語を自動的に決定させることは不可能であっ
た。それどころか、各文書を光学式文字認識装置に与え
るときに、文書の個々の言語およびスクリプトについて
一定の指示を光学式文字認識装置に与えなければならな
い。これは、オペレータが文書の言語およびスクリプト
に関するデータを光学式文字認識装置に入力するか、ま
たは文書の言語およびスクリプトを指示する特殊な標識
を文書に付けることによって果たされてきた。
【0004】
【発明が解決しようとする課題】従って、本発明の目的
は、自動的にスクリプトおよび言語を認識する能力を備
えた光学式文字認識装置を提供することである。
【0005】本発明の第2の目的は、文書の文字スクリ
プトタイプを自動的に決定する装置を提供することであ
る。
【0006】本発明の第3の目的は、決定したスクリプ
トタイプに基づいて、文書の個々の言語を決定する装置
を提供することである。
【0007】本発明の第4の目的は、スクリプト特徴に
基づいて、文書の文字の文字スクリプトタイプを決定す
る装置を提供することである。
【0008】
【課題を解決するための手段】本発明の第1の好ましい
実施例に従って、文書が走査され、すべての非テキスト
情報が除去される。次に、得られたテキストイメージは
スキュー、その他の走査人工産物について修正される
(もし必要ならば)。文書のイメージが走査され、クリ
ーンアップされたら、イメージは、位置およびイメージ
濃度をもつ画素のビットマップから複数の関連構成要素
へ変換される。関連構成要素が生成されたあと、各関連
構成要素について境界ボックスが生成され、そして境界
ボックスの図心が決定される。次に、所定のスクリプト
特徴の図心まわりの分布が決定される。このスクリプト
特徴の分布に基づいて、文書の言語のスクリプトタイプ
が決定される。
【0009】本発明の第2の好ましい実施例において
は、選定したスクリプト特徴は上向きに開いた凹形であ
る。そのような凹形を捜し出す好ましい方法は、ブラッ
クパスコード(black pass code) を見つけ出すことで
ある。本発明の第3の実施例においては、境界ボックス
の図心が決定され、この図心に対するスクリプト特徴の
分布が決定される。
【0010】
【実施例】図8に示すように、従来の光学式文字認識装
置は電荷結合素子(CCD)または同種の素子を含むス
キャナ110を備えている。スキャナ110は、未知の
スクリプトおよび言語の文字列を含むイメージ102を
もつ文書100を走査し、イメージ102を構成する複
数の画素の位置およびイメージ濃度を表すディジタルデ
ータ信号を出力する。このディジタルデータ信号はメモ
リ112へ送られ、そこに一時的または無期限に保存さ
れる。ディジタルデータ信号は、メモリ112から出力
されると、汎用ディジタルコンピュータ114へ入力さ
れる。コンピュータ114へ入力された後、ディジタル
データ信号は、最初に、イメージ102のすべての非テ
キスト部分を除去し、テキスト部分を残すことによって
クリーンアップされる。さらに、ディジタルデータ信号
内のすべてのスキャナ人工産物、たとえばスキューまた
は同種の物が修正される。クリーンアップされたディジ
タルデータ信号は、そのあとメモリ112に再び保存さ
れるか、コンピュータ114のメモリに保存される。代
わりに、スキャナによって一部の前処理たとえばスキャ
ナ人工産物の除去を実施することができる。
【0011】図8に示すように、本発明の汎用ディジタ
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、イメージ102の決定されたスクリプトタイプ
を表す信号を出力する入出力手段24を含んでいる。汎
用コンピュータ114は、さらに、ディジタルデータ信
号を保存するイメージメモリ26、ディジタルデータ信
号から関連構成要素を生成する関連構成要素生成手段2
8、各関連構成要素について境界ボックスの座標と、境
界ボックス内のディジタルイメージの画素の座標を決定
する境界ボックス生成手段30、各境界ボックスの図心
を決定する図心決定手段32、各境界ボックスについて
1つまたはそれ以上のタイプの所定のスクリプト特徴の
空間位置を決定する特徴決定手段34、および文書のス
クリプトタイプを決定するスクリプト決定手段36を含
んでいる。制御プログラムを保存するメモリ22は、R
OM22aまたはRAM22bのどちらでもよい。
【0012】動作中、図1に示したイメージ102をも
つ文書100がスキャナ110に挿入され、走査され、
直列または並列ディジタルデータ信号が生成される。デ
ィジタルデータ信号は、各信号部分が原イメージ102
のテキスト部分104の対応する画素を表している複数
の信号部分から成っている。テキスト部分104の各画
素はテキスト部分104内の位置とイメージ濃度を有し
ている。従って、ディジタルデータ信号の各信号部分
は、対応する画素の位置とイメージ濃度を表すデータを
含んでいる。
【0013】そのあと、スキャナ110によって出力さ
れたディジタルデータ信号はメモリ112に保存され
る。メモリ112はRAM、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ112の
形式に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度データに応じて、メモリ112
内に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直接に入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112の代わりに、汎用ディジ
タルコンピュータ114のメモリ22または26を使用
することができる。いずれにせよ、メモリ112がイメ
ージ102を長期間保存するため使用されることは理解
されるであろう。
【0014】オペレータによるスキャナ110への文書
の入力が終了したら、あるいは装置が別のやり方でテキ
スト部分104を表すディジタルデータ信号をテキスト
データへ変換すべきであると決定すると、テキスト部分
104を表すディジタルデータ信号がメモリ112から
汎用ディジタルコンピュータ114へ出力される。汎用
ディジタルコンピュータ114の代わりに、専用コンピ
ュータまたはハードワイヤード論理回路を使用してもよ
いことはもちろん理解されるであろう。
【0015】メモリ112に保存されたディジタルデー
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。ディジタルデータ信号がイメージメモリ26に完全
に保存されたら、ディジタルデータ信号は関連構成要素
生成手段28にとって利用可能になる。図2に示すよう
に、関連構成要素生成手段28は、イメージ102を表
すディジタルデータ信号を、各関連構成要素が1つまた
はそれ以上の信号部分から成る複数の関連構成要素に分
割する。各関連構成要素は、一定の最小イメージ濃度を
もち、連続する経路を作っている原テキスト部分104
の画素に対応する信号部分から成っている。各文字は、
一般に、“Fuji”の“F ”のように1つの関連構成要
素、または“Fuji”の“j”または“i”のように1つ
より多い関連構成要素に対応している。
【0016】関連構成要素生成手段28がディジタルデ
ータ信号からテキスト部分104について複数の関連構
成要素を生成すると、テキスト部分104に対応するデ
ィジタルデータ信号と、関連構成要素生成手段28によ
って生成された関連構成要素のリストがイメージメモリ
26と境界ボックス生成手段30へ出力される。
【0017】境界ボックス生成手段30は、テキスト部
分104を表すディジタルデータ信号を複数の境界ボッ
クスに再分割する。図2に示すように、各境界ボックス
には、1つの関連構成要素と、その関連構成要素を構成
している信号部分に隣接したディジタルデータ信号の信
号部分が、零、1つまたはそれ以上入っている。各境界
ボックスの寸法は、対応する関連構成要素を構成してい
る一番左と一番右の信号部分、および一番上と一番下の
信号部分の位置データによって決定される。従って、境
界ボックス内の信号部分は、イメージ濃度データに関係
なく、関連構成要素を構成する信号部分と、関連構成要
素を境界ボックスの境界の中に置く位置データをもつ信
号部分である。境界ボックス生成手段30によって境界
ボックスのリストと各境界ボックスを構成する信号部分
が生成されたら、境界ボックスのリストと対応する信号
部分がイメージメモリ26と図心決定手段32へ出力さ
れる。
【0018】図心決定手段32は各境界ボックスについ
て「質量中心」を決定する。すなわち、図心決定手段3
2は、図3に示すように、横中央線と縦中央線を決定す
る。横中央線と縦中央線の交点が境界ボックスの図心で
ある。従って、横中央線より上の信号部分のイメージ濃
度の和は横中央線より下の信号部分のイメージ濃度の和
に等しく、また縦中央線より左の信号部分のイメージ濃
度の和は縦中央線の右の信号部分のイメージ濃度の和に
等しい。
【0019】図心決定手段32が複数の各境界ボックス
の図心を決定したら、図心のリストがメモリ26へ出力
され、そして境界ボックスのリスト、各境界ボックスに
対応する信号部分、および各境界ボックスの図心の位置
が特徴決定手段34へ出力される。特徴決定手段34
は、境界ボックスの図心に関連して、各境界ボックスに
ついて、個々の境界ボックスに対応する関連構成要素の
1つまたはそれ以上の所定の文字特徴の存在と位置を決
定する。特徴決定手段34によって決定することができ
る特徴のタイプは一般に自由である。たとえば、特徴
は、関連構成要素内の上向きに開いた凹形(または境界
ボックスの任意の適当な方向に沿った関連構成要素の凹
形)、ホワイトパスの分布(水平および垂直)、形状測
度(非縁の黒色画素から一番近い白色画素まで多くの方
向で距離をサンプリングして測定したストローク厚さの
角度分布、関連構成要素の母集団近接分布、関連構成要
素の境界ボックスの縦横比分布、関連構成要素の境界ボ
ックスの面積分布、関連構成要素の濃度分布(長方形内
の“on”画素の割合)、ベースラインに対する関連構
成要素のトップおよびボトム位置、および投影プロフィ
ール(画素、関連構成要素の数)でもよい。しかし、上
向きに開いた凹形を特徴決定手段で決定することが好ま
しい。上向きに開いた凹形を捜し出す好ましい方法は、
「ブラックパスコード(black pass code)」を捜し出す
ことである。本出願の発明者は、各ブラックパスコード
が上向きに開いた凹形に対応することに限定した。
【0020】ブラックパスコードは、CCITT Group III,
2-dimensional (T.4) and Group IV (T.6) Recommenda
tions によって規定された複数のパスコードの1つであ
る。図7に示すように、ブラックパスコードは、前ライ
ンすなわち「基準」ライン内の第1タイプのイメージ濃
度データをもつ信号部分から第2タイプのイメージ濃度
データをもつ信号部分への遷移の位置に関連して、最初
のラインすなわち「コーディング」ライン内の第1タイ
プのイメージ濃度データをもつ1つまたはそれ以上の信
号部分の列から第2タイプのイメージ濃度データをもつ
1つまたはそれ以上の信号部分の列への個々の遷移であ
ると定義する。本発明においては、各「ライン」は、境
界ボックスの幅を横切って相互に隣接して水平方向に置
かれた画素を表す一組の信号部分であると定義する。
【0021】詳しく述べると、本発明の特徴決定手段3
4は、高イメージ濃度から低イメージ濃度への最初の遷
移が、基準ライン上の低イメージ濃度から高イメージ濃
度への第2の遷移の右へ、コーディングライン上に出現
したときを決定する。図4に示すように、上記の遷移
は、吟味中の境界ボックスに対応する関連構成要素に上
向きに開いた凹形が出現したことを示す。
【0022】本発明の第1の好ましい実施例において
は、特徴決定手段34がブラックパスコードを捜し出
す。従って、特徴決定手段34によって、すべての上向
きに開いた凹形が捜し出され、対応する境界ボックスの
図心に対するそれらの垂直位置が決定される。図4に示
すように、テキスト部分104の複数の境界ボックスが
吟味され、複数の境界ボックス内の関連構成要素の上向
きに開いた凹形が捜し出され、対応する図心に対するそ
れらの位置が決定されたら、特徴決定手段34は、上に
開いた凹形のリストおよび図心に対するそれらの位置を
メモリ26およびスクリプト決定手段36へ出力する。
【0023】スクリプト決定手段36は、特徴決定手段
34によって決定されたスクリプト特徴の空間分布(図
心に対し正規化した)を決定し、その空間分布と広範囲
のスクリプトタイプの既知の空間分布とを比較する。図
5及び図6に示すように、ローマン体やキリル体を含む
ヨーロッパのスクリプトは空間分布内に2つ以上のはっ
きりわかるピーク(図心より上に少なくとも1つ、そし
て図心より下に少なくとも1)を有する。対照的に、漢
字、ハングル、および日本文字を含むアジアのスクリプ
トは、図5及び図6に示すように、図心の近くにピーク
がある、よりなだらかな分布を有する。
【0024】本発明は、統計に基づいているので、非常
に頑強であり、非常に不完全に印刷された、または走査
された、またはその両方の文書にも耐えることができ
る。すなわち、ディジタルデータ信号、またはそのディ
ジタルデータ信号から生成された関連構成要素は、文書
のすべての文字を完璧に表している必要がない。それど
ころか、本発明は、1つの関連構成要素文字を2つまた
はそれ以上の関連構成要素に分割したり、2つまたはそ
れ以上の独立した関連構成要素を1つの関連構成要素に
併合するなど、普通の走査エラーにも耐えることができ
る。
【0025】さらに、スクリプト決定手段36によって
スクリプトがヨーロッパのスクリプトであると決定され
たら、テキスト部分104と(または)ブラックパスコ
ード空間分布を詳しく分析して、テキスト部分104の
文字列がキリル体であるかローマン体であるか、さら
に、テキスト部分104のテキスト文字列がローマン体
である場合には、テキスト部分104のテキスト文字列
で表現された言語が英語か、フランス語か、ドイツ語か
を決定することができる。さらに、スクリプトがアジア
のスクリプトであると決定された場合には、スクリプト
決定手段36は、スクリプトがハングル(朝鮮文字)を
表しているか、漢字または日本文字のどちらであるかを
おおざっぱに決定することができる。しかし、スクリプ
ト決定手段36はスクリプトが漢字であるか、日本文字
であるか決定することができない。その理由はそれらの
スクリプト群がほとんど同じ空間分布をもつからであ
る。
【0026】スクリプト決定手段36がスクリプトタイ
プを決定したら、ディジタルデータ信号にさらに処理を
加えて、個々の言語の決定の信頼水準を高めることがで
きる。すなわち、スクリプト決定手段36の結果を、本
発明によって決定されたスクリプトおよび言語に最も適
した光学式文字認識アルゴリズムを選択することができ
る光学式文字認識装置へ直接に出力することができる。
【0027】本発明の第2の好ましい実施例において
は、特徴決定手段34によって捜し出されたスクリプト
特徴のタイプに応じて、図心決定手段32および境界生
成手段30を選択的に置き換えたり、除去したりするこ
とができる。たとえば、もし特徴決定手段34が境界ボ
ックスの縦横比を決定すれば、図心決定手段32は不要
であり、除去することができる。他方、もし特徴決定手
段34が形状測度を決定すれば、境界ボックス生成手段
30も、図心決定手段32も不要である。従って、特徴
決定手段34が選定した特徴を捜し出せるように、ディ
ジタルコンピュータ114が必要な手段を備えることは
理解されるであろう。
【0028】図9に、上に述べたスクリプト決定装置の
動作の簡単なフローチャートを示す。ステップS100
において、装置は処理を開始し、ステップS110にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップS120において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用し
て、ディジタルイメージデータ信号をクリーンアップす
る。ステップS130において、ディジタルイメージデ
ータ信号の関連構成要素を識別し、ステップS140に
おいて、決定した各関連構成要素について境界ボックス
を生成する。ステップS150において、各境界ボック
スについて図心を決定し、ステップS160において、
所定のスクリプト特徴のリストから少なくとも1つのス
クリプト特徴を選定する。次に、ステップS170にお
いて、各スクリプト特徴について、その存在と境界ボッ
クスに対する位置を決定する。次に、ステップ180に
おいて、図心に対するスクリプト特徴の空間分布を決定
する。最後にステップ190において、その空間分布か
らスクリプトタイプを決定する。
【図面の簡単な説明】
【図1】2つの見本テキストのスクリプト(ローマン体
と日本文字)を含む文書イメージを示す図である。
【図2】図1の文書の各関連構成要素の境界ボックスを
示す図である。
【図3】図2の各関連構成要素の図心の位置を示す図で
ある。
【図4】図2の関連構成要素のブラックパスタイプのス
クリプト特徴を示す図である。
【図5】ヨーロッパ言語とアジア言語について、図心に
対するブラックパスタイプのスクリプト特徴の垂直分布
を示す図である。
【図6】ヨーロッパ言語とアジア言語について、図心に
対するブラックパスタイプのスクリプト特徴の垂直分布
を示す図である。
【図7】図4のブラックパスタイプのスクリプト特徴を
一般化形で示す図である。
【図8】光学式文字認識装置のブロック図である。
【図9】本発明のスクリプト決定のフローチャートであ
る。
【符号の説明】
22 メモリ 24 入出力手段 26 イメージメモリ 28 関連構成要素生成手段 30 境界ボックス生成手段 32 図心決定手段 34 特徴決定手段 36 スクリプト決定手段 100 文書 102 イメージ 104 テキスト部分 110 スキャナ 112 イメージメモリ 114 ディジタルコンピュータ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ディヴィッド エイ ハル アメリカ合衆国 カリフォルニア州 94305 スタンフォード エスコンディド ヴィレッジ 35ディー

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書上のイメージのテキスト部分のスク
    リプトタイプを決定するための自動スクリプト決定装置
    であって、 文書を走査し、各信号部分がイメージの複数の画素の対
    応する1つを表すデータを含む複数の信号部分から成
    る、文書のイメージを表すディジタルデータ信号を出力
    するスキャナ、 ディジタルデータ信号を保存するメモリ、およびイメー
    ジのテキスト部分のスクリプトタイプを決定する制御装
    置、から成り、前記制御装置が、 複数の信号部分から複数の関連構成要素を生成する関連
    構成要素生成手段、 複数の各関連構成要素について複数の信号部分を取り囲
    む対応する境界ボックスを生成する境界ボックス生成手
    段、 各対応する境界ボックスの図心を決定する図心決定手
    段、 各対応する境界ボックスについて少なくとも1つの所定
    のタイプのスクリプト特徴に一致するスクリプト特徴を
    捜し出す特徴決定手段、 捜し出したスクリプト特徴の空間分布を決定する空間分
    布決定手段、 決定した空間分布と所定の空間分布とを比較する比較手
    段、および決定したスクリプトタイプを表す信号を出力
    する出力手段、から成ることを特徴とする装置。
JP6070295A 1993-04-19 1994-04-08 自動スクリプト決定装置 Withdrawn JPH0721320A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/047515 1993-04-19
US08/047,515 US5444797A (en) 1993-04-19 1993-04-19 Method and apparatus for automatic character script determination

Publications (1)

Publication Number Publication Date
JPH0721320A true JPH0721320A (ja) 1995-01-24

Family

ID=21949410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6070295A Withdrawn JPH0721320A (ja) 1993-04-19 1994-04-08 自動スクリプト決定装置

Country Status (6)

Country Link
US (1) US5444797A (ja)
EP (1) EP0621552B1 (ja)
JP (1) JPH0721320A (ja)
KR (1) KR970002421B1 (ja)
DE (1) DE69423926T2 (ja)
TW (1) TW248600B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5955506A (en) * 1996-04-03 1999-09-21 Centaur Pharmaceuticals, Inc. Benzamides for neurodegenerative disorder treatment
JP2010015555A (ja) * 2008-06-30 2010-01-21 Sharp Corp デジタル画像の特徴判定方法およびシステム
JP2011233160A (ja) * 2007-07-10 2011-11-17 Sharp Corp 画像データの特徴を特定する方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69435214D1 (de) * 1993-12-10 2009-08-06 Ricoh Kk Verfahren zur Bilderkennung und zum Herausziehen und Erkennen eines spezifizierten Bildes aus einem Bildeingabesignal
US5699453A (en) * 1994-09-30 1997-12-16 Xerox Corporation Method and apparatus for logically tagging of document elements in the column by major white region pattern matching
US5757963A (en) * 1994-09-30 1998-05-26 Xerox Corporation Method and apparatus for complex column segmentation by major white region pattern matching
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
DE69604481T2 (de) * 1995-01-31 2000-03-30 United Parcel Service Of America, Inc. Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
US5844991A (en) * 1995-08-07 1998-12-01 The Regents Of The University Of California Script identification from images using cluster-based templates
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
JP2738383B2 (ja) * 1996-02-29 1998-04-08 日本電気株式会社 宛名読み取り装置
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6005986A (en) * 1997-12-03 1999-12-21 The United States Of America As Represented By The National Security Agency Method of identifying the script of a document irrespective of orientation
US6064767A (en) * 1998-01-16 2000-05-16 Regents Of The University Of California Automatic language identification by stroke geometry analysis
JP4320064B2 (ja) * 1998-07-10 2009-08-26 富士通株式会社 画像処理装置及び記録媒体
EP1393189A4 (en) 2001-05-02 2007-06-13 Bitstream Inc METHODS, SYSTEMS AND PROGRAMMING FOR DISPLAYING REDUCED CONTENTS USING A VARIABLE SCALE FACTOR
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
US7020338B1 (en) 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US20040183817A1 (en) * 2002-12-03 2004-09-23 Bitstream Inc. Methods, systems, and programming for scaled display of web pages
US7512273B2 (en) * 2004-10-21 2009-03-31 Microsoft Corporation Digital ink labeling
JP2006253842A (ja) 2005-03-08 2006-09-21 Ricoh Co Ltd 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
US7796837B2 (en) * 2005-09-22 2010-09-14 Google Inc. Processing an image map for display on computing device
JP5139716B2 (ja) * 2007-05-16 2013-02-06 キヤノン株式会社 画像検索装置及び画像検索方法
US8744171B1 (en) 2009-04-29 2014-06-03 Google Inc. Text script and orientation recognition
US7965894B2 (en) * 2009-06-30 2011-06-21 Konica Minolta Systems Laboratory, Inc. Method for detecting alterations in printed document using image comparison analyses
US8151186B1 (en) * 2011-03-11 2012-04-03 Google Inc. Comparing text pages using image features based on word positions
US20170068868A1 (en) * 2015-09-09 2017-03-09 Google Inc. Enhancing handwriting recognition using pre-filter classification

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置
JPS58222384A (ja) * 1982-06-18 1983-12-24 Ricoh Co Ltd フオント識別方式
JPS5960574A (ja) * 1982-09-30 1984-04-06 Fujitsu Ltd 文字認識方式
US4802230A (en) * 1987-03-13 1989-01-31 Gtx Corporation Method and apparatus for generating size and orientation invariant shape features
JPS63261486A (ja) * 1987-04-20 1988-10-28 Nec Corp 書体識別装置
US5048100A (en) * 1988-12-15 1991-09-10 Michael Kuperstein Self organizing neural network method and system for general classification of patterns
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information
JPH0540846A (ja) * 1991-08-06 1993-02-19 Oki Electric Ind Co Ltd 文書画像の和文・欧文判定方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5955506A (en) * 1996-04-03 1999-09-21 Centaur Pharmaceuticals, Inc. Benzamides for neurodegenerative disorder treatment
JP2011233160A (ja) * 2007-07-10 2011-11-17 Sharp Corp 画像データの特徴を特定する方法
JP2010015555A (ja) * 2008-06-30 2010-01-21 Sharp Corp デジタル画像の特徴判定方法およびシステム

Also Published As

Publication number Publication date
KR970002421B1 (ko) 1997-03-05
DE69423926D1 (de) 2000-05-18
EP0621552A2 (en) 1994-10-26
EP0621552B1 (en) 2000-04-12
US5444797A (en) 1995-08-22
DE69423926T2 (de) 2000-08-17
KR940024626A (ko) 1994-11-18
TW248600B (ja) 1995-06-01
EP0621552A3 (en) 1995-05-17

Similar Documents

Publication Publication Date Title
JPH0721320A (ja) 自動スクリプト決定装置
JPH0721319A (ja) 自動アジア言語決定装置
US5377280A (en) Method and apparatus for automatic language determination of European script documents
US5563403A (en) Method and apparatus for detection of a skew angle of a document image using a regression coefficient
US6466694B2 (en) Document image processing device and method thereof
EP0358815B1 (en) System and method for automatic segmentation
US7454060B2 (en) Image processor for character recognition
US5101448A (en) Method and apparatus for processing a document by utilizing an image
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US5659638A (en) Method and system for converting bitmap data into page definition language commands
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
JPH0713995A (ja) 自動テキスト特徴決定装置
JPH05500129A (ja) 光学式文字認識のための行ごとのセグメント化及びしきい値設定
JP2005303880A (ja) 画像形成装置、画像形成方法およびプログラム
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JP3187895B2 (ja) 文字領域抽出方法
JPH08237404A (ja) 光学文字認識モードの選択方法
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
JPH0535914A (ja) 画像傾き検出方法
JPH09237317A (ja) 一般文書読取装置
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JPH06195515A (ja) 文字認識装置
JP2002016799A (ja) 文字検出装置、これを備えた複写機及び文字検出方法
JPH10154207A (ja) 文字切出し方法および文字切出し装置
JPH0863545A (ja) 文字認識処理装置における文字方向および行方向決定方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010703