JPH0798765A - 方向検出方法および画像解析装置 - Google Patents

方向検出方法および画像解析装置

Info

Publication number
JPH0798765A
JPH0798765A JP6104345A JP10434594A JPH0798765A JP H0798765 A JPH0798765 A JP H0798765A JP 6104345 A JP6104345 A JP 6104345A JP 10434594 A JP10434594 A JP 10434594A JP H0798765 A JPH0798765 A JP H0798765A
Authority
JP
Japan
Prior art keywords
line
edge
determining
graph
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6104345A
Other languages
English (en)
Inventor
David J Ittner
ジャック イツナー デビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Publication of JPH0798765A publication Critical patent/JPH0798765A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 画像内の文字ラインの方向の決定を行う。 【構成】 テキストブロックイメージ内のシンボルをエ
ッジ(ライン)で連結することによってグラフを作成し
た後、最短エッジの主要な方向が決定される。ライン内
のシンボルは互いに他のライン内のシンボルに対してよ
りも近接しているため、最短エッジの主要な方向はライ
ンの方向と同一である。最短エッジを得るため、グラフ
からユークリッド最小スパニングツリーを作成する。ユ
ークリッド最小スパニングツリーは、もとのグラフのす
べてのノード(シンボル)を含み、それらのノードをエ
ッジの最短の組によって連結したものである。ユークリ
ッド最小スパニングツリー内での主要なエッジが最短エ
ッジである。どのエッジが主要なものであるかはヒスト
グラムにより決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は画像の解釈に関し、特に
文字ラインの方向の決定に関する。
【0002】
【従来の技術】画像解釈の重要な領域の一つとして、光
学的文字認識が挙げられる。光学的文字認識において
は、シンボルイメージがそのシンボルを表す2進符号に
自動的に翻訳される。光学的文字認識における主要な問
題点は、シンボルの適切な方向の決定である。この問題
は、以下の三つの場合に起こりうる。第一に、光学的文
字認識装置(OCR)のユーザが、OCRの撮像素子の
プラテン上に文字の書かれたページを適切に配置しそこ
なう場合。第二に、OCRが相異なった方向を有するラ
イン上に書かれたテキストを扱うために用いられる場
合。例えば、英文が書かれたページはそのページの長手
方向にラインが走る横長のスタイルでかかれている場合
もあるが、垂直に書かれたラインがある場合もある。あ
る種の正書法においては垂直のラインを必要とするが、
別の正書法においてはラインは垂直あるいは水平のいず
れでもよい。第三に、単一のページ内に相異なった方向
を有するラインによって占められた複数の区画が存在す
る場合。これらのすべての場合において、OCRシステ
ムはテキストを構成しているシンボルの解釈を、それら
のシンボルを含んでいるラインの方向を決定してしまわ
ない限りは開始することが出来ない。
【0003】ラインの方向の決定のための従来技術に係
る技法は、以下の2つに分類される。 1.ラインの公
称方向に関する従前の決定から開始してユーザによって
引き起こされた配置誤差のみを修正しようと試みるも
の。 2.従前の仮定によらずにラインの方向を決定するも
の。 第一のタイプの技法の一例は、エイチ.エス.ベアード
(H. S. Baird)による「ドキュメント画像のスキュー制
御のための装置およびその方法」という表題の1991
年3月19日発行の米国特許第5,001,766号で
ある。第二のタイプの技法の一例は、エル.オゴルマン
(L. O'Gorman)による「ページレイアウトアナリシス向
けのドキュメントスペクトラム」(1992年構造的お
よび文法的パターン認識に関する国際パターン認識ワー
クショップアソシエーション)という表題の論文および
アキヒデ・ハシズメらによる「配列された構成要素の方
向検出方法」(パターン・レコグニション・レターズ(P
attern Recognition Letters)誌、1986年4月)と
いう表題の論文に見い出される。
【0004】
【発明が解決しようとする課題】第一のタイプの技法
は、OCRシステムが複数のライン方向を有するドキュ
メントを扱う場合には人間の介在を必要とする。従来技
術に係る第二のタイプの技法は、困難な場合には良好に
機能しない。ここでの困難な場合の一例は、複数の連結
成分を有するキャラクタセットによって書かれたドキュ
メントである。この種のキャラクタセットには、(中国
の)漢字、韓国のハングル、およびタイ語などのような
アクセント記号の非常に多いものなどが含まれる。
【0005】
【課題を解決するための手段】前述の問題点は、本発明
に係る技法によって克服される。本発明に係る技法にお
いては、OCRシステムが、相異なった方向を有するテ
キストブロックを複数個含むページを自動的に処理する
ことが可能となる。さらに、本発明にかかる技法は、複
数の連結成分を有するキャラクタセットに関しても良好
に機能する。
【0006】本発明に係る技法においては、その出発点
として、明らかに普遍的な慣例、すなわち、それぞれの
シンボルはそれらが属するライン内の他のシンボルに対
してたのライン内のシンボルに対するよりも近接してい
る、という慣例、を仮定している。本発明に係る技法に
おいては、テキストブロックイメージ内のシンボルをエ
ッジによって連結することによってグラフが作成され、
次いで最短エッジの支配的な方向が決定される。同一ラ
イン上のシンボルは互いに他のライン上のシンボルに対
するよりも近接しているため、最短エッジの支配的な方
向はラインの方向と同一である。最短エッジを得るため
の有効な方法は、グラフからユークリッド最小スパニン
グツリー(Euclidean minimum spanning tree)を構成す
ることである。グラフのユークリッド最小スパニングツ
リーは、もとのグラフのすべてのノード(シンボル)を
含み、それらのノードを取りうる最短のエッジの組によ
って連結したものである。ユークリッド最小スパニング
ツリーにおいて支配的なエッジは最短エッジである。
【0007】本発明に係る装置および方法のその他の目
的および利点については、以下の実施例に関する記述か
ら明らかとなる。
【0008】
【実施例】以下、OCRシステムに関する概説、OCR
システムにおける言語依存性の問題についての議論、お
よびその問題点を解決するために本発明において用いら
れる技法、の順に記述される。
【0009】OCRシステムの役割は、シンボルイメー
ジをそのシンボルを表現するディジタル符号に翻訳する
ことである。例えば、OCRは、「A」というイメージ
を、大文字のAを表すASCII符号、065、に翻訳
することができる。OCRシステムは、イメージの作成
およびその解析という2つの主要なコンポーネントを有
している。イメージ作成コンポーネントは、通常、テキ
ストページのビットマップイメージを作成する。解析コ
ンポーネントは、そのページイメージをテキスト領域
に、テキスト領域をラインに、ラインを単語に、および
単語をシンボルイメージに分解する。その後、どのシン
ボルがどのシンボルイメージに対応しているのかを決定
し、そのページが属している文書中のそのシンボルイメ
ージの位置に対応するファイル内の位置にそのシンボル
に対するディジタル符号を配置する。
【0010】イメージ解析には種々の方法がある。種々
の技法の欠点は、それらが言語に依存していることであ
る。例えば、それら技法の多くは、テキストラインが水
平方向であり、単語がスペースによって分割されてお
り、単語を構成している文字が大部分他の文字とは区分
されているということを仮定している。このような仮定
を採用しているイメージ解析コンポーネントは西洋のア
ルファベットを用いて印刷されたテキストイメージに関
しては良好に機能するが、漢字や韓国のハングルを用い
て印刷されたテキストイメージが供給されるとほとんど
完全に機能しない。明らかに、言語により依存しないO
CRシステムが望ましい。OCRシステム製造者は、世
界中で修正なく用いられるシステムを欲している。利用
者は、人間が介在することなく種々の正書法によって印
刷されたテキストを扱えるシステムを欲している。
【0011】言語に依存しないOCRシステムを作製す
る上での問題点における重要な部分は、イメージ内のテ
キストラインがどの方向を有しているかを決定すること
である。例えば、中国語のテキストが水平ではなく垂直
に書かれていることを決定できなければOCRシステム
は機能しない。テキストラインがどの方向を向いている
かを決定することは、他の場合においても重要である。
テキストラインの方向を決定できるOCRシステムは横
長に(すなわち、テキストラインがそのページの長手方
向に配置されている)印刷されたテキストを読み取るこ
とが可能であり、OCRのイメージ生成部分上でのペー
ジの配置のずれを修正することが可能である。
【0012】ライン方向自動決定の問題点に対する本発
明に係る解決法は、その出発点として、タイプセットに
係る明らかに汎用の慣習、すなわち、文字はテキストラ
イン間ではなくテキストライン内にしっかりと印刷され
ている、という慣習に則っている。この慣習により、中
国語を全く知らない人でも図2に示された中国語のテキ
スト201内のライン202が垂直方向であることを容
易に決定できる。本発明に係る方法においては、イメー
ジにおける連結成分間の距離関係を調べることによって
上記慣習を活用している。本発明に係る技法において
は、ワーストケースの漸近実行時間としてのO(n l
og n)を達成するために、計算幾何アルゴリズムが
用いられる。ここで、nは、ブロックイメージにおける
黒色の連結成分の数である。
【0013】図3は、本発明を用いたOCR内のイメー
ジアナライザ301において実行されるステップを示し
た流れ図である。本発明に係る技法は、8連結成分がイ
メージ内で配置され(ブロック305)、ずれに対する
修正がなされ(ブロック307)、イメージがテキスト
ブロックに分割された(ブロック309)後に、ブロッ
ク311において適用される。本発明のより望ましい実
施例においては、イメージのテキストブロックへの分割
に関してずれの修正が必要とされる。他の実施例におい
ては、ずれの修正はライン方向が決定された後まで遅ら
される。8連結成分を配置する技法、ずれを修正する技
法、およびイメージをテキストブロックに分割する方法
は、当業者には公知である。例えば、エイチ.ベアード
による「多用途ページリーダの解剖」(プロシーディン
グス・オブ・ジ・アイ・トリプル・イー(Proceedings o
f the IEEE)第80巻第7号第1059−1065ペー
ジ(1992年7月))という表題の記事を参照。本発
明に係る技法がこの時点で適用されるため、この方法は
テキストラインがイメージ内の相異なった部分において
相異なった方向を有するようなイメージに対しても用い
られうる。このような特徴を有するテキストは日本語お
よび中国語において一般的であり、他の言語においても
見い出されうる。
【0014】本発明に係る技法は、その入力として、テ
キストラインの方向が決定されることになるブロックに
おける連結成分のリストを必要とする。より望ましい実
施例においては、連結成分に関するリストエレメントは
2つの項目、すなわち、イメージ内での連結成分の位置
を表すバウンドボックスおよび連結成分の領域(連結成
分内の黒ピクセルの数)、を有している。連結成分に関
して本発明に係る技法が依拠する唯一の仮定は、正書法
においては文字が原則として互いに連結していない(例
えば、日本語、中国語、ハングルなど)、というもので
ある。正書法において文字が単一のグリフ(glyph)であ
ることあるいはシンボルがラインに関して特定の方向に
あることは必要としない。例えば、本発明に係る技法
は、直立した文字を有し上から下に読む英語の縦書きラ
インおよび本来横書きにされるべきテキストによる縦書
きライン(すなわち、ページを90゜回転して水平方向
に読まれるべきライン)に関しても良好に機能する。
【0015】本発明に係る技法におけるステップは、 1.非常に小さい連結成分および非常に大きい連結成分
を濾波 2.残存する成分を平面内の点として理想化 3.これらの点からなるすべての対を連結することによ
って規定される方向性の無いグラフのユークリッド最小
スパニングツリー(EMST)を作成 4.EMST内のエッジの分布の解析により水平、垂直
あるいは不定を決定 である。
【0016】第一のステップにおいては、予測される点
のサイズのラフな推定に基づいて、文字であるにははる
かに大きすぎるあるいは小さすぎる断片を無視する。こ
のことにより、ページの境界や左右両ページの間の隙間
に沿った汚れた断片のラインなどの空間的に相関を有す
る小さなノイズによって引き起こされる問題を低減する
ことができる。
【0017】第二のステップにおいては、各連結成分が
平面内の単一の点に還元される。本発明に係る技法にお
いては、そのバウンドボックスの中心が用いられる。こ
れらの点は、完全連結無向グラフにおける頂点を規定す
る。グラフのエッジが、それらのエッジによって連結さ
れた点の間の距離によってラベリングされる。以下に示
されているように、完全連結グラフを実際に構成する必
要はない。
【0018】本発明に係る技法における計算の大部分は
ステップ3によるものである。目的は、完全連結グラフ
からユークリッド最小スパニングツリーを構成すること
である。スパニングツリーはグラフ中のすべての頂点を
連結するが、完全グラフよりもより少ない数のエッジを
有している。スパニングツリーは、スパニングツリー内
のエッジが表現している距離の総和がその総和の最小値
である場合にユークリッド最小スパニングツリーと呼ば
れる。EMSTは、テキストライン間の成分を連結する
いくつかのエッジを有するが、同一のテキストライン内
の頂点(すなわち連結成分)を連結する傾向がある。
【0019】次いでテキストラインの推定は、EMST
内のエッジの主たる方向を見い出す問題となる。本発明
のより好ましい実施例においては、エッジがツリーに追
加されるものとして、エッジの方向を0゜から180゜
の範囲で大まかなヒストグラムとして管理している(後
述)。本発明のより望ましい実施例においては、ヒスト
グラムが完成すると、最大エネルギーが含まれているカ
ラムを見い出すために当該ヒストグラムの掃引がなされ
る。0゜付近に中心を有するウィンドウ内に充分なエネ
ルギーが含まれている場合は、テキストが水平方向のテ
キストラインを有するように構成されていると決定され
る。同様に、前記ウィンドウが90゜付近に中心を有す
る場合には、垂直方向のテキストラインが仮定される。
それ以外の場合には、本発明に係るアルゴリズムは「不
定」を返す。この技法がスキューに関して寛容であるこ
とに留意されたい。なぜなら、エッジが正確に水平方向
あるいは垂直方向を向いていることを要求しないからで
ある。実際、テキストが水平方向あるいは垂直方向を向
いているものとして企図されている場合には、当該技法
はスキューを検出してそれを修正するためにも用いられ
うる。
【0020】ブロックの方向が決定されると、ブロック
内のラインが配置され(313)、そのピッチが推定さ
れ(315)、ライン内の文字が配置され(317)、
ライン内の語が配置され(319)、そして文字が分類
されて対応するディジタル符号が生成される(32
1)。ループ323によって示されているように、ステ
ップ311−321は各テキストブロックに関して反復
される。ステップ313−321を実行する技法は当業
者には公知である。本明細書に記載されている、テキス
トブロック中のラインの方向を決定する技法を採用する
OCRにおいては、ステップ315から321までのす
べてのステップが水平方向を有するラインと垂直方向を
有するラインの双方に関して機能する。OCRシステム
においては、テキストは、それぞれの言語における論理
的な読み取り順序に従って管理される。システムの出力
は、OCRによって読み取られる本来の素材の方向すな
わち読み取り方向には関りなく、前記読み取り順序に則
っている。
【0021】EMSTの効率的な生成のためのスターテ
ィングポイントは、計算幾何学の領域においては公知の
2つの構造である。そのうちの第一のものは、図1に1
01として示されているボロノイ図である。平面内の点
の組に対するボロノイ図は、各点pi103に対して、
他のあらゆる点よりもpiに近接した点の位置を規定す
る領域が存在するように、領域105を分割することに
よって生成される。領域は直線エッジ107によって規
定される。
【0022】点の組に対するデローネイ三角網は、当該
点の組に対するボロノイ図からエッジを共有する領域の
点の組を連結することによって生成される。ボロノイ図
105に対するデローネイ三角網は107に示されてい
る。
【0023】デローネイ三角網はEMSTのすべてのエ
ッジを有しており、(平面性から)総数で(3n−6)
個以下のエッジを有している。このため、(n2−n)
/2個のエッジを有する完全連結グラフのEMSTを見
い出す問題が、(3n−6)個以下のエッジを有するデ
ローネイ三角網のEMSTを見い出すことに簡略化され
る。ボロノイ図およびデローネイ三角網を計算するアル
ゴリズムは過去20年にわたって研究されてきている。
アルゴリズミカ(Algorithmica)誌に掲載されたエス.フ
ォーチューン(S. Fortune)による論文「ボロノイ図に対
するスイープラインアルゴリズム」において記述されて
いる漸近的高効率アルゴリズムにおいてはスイープライ
ン技法が用いられ、平面内のn個の点の組に対するデロ
ーネイ三角網がO(n log n)の時間内に生成され
る。このアルゴリズムは記憶領域に関しても効率的であ
り、わずかO(n)個の記憶領域のみしか必要としな
い。
【0024】デローネイ三角網からEMSTを見い出す
ためのアルゴリズムは、チェリトン(Cheriton)およびタ
ージャン(Tarjan)による「最小スパニングツリーの見い
出し」という表題の論文(SIAMジャーナル・オブ・
コンピューティング(SIAM Journal of Computing)誌第
5巻第4号(1976年12月))に与えられている。
このアルゴリズムにおいては、単一のツリー(EMS
T)が残るまでマージされるサブツリーよりなるフォー
レストを表現するデータ構造体が用いられる。前掲の論
文においては、さらに、デローネイ三角網に対して適用
された場合にEMSTがnに対してリニアな時間内に見
い出されうるようにサブツリーを選択するためのストラ
テジーも提案されている。サブツリーの最初のキューは
頂点のリストであり、よって、このアルゴリズムにおい
て必要とされる記憶領域がO(n)であることは容易に
示されうる。
【0025】よって、O(n log n)の時間内で計
算され、O(n)の記憶領域のみしか必要としないEM
STアルゴリズムが与えられることになる。
【0026】図10は、オリジナルのグラフのデローネ
イ三角網が本発明のより望ましい実施例において表現さ
れる様子を示した図である。三角網データ構造体100
1は、エンドポイントデータ構造体1003とエッジデ
ータ構造体1005とから成り立っている。フィルタリ
ングの後に残存する各々の連結成分に対してエンドポイ
ントデータ構造体1003が存在し、三角網における各
々のエッジに対してエッジデータ構造体1005が存在
する。エンドポイントデータ構造体は連結リストに構成
され、そのエンドポイントを他のエンドポイントに対し
て連結している各々のエッジに対するエッジデータ構造
体1005へのポインタが各々のエンドポイントデータ
構造体内に存在している。エッジデータ構造体それ自体
は連結リストとして構成されている。よって、エンドポ
イントデータ構造体1003(a)とエンドポイントデ
ータ構造体1003(b)の双方は、これらのエンドポ
イントデータ構造体によって表現される点を連結するエ
ッジに対するデータ構造体1005へのポインタを有す
ることになる。
【0027】図10には、エンドポイントデータ構造体
1003とエッジデータ構造体1005の内容も示され
ている。エンドポイントデータ構造体1003は、エン
ドポイント1003によって表現されるポイントのxお
よびy座標であるポインタ1007、連結成分リスト内
で連結されている成分へのポインタであるccポインタ
1009、連結成分の領域である領域1011、およ
び、当該ポイントに対して連結された各々のエッジに対
するエッジリストエントリ1013を含んでいる。エッ
ジリストエントリ1013は、そのエッジに対するエッ
ジデータ構造体1005へのポインタである。エッジデ
ータ構造体1005は4つのポインタ、すなわち、その
エッジによって連結された点に対するエンドポイントデ
ータ構造体へのポインタ1015および1017、およ
びエッジデータ構造体を連結リストへリンクする直前ポ
インタ1019および直後ポインタ1021、を有して
いる。本発明のより望ましい実施例においては、エッジ
の長さおよび方向は、エッジデータ構造体1005によ
って表現されるエッジによって連結されたポイントに対
するエンドポイントデータ構造体におけるポインタ10
07のxおよびy座標から計算される。
【0028】EMSTの計算以外の技法は、ブロックの
コンポーネントを連結することによって生成されたグラ
フのどのエッジがラインの方向決定に関して重要かを決
定するために用いられうる。k最近接点(k-nearest nei
ghbors;k−NN)法は、パターン認識において長年用
いられてきた技法である。本発明に係る技法の第3ステ
ップにおいてEMSTを見い出す代わりに、各々のポイ
ントに対してk−NNを見い出し、第4ステップにおい
てこれらのエッジの分布を調べることができる。
【0029】この技法に関する実験により、k=1では
充分な情報が得られず、k≧4ではほとんど別のテキス
トラインを連結しているエッジのために余りにも多くの
データが供給されてしまうということが示されている。
k=2あるいはk=3を選択すると大部分の場合におい
てEMSTを計算するのと同様のもっともな結果が得ら
れた。興味深いことには、均等に配置されたアルファベ
ットによるテキストに関してはEMSTを計算すること
がよりよい結果をもたらした。k−NN法では、互いに
接触した文字による広範に連結成分からの大きな寄与の
ためにテキストラインが交差してしまうように見える。
これらのことは、EMST技法の強みを示している。
【0030】エッジ方向の分布の解析は、ヒストグラム
を用いて実行される。本発明のより望ましい実施例にお
いては、ヒストグラムは0゜から180゜の間で5゜間
隔で代表値を有している。この技法がずれを検出するた
めに用いられる場合には、より小さな間隔が用いられな
ければならない。最も単純な方法は各々の代表値に対す
るカウンタをEMSTにおいてその代表値を有するエッ
ジが見い出される度にインクリメントすることである
が、実験から、代表値の表す方向を有するエッジによっ
て連結された連結成分の面積の総和(すなわち連結成分
内の黒ピクセルの数)をその代表値に対して加算する方
がカウンタをインクリメントするよりも有用であること
がわかっている。このようにすることによって、種々の
方向を向いたエッジが生成されがちなシンボル末端部の
分布に対する影響を低減することができる。主要な方向
を決定するために、各々の代表値に対する”エネルギ
ー”が計算される。ヒストグラムの代表値iに対するエ
ネルギーは(bi/Σjj2によって規定される。ここ
で、biは代表値iにおける値である。このようにする
ことによって、ヒストグラムのピークを鋭くし、ノイズ
をなまらすことができる。
【0031】本発明のより望ましい実施例においては、
ラインの方向が水平、垂直、あるいは不定であるかがヒ
ストグラムから以下のように決定される。すなわち、±
20゜のウィンドウでヒストグラムを掃引し、単一のウ
ィンドウ内で65%のエネルギーが含まれている場合に
そのラインの方向がそのウィンドウに対応する値を有し
ている決定する。
【0032】以下、本発明に係る技法を、中国語、ハン
グル、および英語に対して適用した場合の実例が記述さ
れる。図2の201は漢字で書かれた中国語のテキスト
ブロックを示している。テキストは行202を有するよ
うに構成されている。ブロック201に対するEMST
のエッジは、203で示されたようなものとなる。これ
より明らかなように、垂直エッジが主要なものである。
この印象は、90゜の回りに鋭いピークを有するヒスト
グラム207によって確認される、すなわち、このテキ
ストが縦書きであることが確認される。ここで、単語が
スペースによって区切られていないという事実が本発明
の適用を何ら困難にしてはいないということに留意され
たい。
【0033】図4は、本発明を横書きのハングルに対し
て適用した場合を示している。ハングルは、朝鮮語を書
き表すために用いられる文字である。ハングルはわずか
24の文字のみを有しており、それらが2次元的に組み
合わされて403のような複合ハングルシンボルを構成
している。各々の複合シンボルは、概してその音節(シ
ラブル)に対応している。シラブルを構成している個別
の文字はしばしば分離しており、複数の連結成分とみな
される(シンボル403を参照)。単語はスペース40
5によって分離されており、複合シンボルはシラブルで
あるので、単語は(複合シンボルに関して)短くなる。
このため、テキストライン間の距離と同程度の、比較的
多くの単語間ギャップが生じる。
【0034】407はテキストブロック401を表現す
る完全連結グラフに対するデローネイ三角網である。三
角網407は473個のエッジを有している。一方、完
全接続グラフは13000以上のエッジを有している。
対応するEMSTは409に示されている。水平エッジ
が主たるものではあるが、垂直エッジも可成多く存在す
る。EMST409に対するヒストグラム411はこの
印象を裏付けている。これには、90゜付近にピーク4
15、そして0゜付近により大きなピーク413が存在
する。ヒストグラム411の72%以上のエネルギーが
ピーク413に含まれており、従って、本発明に係る方
法においては、ラインは水平方向であると決定されるが
それは正しい決定である。
【0035】図5は、本発明に係る方法を英語のテキス
トブロック501に適用した場合を示している。右揃え
と単一ピッチフォントのために、不揃いの単語間ギャッ
プ503が生じている。このテキストブロックに対する
EMSTは505に示されているものであり、ヒストグ
ラムは507に示されている。大きな単語間ギャップの
ためにテキストライン間エッジの比率が上昇している
が、英単語の長さに起因するオフセットが存在する。E
MST505の方向は明らかに水平方向が主であり、ヒ
ストグラム507のエネルギーのうちの80%が0゜付
近のウィンドウ内のピーク509に含まれている。よっ
て、本発明に係る技法により、テキストラインが横書き
であるという正しい決定がなされたことになる。
【0036】図6は、本発明に係る技法が、テキストラ
インの方向が不定であると決定するような場合を示した
図である。OCRのページセグメンテーションアルゴリ
ズムによって生成されたブロック601は、漫画と斜め
に書かれたキャラクタラインとを有している。(本発明
に係るOCRシステムにおいては、テキストと非テキス
トとの分離は、この段階までは試みられない。)対応す
るEMSTおよびエッジヒストグラムはそれぞれ603
および605である。この例はフィルタリングステップ
がとりわけ効果的な場合である。なぜなら、このステッ
プにより、非常に大きな連結成分が取り除かれるからで
ある。最大エネルギーを有するウィンドウは60゜付近
に中心を有するものであり、45%のエネルギーが含ま
れている。本発明に係る技法においては「不定」という
決定がなされ、このブロックをどのように扱うかの決定
はより高次の制御に任される。
【0037】本発明に係る技法は、公称では離散したシ
ンボルを有する正書法を用いて書かれた100ページ以
上のテキストよりなるデータベースに関してテストさ
れ、さらに離散していないシンボルを有する正書法を用
いて書かれたテキストに対してもテストされた。
【0038】テストに用いられたデータベースは、中国
語、デンマーク語、英語、日本語、朝鮮語、ロシア語、
シンハラ語、タイ語、チベット語、ウクライナ語、ベト
ナム語、さらにイディッシュ(欧米のユダヤ人が使う言
葉)によって書かれたテキストを含んでいた。ページ
は、複合した、複数のカラムを有するレイアウト(例え
ば新聞)を有するように選択された。表データおよび線
画を有するページも受容された。図7は、本発明に係る
ページセグメンテーションアルゴリズムによって生成さ
れたすべてのブロックに関する結果をまとめた混同マト
リックスである。各々の列が与えられた方向を有するラ
インを持つブロックの総数を示している。例えば、水平
方向を有するラインを持つブロックは801あったこと
になる。各々のブロックに対する正しい方向は手作業に
よって決定された。”不定”という解答は、ノイズある
いは非テキスト領域の断片よりなるブロックが本発明に
係るアルゴリズムに対して与えられた場合に期待される
結果である。
【0039】垂直方向の行は、本発明に係るアルゴリズ
ムによって推論された方向を示している。よって、80
1の水平ブロックに関しては、本発明に係る技法は、7
62ブロックが水平方向のテキストラインを有している
と決定し、5ブロックが垂直ラインを、そして34ブロ
ックが不定であると推論したことになる。結局、本発明
に係る技法により、95%以上の正答が得られたことに
なる。垂直であると誤って判断された不定ブロックの大
部分は実際は左右の余白にノイズのみを含むものであっ
た。これらのブロックは縦方向に長くかつ狭くなり、9
0゜付近の方向を有するEMSTエッジが生成されてし
まう。本発明に係るアルゴリズムが不定であると判断し
た水平ブロックの多くは、表データよりなる狭いカラム
を有するものであった。各々のテキストラインにわずか
の文字しか有さない場合のEMSTエッジは、テキスト
ラインを結ぶエッジに対して優位ではなくなってしま
う。
【0040】ノイズ、表データ、および双方の方向を有
する稀な場合を無視すると、100ページのイメージ内
に638の水平方向ブロックおよび447の垂直方向ブ
ロックが存在していた。これらの間ではテキストライン
方向の混同はなかったが、8個の水平ブロックおよび1
個の垂直ブロックが不定と判断された(8個の水平ブロ
ックに関するエラーのうち、7つが朝鮮語のテキストで
あった)。全体として、本発明に係る技法は、ノイズの
無い、表データを含まないテキストブロックに対して
は、99%の正答を与えた。
【0041】本発明のより望ましい実施例においては、
各々の文字が互いに離れているような正書法がターゲッ
トとされている。本発明に係る技法は、単語を構成して
いる文字が通常連結されているようなアラビア語および
デーヴァナーガリーで書かれたネパール語に関してもテ
ストされた。当該技法はアラビア語に関しては適用可能
な程度の結果を出したが、ネパール語に関してはうまく
機能しなかった。デーヴァナーガリーに関しては、連結
されたユニットがアラビア語よりも長く、ユニット間に
よりスペースが多い。このような状況でより効果的に機
能させるようにする一つの方法は、結ばれたボックスの
中心間のユークリッド距離ではなく、ボックス間の距離
をエッジのラベルとして用いることである。
【0042】本発明のより望ましい実施例においては、
本発明に係る技法は、単一方向を有するブロックを与え
るページセグメンテーションアルゴリズムに完全に依拠
している。ページセグメンテーションにより混合された
方向を有するブロックが生成された場合には、本発明に
係る技法は主要な方向を示すか、あるいはせいぜい不定
という表示を与える。この問題を克服する一つの方法
は、すべてのテキストが同一の方向を有しているかを確
認するためにEMSTの構造を解析し、必要な場合には
テキストブロックを分割することである。
【0043】図8は、本発明を適用したOCR801の
ブロック図である。OCR801は、イメージメーカー
805において文書803を受容し、文書803のイメ
ージを生成する。イメージ807はイメージアナライザ
809に送られ、イメージアナライザ809は文書80
3におけるシンボルを表現するディジタル符号(コー
ド)825を生成する。イメージアナライザ809のコ
ンポーネントとして方向検出器813が備えられてい
る。方向検出器813は、イメージアナライザ809か
らイメージ807中のテキストブロックの連結成分リス
トを受信し、当該適すとブロック内のラインの方向に関
する表示823を返す。本発明のより望ましい実施例に
おいては、この表示は、テキストブロック内のラインの
方向が水平であるか、垂直であるか、あるいは不定であ
るかを示す。方向検出器813には、リスト811から
テキストライン中のシンボルとしては余りにも大きいあ
るいは余りにも小さいと思われる連結成分を除去するこ
とによってフィルタリングされたリスト816を生成す
るフィルタ815、フィルタリング済みのリスト816
からデローネイ三角網818を生成するグラフメーカー
817、デローネイ三角網818からEMST820を
生成するユークリッド最小スパニングツリーメーカー8
19、およびEMST820内の主要なエッジの方向を
検出してエッジ方向表示823を生成するエッジ方向検
出器821が含まれている。本発明のより望ましい実施
例においては、リスト811、フィルタリングされたリ
スト816、デローネイ三角網818、EMST82
0、および方向表示823はすべてコンピュータシステ
ムのメモリ内にストアされるデータ構造体としてインプ
リメントされており、フィルタ815、グラフメーカー
817、EMSTメーカー820、およびエッジ方向検
出器821は前記コンピュータシステムによって実行さ
れるプログラムとしてインプリメントされている。
【0044】図8に示されているように、イメージアナ
ライザ809は従来技術に係る光文字認識システムにお
いて用いられている。しかしながら、イメージアナライ
ザ809によって処理される画像は他のソースからも与
えられうる。この種のソースのうちの一つはFAXマシ
ンであり、イメージアナライザ809はFAX送信され
た文書における文字に対する符号825を生成するため
に用いられうる。このような、FAXから符号825へ
の翻訳は種々の利点を有している。FAXがコンピュー
タシステムにおいて保持されるべき場合には必要とされ
るストレージ領域が低減される。また、符号825に翻
訳されたテキストは検索されることも可能であり、さら
に編集されたり、テキストデータベースに組み込まれる
ことも可能である。
【0045】イメージが符号825内のテキストにひと
たび変換されてしまうと、符号は文字−音声コンバータ
へ入力されうる。すなわち、イメージが読み上げられる
ことになる。図9は、この種のイメージリーダ901の
ブロック図である。イメージ807は従前の通りイメー
ジアナライザ809への入力であり、イメージアナライ
ザ809は同様に方向検出器813を有している。符号
825は、この符号から音声907を生成する文字−音
声コンバータ903に対する出力となる。イメージリー
ダ901は、複数個の言語による文書も取り扱うことが
ある。その場合には、文字−音声コンバータ903は相
異なった言語に対するコンバータを有していることが必
要であり、言語表示905が文字−音声コンバータ90
3に対してそのテキストがどの言語であるかを示すため
に供給されなければならない。言語表示905のソース
はイメージリーダ901のユーザかあるいはイメージア
ナライザ809である。イメージアナライザ809は、
用いられているシンボルの形態から、あるいはラテンア
ルファベットのような複数の言語にわたって用いられる
シンボルを用いた正書法の場合には発音区別符号の存在
や語彙等から、言語を決定することが可能である。イメ
ージリーダ901は、視覚障害者あるいはその言語を知
らない人に対してももちろん有用ではあるが、イメージ
および符号825のいずれもが受け手に対して直接提供
されえない場合にも有用である。
【0046】この種の状況の一例は、通常の電話は有し
ているがFAXを有さない人に対して文書がFAXされ
る必要がある場合である。インテリジェント交換システ
ムを有する有する電話会社はFAX読み上げサービスを
提供することが可能である。この種のサービスにおいて
は、FAXマシンのユーザは、800番号のようなFA
X読み上げサービスに関する特定の電話番号をダイアル
し、次いでFAXが読み上げられることになる相手の電
話番号をダイアルする。イメージリーダ901がFAX
された文書の言語を決定できない場合には、FAXマシ
ンのユーザは文書の言語を示す符号をダイアルする。ユ
ーザはその後文書をFAXマシンに入力する。イメージ
を受信すると、イメージリーダ901はそれを前述の様
式で符号825に翻訳し、当該符号をストアする。その
後、電話システムは当該FAXが読み上げられるべき相
手の番号を自動的にダイアルし、連結がなされると前記
コードを文字−音声コンバータ903に供給して音声9
07を当該連結を介して相手方に出力する。その他の変
形ももちろん可能である。例えば、相手方の電話番号が
音声メールボックスの番号である場合もあり、相手方が
音声メールを見るために通話をしてきた場合には、符号
825はその時点で文字−音声コンバータ903に供給
される。
【0047】以上の説明は、本発明の一実施例に関する
もので,この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。本発明に係る技法はテキストライ
ンの正しい方向の検出に限定されているものではなく、
ラインを構成している構成物間の距離が通常ライン間の
距離よりも短いようなあらゆる場合に対して用いられう
る。当該技法は、テキストブロック内のラインの方向を
検出するスキュー検出技法と共に、あるいは当該技法の
みでスキュー検出のために用いられうる。さらに、本発
明のより望ましい実施例においてはユークリッド最小ス
パニングツリーが構成されて当該ユークリッド最小スパ
ニングツリーのエッジからラインの方向が決定された
が、ラインの方向の決定を行うべきグラフを生成するた
めには他の技法も用いられうる。さらに、本明細書にお
いては、本発明に係る技法がある一つのタイプのOCR
システムにおいてどのように用いられうるかが示されて
きたが、当該技法の利用はこのタイプのOCRシステム
に限定されているものではない。それどころか、前述さ
れているように、当該技法は構成物のラインあるいはカ
ラムの検出が必要とされるあらゆる種類のイメージ解析
システムにおいて有用である。
【0048】
【発明の効果】以上述べたごとく、本発明によれば、従
来技術に係るOCRにおける問題点を解決する装置およ
び方法が提供される。
【図面の簡単な説明】
【図1】ポイントの組に関するボロノイ(Voronoi)図お
よび当該ボロノイ図から導出されたデローネイ(Delauna
y)三角網を示す図である。
【図2】漢字によって書かれたテキストに対する本発明
の適用例を示す図である。
【図3】本発明を利用するOCRにおいてなされる処理
を示した流れ図である。
【図4】ハングルによって書かれたテキストに対する本
発明の適用例を示す図である。
【図5】英字によって書かれたテキストに対する本発明
の適用例を示す図である。
【図6】支配的な方向を有しないテキストに対する本発
明の適用例を示す図である。
【図7】本発明の性能を示す混同図表である。
【図8】本発明に係る技法を利用する画像解析システム
を示すブロック図である。
【図9】画像読み取りシステムにおいて画像解析システ
ムが用いられる様子を示す図である。
【図10】本発明のより望ましい実施例においてグラフ
を表現するために用いられるデータ構造を示す図であ
る。
【符号の説明】
801 OCR 805 イメージメーカー 809 イメージアナライザ 813 ライン方向検出器 815 フィルタ 817 グラフメーカー 819 EMSTメーカー 821 エッジ方向検出器 903 文字−音声コンバータ 1003 エンドポイントデータ構造体 1005 エッジデータ構造体

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 画像中の構成要素よりなるラインの方向
    を決定する方法において、 前記構成要素をエッジで連結してグラフを生成するグラ
    フ生成ステップと、 前記グラフの最小スパニングツリーを計算するステップ
    と、 前記最小スパニングツリーの前記エッジの主要な方向か
    ら前記ラインの方向を決定するライン方向決定ステップ
    とからなることを特徴とする方向検出方法。
  2. 【請求項2】 前記グラフ生成ステップが、 前記構成要素を点に還元するステップと、 前記点を前記エッジで連結するステップとからなること
    を特徴とする請求項1の方法。
  3. 【請求項3】 前記グラフを生成する前に非常に大きい
    構成要素および非常に小さい構成要素をふるい落とすス
    テップをさらに有することを特徴とする請求項1の方
    法。
  4. 【請求項4】 前記ライン方向決定ステップが、前記方
    向が垂直方向であるか、水平方向であるか、あるいは不
    定であるかを決定することを特徴とする請求項1の方
    法。
  5. 【請求項5】 前記グラフ生成ステップが、前記エッジ
    によって連結された前記構成要素の前記画像内での距離
    に従って前記エッジをラベリングするステップを含むこ
    とを特徴とする請求項1、2、3、または4の方法。
  6. 【請求項6】 前記ライン方向決定ステップが、 前記最小スパニングツリーの前記エッジの前記方向の範
    囲に対する代表値を有しかつ各代表値に関してそれぞれ
    の代表値に対応する範囲内の方向を有するエッジの数を
    最低限規定するヒストグラムを生成するヒストグラム生
    成ステップと、 前記ヒストグラムから前記ラインの方向を決定するステ
    ップとを有することを特徴とする請求項1、2、3、ま
    たは4の方法。
  7. 【請求項7】 前記ヒストグラム生成ステップが、前記
    エッジによって連結された前記構成要素の面積に従って
    前記エッジの方向に関する前記代表値に対する各エッジ
    の寄与を修正するステップを有することを特徴とする請
    求項6の方法。
  8. 【請求項8】 前記ライン方向決定ステップが、前記ヒ
    ストグラムにおけるピークを鋭くしかつノイズを減衰さ
    せるピーク先鋭化ステップを有することを特徴とする請
    求項6の方法。
  9. 【請求項9】 前記ピーク先鋭化ステップが、hを前記
    ヒストグラムにおける前記代表値の個数とする時、前記
    ヒストグラムの代表値biにおけるエネルギーを(bi
    Σj=1 j=hj2で定義するステップを有することを特徴
    とする請求項8の方法。
  10. 【請求項10】 前記ライン方向決定ステップが、さら
    に、前記ヒストグラムにおける総エネルギーのうちのあ
    る方向に対するものが所定のしきい値以上であるような
    方向が存在しない場合には前記方向が不定であると決定
    するステップを有することを特徴とする請求項9の方
    法。
  11. 【請求項11】 前記構成要素が手書き文字であること
    を特徴とする請求項1、2、3、または4の方法。
  12. 【請求項12】 前記手書き文字が複数の連結成分を有
    することを特徴とする請求項11の方法。
  13. 【請求項13】 前記方法の各ステップが、各手書き文
    字をディジタル符号に割り当てるシステムにおいて実現
    されることを特徴とする請求項11の方法。
  14. 【請求項14】 前記システムが、さらに、前記手書き
    文字を表現するディジタル符号を音声に変換することを
    特徴とする請求項13の方法。
  15. 【請求項15】 前記方法が、前記手書き文字が前記ラ
    インに対して所定の方向を有することを必要としないこ
    とを特徴とする請求項11の方法。
  16. 【請求項16】 複数の連結成分を有するシンボルより
    なるラインの方向を検出する方法において、 前記連結成分をエッジによって組み合わせてグラフを作
    成するステップと、 前記エッジの方向を決定するステップと、 前記シンボルよりなる前記ラインの方向を前記エッジの
    前記方向から決定するステップとからなることを特徴と
    する方向検出方法。
  17. 【請求項17】 画像内の構成要素からなるラインの方
    向を決定するライン方向決定手段(813)を有する画
    像解析装置において、前記ライン方向決定手段が、 グラフを作成するために前記構成要素をエッジで連結す
    る手段(817)と、 前記グラフの最小スパニングツリーを計算する手段(8
    19)と、 前記ラインの方向を前記最小スパニングツリーの前記エ
    ッジの主要な方向から決定する手段(821)とからな
    ることを特徴とする画像解析装置。
  18. 【請求項18】 前記ライン方向決定手段が、前記グラ
    フを作成する前に非常に大きい構成要素および非常に小
    さい構成要素をふるい落とす手段を有することを特徴と
    する請求項17の装置。
  19. 【請求項19】 前記ライン方向決定手段が、前記方向
    が垂直であるか、水平であるか、あるいは不定であるか
    を決定することを特徴とする請求項17の装置。
  20. 【請求項20】 前記構成要素が、手書き文字であるこ
    とを特徴とする請求項17、18、または19の装置。
  21. 【請求項21】 前記手書き文字が複数の連結成分を有
    することを特徴とする請求項20の装置。
  22. 【請求項22】 各手書き文字をディジタル符号に割り
    当てるシステムの一部であることを特徴とする請求項2
    0の装置。
  23. 【請求項23】 前記システムが、さらに、前記手書き
    文字を表現する前記ディジタル符号を音声に変換するこ
    とを特徴とする請求項22の装置。
  24. 【請求項24】 前記手書き文字が前記ラインに対して
    所定の方向を有していることを必要としないことを特徴
    とする請求項20の装置。
JP6104345A 1993-04-20 1994-04-20 方向検出方法および画像解析装置 Pending JPH0798765A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US4992493A 1993-04-20 1993-04-20
US049924 1993-04-20

Publications (1)

Publication Number Publication Date
JPH0798765A true JPH0798765A (ja) 1995-04-11

Family

ID=21962480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6104345A Pending JPH0798765A (ja) 1993-04-20 1994-04-20 方向検出方法および画像解析装置

Country Status (4)

Country Link
US (1) US5664027A (ja)
EP (1) EP0621553A3 (ja)
JP (1) JPH0798765A (ja)
CA (1) CA2116600C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207251A (ja) * 2006-02-03 2007-08-16 Metaio Gmbh 現実の対象物の画像と重ね合わされるように設計されたデータモデルを決定するための方法及びシステム
KR20160083511A (ko) * 2014-12-31 2016-07-12 전남대학교산학협력단 가중 이동 평균을 이용한 텍스트 라인 검출 장치 및 방법

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473196B2 (en) * 1996-09-19 2002-10-29 Canon Kabushiki Kaisha Image forming apparatus and method
US6055365A (en) * 1996-11-08 2000-04-25 Sterling Software, Inc. Code point translation for computer text, using state tables
CA2242065C (en) 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
EP0889626A1 (en) * 1997-07-04 1999-01-07 Octel Communications Corporation Unified messaging system with automatic language identifacation for text-to-speech conversion
US6289112B1 (en) * 1997-08-22 2001-09-11 International Business Machines Corporation System and method for determining block direction in fingerprint images
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
US6005986A (en) * 1997-12-03 1999-12-21 The United States Of America As Represented By The National Security Agency Method of identifying the script of a document irrespective of orientation
DE19840890A1 (de) * 1998-09-03 2000-04-06 Siemens Ag Verfahren zum akustischen Ausgeben von Text und Sprachausgabesystem
US6263113B1 (en) * 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image
US6674919B1 (en) * 1999-09-21 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for determining the skew angle of a two-dimensional barcode
US7016536B1 (en) 1999-11-24 2006-03-21 Gtx Corporation Method and apparatus for automatic cleaning and enhancing of scanned documents
DE19963812A1 (de) * 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
JP4150842B2 (ja) * 2000-05-09 2008-09-17 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
US6834120B1 (en) * 2000-11-15 2004-12-21 Sri International Method and system for estimating the accuracy of inference algorithms using the self-consistency methodology
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
US7359553B1 (en) 2001-02-16 2008-04-15 Bio-Key International, Inc. Image identification system
JP4164272B2 (ja) * 2001-04-24 2008-10-15 キヤノン株式会社 画像処理装置及び画像処理方法
US7415605B2 (en) 2002-05-21 2008-08-19 Bio-Key International, Inc. Biometric identification network security
CA2490226C (en) 2002-05-21 2012-04-24 Bio-Key International, Inc. Systems and methods for secure biometric authentication
FR2861524A1 (fr) * 2003-10-23 2005-04-29 Thomson Licensing Sa Procede et dispositif de detection de l'orientation d'une image
US7627152B2 (en) * 2003-11-26 2009-12-01 Ge Medical Systems Information Technologies, Inc. Image-based indicia obfuscation system and method
JP4574235B2 (ja) * 2004-06-04 2010-11-04 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
US7155040B2 (en) * 2004-06-29 2006-12-26 Bio-Key International, Inc. Generation of quality field information in the context of image processing
US7522771B2 (en) * 2005-03-17 2009-04-21 Microsoft Corporation Systems, methods, and computer-readable media for fast neighborhood determinations in dynamic environments
US7623711B2 (en) * 2005-06-30 2009-11-24 Ricoh Co., Ltd. White space graphs and trees for content-adaptive scaling of document images
US7809179B2 (en) * 2005-09-09 2010-10-05 The Procter & Gamble Company Manufacturing inspection of folded feminine hygiene products by cascading edge and skew detection
KR101276602B1 (ko) * 2005-11-23 2013-06-19 던 & 브래드스트리트, 아이엔씨. 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
US7929769B2 (en) * 2005-12-13 2011-04-19 Microsoft Corporation Script recognition for ink notes
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US7835903B2 (en) * 2006-04-19 2010-11-16 Google Inc. Simplifying query terms with transliteration
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8708227B1 (en) 2006-10-31 2014-04-29 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US7873200B1 (en) 2006-10-31 2011-01-18 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
KR100819274B1 (ko) * 2006-11-23 2008-04-02 삼성전자주식회사 3차원 포인트 데이터에서의 리지 선과 밸리 선 추출 방법
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8208725B2 (en) * 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US9058512B1 (en) 2007-09-28 2015-06-16 United Services Automobile Association (Usaa) Systems and methods for digital signature detection
US8139894B2 (en) * 2007-12-20 2012-03-20 Intel Corporation Automatic dominant orientation estimation in text images based on steerable filters
US10380562B1 (en) 2008-02-07 2019-08-13 United Services Automobile Association (Usaa) Systems and methods for mobile deposit of negotiable instruments
US8023741B2 (en) 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for detecting numerals in a digital image
US8023770B2 (en) * 2008-05-23 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for identifying the orientation of a digital image
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8452689B1 (en) 2009-02-18 2013-05-28 United Services Automobile Association (Usaa) Systems and methods of check detection
US10956728B1 (en) 2009-03-04 2021-03-23 United Services Automobile Association (Usaa) Systems and methods of check processing with background removal
US9779392B1 (en) 2009-08-19 2017-10-03 United Services Automobile Association (Usaa) Apparatuses, methods and systems for a publishing and subscribing platform of depositing negotiable instruments
JP5377649B2 (ja) * 2009-09-02 2013-12-25 ルネサスエレクトロニクス株式会社 画像処理装置および映像再生装置
US9129340B1 (en) 2010-06-08 2015-09-08 United Services Automobile Association (Usaa) Apparatuses, methods and systems for remote deposit capture with enhanced image detection
US10380565B1 (en) 2012-01-05 2019-08-13 United Services Automobile Association (Usaa) System and method for storefront bank deposits
US9076058B2 (en) 2013-01-29 2015-07-07 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for determining orientation in a document image
AU2013273778A1 (en) * 2013-12-20 2015-07-09 Canon Kabushiki Kaisha Text line fragments for text line analysis
US10380993B1 (en) 2016-01-22 2019-08-13 United Services Automobile Association (Usaa) Voice commands for the visually impaired to move a camera relative to a document
US10095946B2 (en) * 2016-07-07 2018-10-09 Lockheed Martin Corporation Systems and methods for strike through detection
US11030752B1 (en) 2018-04-27 2021-06-08 United Services Automobile Association (Usaa) System, computing device, and method for document detection
US11900755B1 (en) 2020-11-30 2024-02-13 United Services Automobile Association (Usaa) System, computing device, and method for document detection and deposit processing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6482286A (en) * 1987-09-25 1989-03-28 Toshiba Corp Image inclination detector
US4866784A (en) * 1987-12-02 1989-09-12 Eastman Kodak Company Skew detector for digital image processing system
GB9022483D0 (en) * 1990-10-17 1990-11-28 Int Computers Ltd Detecting skew in digitised images

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207251A (ja) * 2006-02-03 2007-08-16 Metaio Gmbh 現実の対象物の画像と重ね合わされるように設計されたデータモデルを決定するための方法及びシステム
JP4531069B2 (ja) * 2006-02-03 2010-08-25 メタイオ ゲゼルシャフト ミット ベシュレンクテル ハフツング 現実の対象物の画像と重ね合わされるように設計されたデータモデルを決定するための方法及びシステム
US7889193B2 (en) 2006-02-03 2011-02-15 Metaio Gmbh Method of and system for determining a data model designed for being superposed with an image of a real object in an object tracking process
KR20160083511A (ko) * 2014-12-31 2016-07-12 전남대학교산학협력단 가중 이동 평균을 이용한 텍스트 라인 검출 장치 및 방법

Also Published As

Publication number Publication date
US5664027A (en) 1997-09-02
EP0621553A2 (en) 1994-10-26
CA2116600A1 (en) 1994-10-11
CA2116600C (en) 1996-11-05
EP0621553A3 (en) 1995-06-14

Similar Documents

Publication Publication Date Title
JPH0798765A (ja) 方向検出方法および画像解析装置
Nagy et al. A prototype document image analysis system for technical journals
US7705848B2 (en) Method of identifying semantic units in an electronic document
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
US6272242B1 (en) Character recognition method and apparatus which groups similar character patterns
EP0439951B1 (en) Data processing
JP2700130B2 (ja) 手書き文字の認識システム及び認識方法
JP2713622B2 (ja) 表形式文書読取装置
JP3452774B2 (ja) 文字認識方法
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
JPH06203138A (ja) 画像編集システム
Pal et al. OCR in Bangla: an Indo-Bangladeshi language
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
US20080131000A1 (en) Method for generating typographical line
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
JP5353325B2 (ja) 文書データ生成装置と文書データ生成方法
US6094484A (en) Isomorphic pattern recognition
Suchenwirth et al. Optical recognition of Chinese characters
KR100315428B1 (ko) 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
JPH0916582A (ja) 文書作成装置及び同装置に用いられる認識結果出力方法
JP2582611B2 (ja) マルチフオント辞書の作成法
JP2962525B2 (ja) テキストブロック認識方法
Coy A Look at Optoelectronic Document Processing
JPH08123904A (ja) 書体種類処理装置