JPH10260993A - 書類の走査画像からのタイトル、見出しおよび写真抽出 - Google Patents

書類の走査画像からのタイトル、見出しおよび写真抽出

Info

Publication number
JPH10260993A
JPH10260993A JP10008773A JP877398A JPH10260993A JP H10260993 A JPH10260993 A JP H10260993A JP 10008773 A JP10008773 A JP 10008773A JP 877398 A JP877398 A JP 877398A JP H10260993 A JPH10260993 A JP H10260993A
Authority
JP
Japan
Prior art keywords
text
attribute
image data
data
data representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10008773A
Other languages
English (en)
Inventor
Jiangying Zhou
ジァンイン・ゾウ
Daniel P Lopresti
ダニエル・ピー・ロプレスティ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH10260993A publication Critical patent/JPH10260993A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storing Facsimile Image Data (AREA)

Abstract

(57)【要約】 【課題】 ビットマップ画像データから関連要素を抽出
して個々の文字を表わすか、或はテキストでない画像領
域を表わす要素又は関連要素を同定する。 【解決手段】 抽出された関連要素を各要素を構成する
ホール、円弧、線端等の幾何学的属性に基づいてテキス
トか非テキストかを分類する。次いで、最近傍分析を行
ってどのテキスト要素がテキストの行やストリングスを
表わすかを同定するとともに、各行やストリングスが縦
向きか横向きかを決定するため分析される。その後、個
別の垂直および水平のフォント高フィルタが使用され、
最も確からしい候補であるテキストストリングスを同定
する。最も確からしいタイトル候補について、更なる処
理や表示のためタイトル領域を選択するためもともとの
ビットマップデータに関連付けられるかその上に置くこ
とができる仕切りボックスが定義される。表題および写
真についても位置を特定することができる。ビットマッ
プ画像データからインデックを作成することができ、イ
ンデックをキーワードとする検索が可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的にはコンピ
ュータ化情報アクセスに関する。より詳しくは本発明は
書類の走査によって得られるビットマップ画像からタイ
トルテキスト、写真(見出しを含む)、他のテキストあ
るいは非テキスト領域を抽出するコンピュータシステム
に関する。抽出されたタイトルテキストや見出しテキス
トはキーワード検索や、ビットマップ画像データベース
の索引付け等の種々の利用が可能であり、一方、抽出さ
れた写真は図形的な切取等に用いることができる。
【0002】
【従来の技術】世界は急速に情報化社会になりつつあ
る。デジタル技術は情報のもたらす富を含む巨大なデー
タベースの構築を可能にした。画像をベースにしたシス
テムの爆発的な増大は、種々のデータベースアクセスへ
のチャレンジを与えるような膨大なデータベースの創成
を可能にすると期待される。この点に関して、ワールド
ワイドウエブ(World Wide Web)の爆発
的な増大は情報技術が画像をベースにした目録(par
adigm)に向けて急速に発展する一つの例にすぎな
い。
【0003】
【発明が解決しようとする課題】画像をベースにしたシ
ステムは情報検索に対して主要なチャレンジを提供す
る。情報検索技術は符号化された文字をベースにするシ
ステムにおいては、かなり十分に発展させられている
が、これらの検索技術は画像をベースにしたシステムに
おいては有効でない。それは、画像をベースにしたシス
テムはプリントされた頁の情報の内容でなく、その頁の
外観に対応するビットマップデータとして情報を格納す
るためである。伝統的な技術では、情報検索システムが
機能する前に光学文字認識(OCR)ソフトウェアを用
いてビットマップデータをテキストデータに変換するこ
とが要求される。
【0004】不幸にも、光学文字認識ソフトウェアは計
算をする上で高価であり、認識プロセスはむしろ遅い。
また、テキストをもたない写真は、OCR技術で有効に
処理することはできない。多量の画像をベースにしたデ
ータを取り扱うときには、全体のデータベースについて
光学文字認識を行うことは実際的でない。更に、時間と
計算資源が画像データのテキストデータへのOCR変換
を許容するとしても、その結果は興味のあるドキュメン
トを検索し、照合することを可能にするような有効なキ
ーワードの短いリストを持たない巨大で構造を持たない
データベースを招来するにすぎない。全体のデータベー
スを通じて、選択されたキーワードについての検索はフ
ルテキストキーワード検索は有効に利用するには余りに
も多くのヒットがあるので、必ずしも最適な答えとはな
り得ない。
【0005】
【課題を解決するための手段】本発明は、上記の問題に
対して新規な試みを行う。本発明はビットマップもしく
は、画像フォーマットの形のデータ量は極めて膨大であ
ること、及びユーザはテキストベースのシステムと同様
の情報検索を望むであろうことを考慮する。ドキュメン
ト全体を画像フォーマットからテキストフォーマットに
変換する代わりに本発明はビットマップデータをその原
フォーマットのまま分析し、画像データ内において、ド
キュメントのタイトル、見出し或は他の識別子について
最も確からしい方法に対応する領域を抽出する、或は写
真に対応する領域を抽出する。本システムはビットマッ
プ画像データからドキュメントのタイトル、見出し或は
他の識別子及び写真を抽出し、抽出した領域について種
々の方法で更にこれを加工することを可能にする。抽出
したタイトル、見出し、若しくは写真は、ユーザが興味
のあるドキュメントを選択するためにアクセスできるリ
ストの形式でシリアルに表示することができる。所望と
あれば、抽出されたタイトルや見出しは、光学文字認識
手段によって、テキストデータに変換することができ、
そのようなテキストデータは符号化された文字ベースの
情報検索システムを用いて、アクセスされ、或は加工さ
れる。
【0006】一方、頁全体が光学文字認識手段を用いて
変換される場合にも、走査された画像を用いて種々のタ
イトルや他のテキスト或は非テキスト領域の位置を特定
することに有効に利用できる。本発明はかかる機能をも
同様に遂行する。
【0007】本発明は基本的に多数言語に対応できる。
すなわち、本発明は走査されたドキュメント及び種々の
異なる言語で書かれたドキュメント等のビットマップデ
ータからタイトルや見出しを抽出することができる。本
発明のタイトル抽出技術はその意味で書込みシステムと
は独立している。いかなる文字セットもしくはアルファ
ベット更にはフォントが用いられているかに関係なしに
ドキュメントの画像からタイトルを抽出することができ
る。
【0008】更に、本システムはテキストの向きに関し
ていかなる予めの知識を要求することはない。垂直な向
きと水平な向きの両方を含むような混合の向きを有する
ようなドキュメントのレイアウトとも協動することがで
きる。本発明は全てではないかもしれないが、多くの言
語について成立するある合理的なルールに基づいてい
る。これらのルールはタイトルテキストや見出しテキス
トに他のテキスト(例えば、より大きなフォント、ボー
ルドフェイス、コラムの上部において中心におかれてい
るか等)からそれを識別し得るような方法でプリントさ
れているということを考慮している。これらのルールは
また、テキスト行において文字と文字の間の間隔は行間
の間隔より小さいこと、及びテキスト行は典型的には水
平か垂直かのいずれかであるという事実を考慮してい
る。
【0009】本発明はドキュメント画像からドキュメン
トの分析及び計算機を用いた幾何学技術を用いることに
よって、タイトル、見出し及び写真を抽出する。画像は
ビットマップバッファに格納され、次いで、関連要素に
関するある幾何学データ、或は画像頁に現れるインク滴
(blob)に関する幾何学データを抽出するため関連
要素分析を用いて分析される。この幾何学データ、或は
関連要素データはデータ構造内に格納され、次いで各関
連要素が文字の幾何学的特性、或は写真のビットマップ
形式のような画像の一部の幾何学的特性を有するかに基
づいてデータをラベル付けし、あるいは分類する分類プ
ロセスによって分析される。
【0010】分類に続いて、テキスト要素についてシス
テムは関連要素データの最近傍分析を行って最近傍図形
を生成する。これらのデータは各関連要素の最近傍図形
に対応する関連リストのリストを表わす最近傍図形デー
タ構造に格納される。最近傍図形は例えば見出しの一行
のテキストに対応するこれら関連要素データを囲う仕切
りボックスを画成する。最近傍図形は、次いで最近傍図
形の仕切りボックスの中心を結ぶリンクが主として水平
か、垂直かに依存して水平か垂直かに分類される。
【0011】次に、フィルターモジュールは全ての水平
データの平均のフォント高さ、及び全ての垂直データの
平均フォント高さを決定するためデータを分析する。次
いで、水平データの各ストリングは平均値と比較される
とともに、垂直データの各ストリングは平均値と比較さ
れ、平均高さを越えるストリング、もしくは所定の閾値
を越える高さを有するストリングを選択する。これらは
抽出されるべきタイトルの候補として選択される。所望
とあれば、上記分析のさらなる精密化が、例えば、フォ
ントがボールドフェースであるか否か等の他の幾何学的
特徴を用いるか、或はどのデータが頁上で中心にあるス
トリングを表わすかを特定することによって実行され得
る。
【0012】タイトル候補を選択した後、それらの候補
は元のビットマップデータに再参照される。本質的に
は、関連要素の仕切りボックスは抽出されたタイトルに
関連する単一の仕切りボックスに合併され、その単一の
仕切りボックスが再びビットマップデータと参照され、
その仕切りボックスに現れるビットマップデータが抽出
されたタイトルとして選択される。所望とあれば、抽出
されたタイトルはタイトル画像をタイトルテキストに変
換するため、光学的文字認識ソフトウェアを用いて、さ
らに処理することができる。
【0013】同様に、写真の候補を選択した後、その候
補は元のビットマップデータと再び参照される。互いに
オーバーラップする写真候補の仕切りボックスは、その
仕切りボックス内に現れるビットマップが写真の一部と
して選択され、抽出されるように単一の仕切りボックス
に併合される。所望とあれば、写真領域に関係する見出
しテキストは光学的文字認識ソフトウェアを用いて、特
定され、処理される。見出しテキストは次いで写真の内
容を特定する、或は後の検索の助けとなるタグとして使
用することができる。
【0014】
【発明の実施の形態】本発明の目的及び利点をより完全
に理解するためには、以下の明細書の記述及び添付の図
面を参照すべきである。
【0015】図1を参照して、この図1にはタイトル抽
出技術の好ましい実施例の構成が図示されている。本実
施例は、コンピュータを用いたシステムである。図1
は、本システムはソフトウェアのブロックダイヤグラム
である。このソフトウェア要素はマイクロコンピュータ
システムの適当なコンピュータシステムのメモリにロー
ドされている。図1に示す機能ブロックは従ってコンピ
ュータシステムのプロセッサによって実現され、かつ、
動作される。
【0016】図1を参照して、ある雑誌の20頁の如き
画像データの1頁が図示されている。頁20の可視画像
がここでは図示されているが、頁はビットマップ画像デ
ータの如き画像データからなっており、画像の個々の黒
を白の画素は二進数として格納されているものと理解さ
れるべきである。ビットマップ画像データは、光学スキ
ャナ、ファックス機、複写機、図形ソフト、ビデオデー
タ、ワールドワイドウエブ頁等を含む種々の異なるソー
スから得られる。
【0017】本発明が、組み込まれたコンピュータシス
テムのプロセッサはコンピュータシステムのランダムア
クセスメモリ内にビットマップバッファ22を保持して
いる。ビットマップバッファ22は好ましくはある頁も
しくは画像に関連する全てのビットマップデータを保持
するに十分なサイズであることが好ましい。所望とあら
ば、ビットマップバッファ22は複数の頁を保持するた
め、より大きなものとすることができる。一般に、ビッ
トマップバッファ22のサイズは、画像の分解能に依存
する。個々の画像要素、即ち画素の各々はバッファ22
内の個別のメモリ1に格納される。いくつかのアプリケ
ーションでは、システムのスピードを上げるため、保管
の目的で一つの分解能(例えば、インチ当たり300ド
ット)で走査されたある頁はより低い分解能(例えば、
インチ当たり150ドット)に変換され、その低い分解
能のバージョンが以下に説明するようなさらなる処理の
為にビットマップバッファ22に格納される。分解能の
減少は、より少ないデータが処理されることを意味し、
そのことは計算を高速化する。ビットマップバッファ2
2における画像分解能の低下は、保管用の画像が必ず劣
化されるということを意味するものではない。本発明を
用いて、興味のあるタイトル領域が一旦抽出されると、
これらの領域の一はより高い分解能の画像に容易にマッ
プし戻される。
【0018】ビットマップデータに関して、この記述で
は黒と白の画像データについて本発明を記述する。換言
すれば、この記述の目的において、全ての画像を作り上
げる黒と白のドット、即ち画素を表わす簡単な2進デー
タからなる。勿論、ここに述べる技術は複数ビットの中
間調データおよび複数ビットを含む画像データの他の形
式に容易に拡張することができる。2進の黒白データは
ここでは説明を簡単化し、かつ、一つの可能な構成を示
すために用いられている。
【0019】コンピュータに備えられたソフトウェアシ
ステムは、処理モジュールのグループを採用し、各処理
モジュールは異なるデータ操作機能を実行するよう設計
されている。これらの処理モジュールは、閉じられた四
角形によって図1に示されている。これらのモジュール
は、以下に詳細に述べる予め決められたデータ構造に従
ってメモリ内に格納されたデータに対して働く。図1に
おいて、データ構造及至は格納データは処理モジュール
と区別するため、両端が開かれた四角形を用いて図示さ
れている。また、本発明の理解を助けるため、本発明の
処理モジュールは図1において、種々のモジュールが作
動される時間順序を示すように、上から下への順序で配
列されている。
【0020】最初に、関連要素抽出プロセスはビットマ
ップバッファ22のデータについて、モジュール24に
よって実行される。この関連要素抽出プロセスは、ビッ
トマップ画像に関連する幾何学データの大部分を格納す
るのに使用される関連要素データ構造を形成する。2進
画像における関連要素は接触する黒画素の最大の集合で
ある。モジュール24は関連要素分析を実行するように
構成されている。本来、関連要素抽出プロセスはビット
マップバッファ内にある与えられたデータ要素で開始
し、例えば印刷された文字eを構成する黒ドットが互い
に関連するように、ある関連要素の部分を形成するかど
うかを決定するため、隣合うデータ要素を分析する。例
えば、図3のaを参照されたい。この例における文字e
は関連する黒ドットの集合を形成していることに注目す
べきである。水を横切ることなしに陸地の半島や岬をト
ラバースすることができるように文字eの下部の開かれ
たテイルから出発して、黒ドットから黒ドットへトラバ
ースすることによって文字全体をトレースすることがで
きる。
【0021】本実施例において、関連要素分析は、ラス
タースキャン方式で実行され、それによって同一の水平
行に存在する連続する黒画素はセグメントと呼ばれる単
一ユニットとして取り扱われる。関連要素は一方では、
一若しくはそれ以上のセグメントから構成され、それは
セグメントのリンクリストとして現される。
【0022】勿論、一般化されたビットマップイメージ
では、データの全てが文字を表わす訳ではない。図示の
ため、図2を参照すると、水平及び垂直の両方のテキス
ト並びに非テキスト、ピクチャーデータ、とりわけ写真
を有するデータの1頁の例が示されている。図3のbは
非テキスト領域の一例を示している。個々の関連要素
は、これらの関連要素がサイズにおいて遥かに不規則
で、かつ、極めて不揃いであるにも拘わらず、非テキス
トデータとして定義される。
【0023】本実施例において、テキストを表わす関連
要素は以下に詳細に説明するように、モジュール28に
よって分類され、写真領域を表わす関連要素は以下に説
明するように、写真分類モジュール29によって分類さ
れる。これら2つの分類プロセスの各々の後には領域特
定処理手続(例えば、テキストの場合においては、行の
向きの決定、或は写真の場合には、仕切りボックスの併
合)がさらに実行される。テキストおよび写真データに
ついてのこれらの分類及びそれに続く処理ステップは順
次にもしくは平行に実行される。ここでの説明のため、
テキスト処理が最初に実行され、次いでテキストプロセ
スによって非テキストとして、ラベル付けされた関連要
素について写真処理が次に実行されると仮定する。従っ
て、分類プロセスの終わりには各関連要素はテキスト、
写真もしくはその他の3つの可能なラベルの一つが割当
てられる。
【0024】関連要素抽出モジュールは個々の関連要素
若しくはインク滴を特定し、本プログラム内の他のモジ
ュールによって後に使用される種々の幾何学特性を特定
し、抽出する。図4は、関連要素データ構造26の構成
を図形的に示しており、読者はC言語ヘッダファイルリ
ストと最近傍図形データ構造が与えられる表1を参照さ
れたい。図4を参照して、関連要素データ構造は各関連
要素について複数の幾何学的特性の記録を保持する。こ
れらの特性は、関連要素を定義する仕切りボックスのサ
イズ、幅及び高さ、関連要素内のホール数、関連要素内
の第1の要素に対するポインタ及びそれら要素を形成す
るのに用いられる円弧の数とタイプを記述する種々の他
のデータを含む。図10のaとbに図示されたこれらの
後者のデータは文字を文字でないものから区別する際に
有用である。好ましい実施例では、関連要素が何個の端
部を有するかを記録する。例えば、図10のaに示した
文字Oは、上向きの湾曲50と下向きの湾曲52、上向
きの端部54および下向きの端部56及び一つのホール
60を有する。ホールは黒のスペースによって完全に取
り囲まれた白のスペースの領域である。文字Mは2つの
上向き端部54と3個の下向き端部56と2つの下向き
湾曲52と1つの上向き湾曲50を有する。テキストを
非テキストから識別する場合に、これらによって与えら
れる上記の特性並びに他の特性は、識別を行うのに使用
される。図12は、いくつかのサンプル要素(2つの英
文字と2つの漢字)文字、及び写真の領域を示してい
る。分析のこの段階ではテキストと写真と他の要素の区
別のための試みはなされていない。分類モジュール28
は、テキスト要素と写真要素とその他の要素を区別する
ために設けられている。表はそれらの要素について計算
された実際の値を与えている。これらの実際の値を比較
すると、非テキスト要素はより多くのホール数、並びに
より多くの上向き及び下向きの円弧(湾曲)を有するこ
とに注目すべきである。
【0025】関連要素データ構造は、本質的にはリスト
として構成され、そのリストでは各関連要素は個別の要
素として表されている。分析のこの段階において、テキ
ストと非テキスト要素の間の区別の為の試みはなされて
いない。各関連要素(テキスト又は非テキストのいずれ
か)は、図4に示されたデータ構造に従ってリストに記
入される。
【0026】データ構造26が関連要素抽出プロセス2
4によって記入された後、分類プロセス即ちモジュール
28はデータ構造26内のデータを操作するために呼び
出される。分類モジュールはテキスト要素と非テキスト
要素とを区別するために用いられる。英語テキスト文字
は通常、各要素で見付かるホールの数に基づいて非テキ
スト関連要素から識別される。ある一つの英文字は、通
常、最大でも1個か2個のホールを持つに過ぎない。勿
論、中国文字等のより複雑な文字に適合するためには、
ホール数の閾値は少し高めに設定する必要がある。同様
に、テキスト文字について端部の数や曲線の形態および
数は非テキスト文字よりも少ない傾向がある。中国文字
のようなより複雑な文字については、これら属性の数に
ついてより高い値を持つであろう。
【0027】ここで述べる実施例は、以下の疑行動にお
ける判定基準に適合した場合、関連要素もしくはインク
滴をテキストとして分類する。
【0028】各関連要素について:もし、仕切りボック
スのサイズ<所定のサイズならば、要素は非テキストで
あり、出口ルーチン。もし、黒画素数<所定数でなけれ
ば、要素は非テキストであり、出口ルーチン。もし、幅
又は高さ>所定のサイズでなければ、要素は非テキスト
であり、出口ルーチン。もし、平均ストローク幅(画素
/セグメント)>所定の幅でなければ、要素は非テキス
トであり、出口ルーチン。もし、幅/高さ比又は高さ/
幅比>所定の比でなければ、要素は非テキストであり、
出口ルーチン。もし、ホール数>=所定数でなければ、
要素は非テキストであり、出口ルーチン。もし、上向き
端と下向き端の数>所定数でなければ、要素は非テキス
トであり、出口ルーチン。もし、(仕切りボックス内の
黒画素数)/(仕切りボックスのサイズ)の比<所定数
でなければ、要素は非テキストであり、出口ルーチン。
それ以外、要素はテキストであり、出口ルーチン。
【0029】同様な方法で、写真分類モジュール29は
関連要素データを写真若しくは非写真として分類する。
上で述べたように、テキスト分類と写真分類はいずれか
の順番もしくは平行に実行される。
【0030】ここで述べる実施例は、以下の擬似コード
で表される判定基準に適合した場合、関連要素を写真内
の領域として分類する。もし、仕切りボックスのサイズ
<所定サイズならば、要素は写真ではなく、出口ルーチ
ン。もし、黒画素数<所定数ならば、要素は写真ではな
く、出口ルーチン。もし、(幅/高さ)又は(高さ/
幅)>所定の比ならば、要素は写真ではなく、出口ルー
チン。もし、(黒画素数/仕切りボックスのサイズ)<
所定の比ならば、要素は写真ではなく、出口ルーチン。
もし、(幅>所定のサイズ)及び(高さ>所定のサイ
ズ)ならば、要素は写真であり、出口ルーチン。もし、
平均ストローク幅(画素/セグメント)>所定の比なら
ば、要素は写真であり、出口ルーチン。もし、ホール数
>所定数ならば、要素は写真であり、出口ルーチン。も
し、上向き端と下向き端の数>所定数ならば、要素は写
真であり、出口ルーチン。そうでなければ、要素は写真
でなく、出口ルーチン。
【0031】テキストと写真とその他の画像データを識
別するシステムの能力は、これら各画像の形態において
共通に見いだされる種々の幾何学的特性に対して属性を
割り当てることにより機能する。文字は一般的には黒の
実ストロークからなり、比較的均一なサイズと縦横比を
有する。文字はまた、一般的に比較的均一な平均ストロ
ーク幅を有する。一方、写真の領域は不規則なサイズを
持ち、かつ、不規則な縦横比を有する傾向にある。ま
た、写真領域はある与えられた領域、即ち、関連要素内
においてより高いホール数を有する。これらのホールは
ある離れた距離からその領域を眺めた時に目が感じる中
間調に寄与する。これらの特性、及至は属性はテキスト
と写真の領域を識別するのを助けるために用いることが
できる。勿論、いくらかの重なりは存在する。ある写真
の領域はテキストと同様の属性を持つかもしれないし、
あるテキストは写真領域と同様の属性を持つかもしれな
い。このことを調整するために、システムは仕切りボッ
クスが重なり合う関連要素の仕切りボックスを併合す
る。そのような重なりは写真領域において共通する。こ
のような方法で、そうでなければテキストとして特徴付
けられる関連要素は、要素の仕切りボックスが他の写真
領域の仕切りボックスと重なり合う時には、写真として
分類される。同様に、写真として分類されない関連要素
は近傍の関連要素がテキストであり、重なり合う仕切り
ボックスがない場合に、テキストとして分類される。後
者の状況の一例として、例えば、テキストのある行の最
初に装飾フォントが使用されている時に起こるであろ
う。
【0032】一旦テキストと他の要素が特定されると、
関連要素データ構造は、各要素がどのように分類された
かの指示を格納するために用いられる。この分析のこの
段階において、あるデータがテキスト上の特徴を有する
として選択される。この段階において、光学文字認識は
行われず、したがってシステムはその画像データの幾何
学的属性と画像データでもって、依然動作している。
【0033】この時点まで、各関連要素は個々の文字
(若しくはその一部)又は、個々の形もしくはインク滴
からなっている。次のステップで、どの領域がテキスト
の行、若しくは、ストリングを表しているかを特定する
ため、文字をグループ化することが開始する。これを達
成するため、最近傍の分析が実行される。本実施例は最
近傍図形を構成するため、デローネイ(Delauna
y)三角形を用いる。デローネイ三角形に関する文献と
しては、“A Sweepline Algorith
m or Voronoi Diagrams,”Al
gorithmica,2:153−174,1987
を参照されたい。最近傍分析は先に述べた仮定、即ち、
行上の文字間の間隔は、行間の間隔より一般に短いとい
う仮定を採用している。これは合理的な仮定であり、恐
らく(完全に保証されるわけではないが、)異なる言語
や文字のセットに亙って成立するものと考えられる。最
近傍分析はモジュール30によって実行される。モジュ
ール30は関連要素データ構造26内のデータをアクセ
スし、最近傍図形データ構造32内に格納される最近傍
図形を生成する。図6は最近傍図形を格納するための現
在用いられている好ましいデータ構造の構成を図式的に
示している。最近傍分析は本質的に先に特定された文字
要素を他の文字要素と比較することであり、それによっ
てお互いに最も近い文字を特定することができる。本実
施例においては、このことは文字要素の中心間の距離を
幾何学的に計算することによって行われる。文字要素の
中心は関連要素抽出の間に各文字について確立された四
角形の仕切りボックスによって幾何学的に確立される。
仕切りボックスデータ、即ち各要素についてのX及びY
の最大及び最小値はモジュール24による関連要素デー
タ構造26内に格納されている。
【0034】最近傍分析を図示するため、図5のa及び
b並びに図7を参照されたい。図5のaとbは関連要素
抽出プロセスが抽出された要素を囲う仕切りボックスを
定義する方法を示している。図5のaは、テキスト要素
を囲う仕切りボックスを示しており、図5のbは、非テ
キストキャラクタ要素を囲う仕切りボックスを示してい
る。図7はあるテキスト文字が互いにより近く、したが
ってテキストの単一行又はストリングの一部になるであ
ろうことを最近傍分析が決定する方法を示している。こ
のことの理由は、多くのプリント装置では、同じテキス
ト行内の文字は通常、テキスト行を横切る文字より互い
に近くに配置されるという事実から明らかである。従っ
て、テキスト要素の最近傍は同じテキスト行からきたも
のと推定することができる。実際、大多数の場合、ある
文字の最近傍は文章内の次の文字である。このようにし
て、同じテキスト行の文字のストリングは互いにリンク
される。通常、一テキスト行の文字は数個の最近傍図形
にグループ化される。この分析は互いに最も近いそれら
の要素を幾何学的に求めることによって実行される。多
くの場合、関連要素はただ一つの最近傍を有するであろ
う。しかしながら、時には関連要素は各々同じ最小距離
を持った一以上の近傍を有することがある。そのような
場合、それらすべての近傍は当該要素の最近傍であると
考えられる。これを調整するため、データ構造は、各要
素をリンクされたリストによって表現する。例えば、図
9のaは要素Aが要素Bと要素Cの2つの最近傍を有す
る状況を示している。近傍との間の距離は、各仕切りボ
ックスの中心を結ぶ線によって測られる。最近傍分析は
要素の近傍から検出された最小距離に存在するすべての
要素のリンクした要素を構成する。
【0035】図9のaに示すように、最近傍要素はどの
ような方向(水平及び垂直方向を含む)に配置され得
る。本実施例は最近傍の関連要素間のリンクを水平か垂
直かのいずれかとして特定する。図9のaにおいて、要
素AとBのあいだのリンクは水平リンクであり、一方、
AとCの要素の間のリンクは垂直リンクである。一般に
向きはある関連要素とその最近傍の各々の間のリンクと
して与えられる。例えば、要素Bが要素Aの最近傍であ
る場合、AとBの仕切りボックスの中心を結ぶ線が45
°の対角線より低いならば、そのリンクは水平である。
図9のbは、この定義に従って、水平リンクを示してい
る。相互に最近傍である関連要素は、最近傍図形と呼ば
れるリンクユニットを形成する。例えば、図9のcを参
照して、もし、要素Aが要素Bの最近傍であり、かつ、
要素Cが要素Bの最近傍であるならば、AとB及びCは
同じ最近傍図形のすべての部分である。最近傍図形デー
タ構造は、リンクの向きを格納するため上記リンクリス
トへの入力に関連するデータ要素を含む。
【0036】モジュール34は各最近傍図形の幾何学的
向きを調べ、その図形にリンクされた文字の行もしくは
ストリングが垂直もしくは水平配置のいずれかを決定す
る。本実施例において、各最近傍図形はそれらリンクの
主たる向きに依存して水平もしくは垂直として分類され
る。もしも、リンクの大部分が水平であれば、最近傍図
形は水平であり、そうでなければ垂直である。図9のd
は、図形が水平であると分類された例を示しており、こ
の例では2つの水平リンクと1つの垂直リンクが存在し
ている。最近傍図形の向きが一旦決定されると、その図
形において決定された向きに合致しない向きのリンクが
取り除かれる。図9のdにおいて、文字AとDを連結す
る垂直リンクは図形が水平向きであると特定された後
に、除去される。モジュール36は次いで、各向きにお
けるテキスト要素のフォントサイズを検査し、各向きに
おいて、候補タイトル要素を個別に検出する。
【0037】リンクの向きを決定するため、この実施例
においては、45度の閾値が用いられたが、傾いた頁に
対してもシステムが適合する必要があるため、そのよう
な場合には、異なる水平及び垂直の閾値が適切である。
更に、水平及び垂直は本実施例において考慮されるテキ
ストの唯一可能な向きであるが、必要とあれば、他の向
きのテキストも考慮することができる。特に、システム
は傾いた角度で印刷されたテキスト行を特定するように
構成することができる。一方、システムについて、英文
テキストのみを扱うように専門化することができる。そ
の場合には、垂直テキスト行に対する個別の処理を省略
することができるのでシステムのデザインを簡単化する
ことができる。
【0038】もし、さらなる識別が必要とされる場合、
フォントサイズの閾値の決定は頁の全体を基礎とするの
ではなしに局所的な部分での情報に基づいて決定するこ
とができる。多くの場合、平均フォントサイズは識別の
ための良好な属性を与えるが、システムはフォントサイ
ズ以外の識別属性を採用するように構成することができ
る。そのような他の属性は、識別をより精密にし、か
つ、付加的なレベルを達成するため、フォントサイズと
ともに用いることもできる。例えば、テキストストリン
グの幾何学中心を頁の垂直行の中心、もしくは、テキス
トのコラムの垂直行の中心と比較することができ、それ
によって頁上の目立つ位置に集められた文字を可能なタ
イトル候補として選択することができる。一方、もしく
は、それに加えて文字を形成する行のストローク幅、も
しくは厚さをタイトル候補を特定するために使用するこ
とができる。この関係において、太いストローク幅を有
するボールドフェイスタイプは見出しとして最も確から
しい候補となるであろう。しかしながら、上で示唆した
ように、本実施例は識別特性として文字サイズ、もしく
はフォントサイズを使うことによって極めて良好な結果
を得ることができる。
【0039】本実施例は、関連要素を分類するためにフ
ォントサイズを用いたが、ここに述べたような他の幾何
学的属性を分類プロセスを拡張するためにもちいること
ができる。そのための一つの方法は、シーケンシャル、
もしくは、ネストループの近似によるものであり、ここ
では第1のレベル決定が例えばフォントサイズを用いて
行われ、次いで第2のレベルの決定がある他の属性を用
いて精密化される等の方法が採られる。分類ステップ
(例えば、テキストもしくは写真としての関連要素を同
定する、もしくはテキスト要素のタイトル/非タイトル
の分類)のいずれかについて、複数の属性を同時に考慮
することができる。これを達成する一つの方法は、各関
連要素についてベクトルを構成し、ここで各ベクトル要
素は選択された属性の一つである。その場合、分類はベ
クトルデータを所定のベクトル閾値と比較することによ
って行われる。ニューラルネットワーク分析は複数の属
性を同時的に分析する今一つの方法である。
【0040】フォントサイズを識別する際に、垂直及び
水平フィルタモジュール36は頁上に特定されたすべて
の垂直方向の文字の平均フォントサイズを最初に計算
し、同様に、頁上に現れる水平方向の全ての文字の平均
フォントサイズを計算する。モジュール36は最近傍図
形データ構造32をアクセスすることによって、このこ
とを容易に達成することができて、垂直(もしくは、水
平)のストリングを分離し、次いで、ポインタによって
当該文字について、対応する仕切りボックスの高さを確
定するため、関連要素データ構造を参照する。水平及び
垂直の平均値が一旦計算されると、各ストリングはその
平均値と比較され、所定のフォント高さの閾値より大き
い文字からなるストリングはタイトル候補として選択さ
れる。
【0041】次いで、仕切りボックスが選択された水平
及び垂直候補の各々について形成される。モジュール3
8はこれら仕切りボックスを本質的には文字要素の個々
の仕切りボックスを併合し、テキストの選択された行内
の全ての文字が1つの仕切りボックスで仕切られるよう
に適当なサイズを選択することによって構成する。先に
述べたように、あるテキスト行は、通常、複数の最近傍
図形に分けられる。したがって、モジュール38内にお
ける併合プロセスは、タイトルテキスト行を形成するた
め、これら最近傍図形の仕切りボックスを単一の仕切り
ボックスに併合するプロセスを含む。これらの仕切りボ
ックスは、次いで40に格納される。40に格納される
仕切りボックスデータは本質的には各仕切りボックスの
左上、及び右下のコーナーのX,Y位置で記述される。
即ち、位置は元のビットマップ画像20上の(X,Y)
の位置として参照される。かくして、これらの仕切りボ
ックスの座標は、元のドキュメント上に仕切りボックス
を画成するのに使用でき、それによってタイトル候補を
選択することができる。所望とあれば、選択されたタイ
トル候補は元のドキュメントとは別に表示されることが
でき、例えば、元のドキュメントに夫々参照されるタイ
トルのリストの形式として表示される。さらに、タイト
ルは光学文字認識手段によって、それらを文字データに
変換するよう処理することができる。
【0042】写真要素として特定された関連要素につい
て、モジュール39は写真領域を形成するためそれらを
併合する。併合プロセスは全ての写真要素の仕切りボッ
クスを検査し、互いに重なり合う仕切りボックスの写真
要素は単一の領域に併合される。併合された領域を囲う
新しい仕切りボックスが次いで画成される。これらの仕
切りボックスはデータ格納手段41に適当に格納され
る。これらの仕切りボックスは各写真領域の左上、およ
び右下のコーナーのX,Y座標を記述する。これらの位
置は元のビットマップ画像20上の(X,Y)位置とし
て参照される。かくして、これらの仕切りボックス座標
は元のドキュメント上の仕切りボックスを画成するのに
使用され、それによって写真領域を選択する。
【0043】所望とあらば、各写真領域に関連する見出
しを表わすテキストをこのプロセスの一部として特定す
ることができる。各写真領域について、写真領域の仕切
りボックスを囲う四角形の枠の細い帯が考慮される。4
つの帯の各々にあるテキストが検査され、候補見出しテ
キスト領域が選択される。この選択プロセスは以下のよ
うに行われる:もし、底の帯内に水平テキストがあれ
ば、それは見出しであり、出口ルーチン。もし、上部の
帯に水平テキストがあるならば、それは見出しであり、
出口ルーチン。もし、左側の帯に垂直のテキストがある
ならば、それは見出しであり、出口ルーチン。もし、右
側の帯内に垂直のテキストがあるならば、それは見出し
であり、出口ルーチン。それ以外では見出しが見付から
ないので、出口ルーチン。
【0044】本発明が見出し、タイトル及び写真を抽出
する実施例との関連において記述されてきたが、本発明
はテキストベースの領域(タイトルかそうでないか)並
びに図形や線画等の非テキスト領域を同定することもで
きる。さらに、フォントサイズに基づいてテキストの異
なるレベルや相対的な配置などを識別することが可能で
ある。ここに述べた技術を用いることによって、図11
の80で示した頁画像は種々の異なるラベル付け領域を
特定する出力82を生成するのに使用することができ
る。テキストと非テキストを識別するためのメカニズム
は上に記述されている。このメカニズムを用いることに
よって、写真86に対応する画像領域84が特定され、
ラベル付けされる。図示の実施例において、ラベルはシ
ステムがある与えられたラベルの有効性についてどの程
度信頼できるかを示す信頼度(例えば、0.74)を含
むことができる。同様に、全てのテキスト領域はテキス
ト領域の機能(例えば、レベル1[L1]タイトル、レ
ベル2[L2]タイトル、テキストの本文等など)を指
示するようにラベル付けすることができる。画像領域と
同様、各テキスト領域は信頼度を含むことができる。
【0045】本発明は上記の実施例との関連で記述され
たが、本発明は添付のクレームによって定義された本発
明の技術思想を逸脱することなしに種々の修正をするこ
とができる。
【0046】
【発明の効果】以上詳述したように本発明によれば、所
期の目的を有効に達成することができる。
【0047】
【表1】 #define MXL 1024 /* * Structure for run-length sequences (sequences of * n, dx1, dx2, .. dxn) with less than MXL segments. * (n<MXL) */ typedef struct scanline { short n; /* number of segments */ short x[MXL]; } scanline; /* Structure for LAG */ typedef struct Seg { short y; /* row of interval (could be taken from scanline ) */ short xb; /* leftmost x of the interval */ short xe; /* rightmost x of the interval */ short da; /* number of overlapping intervals above */ short db; /* number of overlapping intervals below */ struct Seg *ia; /* Pointer to first overlapping interval above */ struct Seg *ib; /* Pointer to first overlapping interval below */ short seen; /* Seg status */ short Btflg; } Seg; #define SNULL (Seg *)0 #define SLNULL (Sline *)0 /* Cooked scanline with intervals that are LAG nodes */ typedef struct Sline { short y; /* row of scanline */ short n; /* number of segments */ Seg *sp; /* first segment */ Seg *spend; /* last segment */ struct Sline *next; /* next Sline */} Sline; /* * Connected Component of the LAG. It contains statistics of * the blob and a pointer to first segment. This implementation * requires re-traversal. To avoid that, the code in blob find() * should be modified to store a chain of segments. */ typedef struct Con com { Seg *first seg; /* first segment of the segment chain */ long Area; /* number of black pixels */ long seg num; /* number of segments */ short Xmin, Ymin, Xmax, Ymax; /* boundingbox */ short max seg len; /* maximum segment length */ short Holes; /* number of holes */ short upward end, downward end; /* upward-, doward- ends */ short upward cup, downward cup; /* upward-, doward- arcs */ char set; /* mark */ } con com; Seg *next seg(); Seg *look up(), *look down(); Seg *search up(), *search down(); con com **tmap; #ifndef NULL #define NULL 0 #endif #define DELETED -2 int triangulate, sorted, plot, debug; struct Freenode { struct Freenode *nextfree; }; struct Freelist { struct Freenode *head; int nodesize; };char *getfree(); char *myalloc(); float xmin, xmax, ymin, ymax, deltax, deltay; struct Point { float x,y; }; /* structure used both for sites and for vertices */ struct Site { struct Point coord; int sitenbr; int refcnt; }; struct Site *sites; int nsites; int siteidx; int sqrt nsites; int nvertices; Struct Freelist sfl; Struct Site *bottomsite; struct Edge { float a,b,c; Struct Site *ep[2]; Struct Site *reg[2]; int edgenbr; }; #define le 0 #define re 1 int nedges; struct Freelist efl; int has endpoint(),right of(); struct Site *intersect(); float dist();struct Point PQ min(); struct Halfedge *PQextractmin(); struct Edge *bisect(); struct Halfedge { struct Halfedge *ELleft, *ELright; struct Edge *ELedge; int ELrefcnt; char ELpm; struct Site *vertex; float ystar; struct Halfedge *PQnext; }; struct Freelist hfl; struct Halfedge *ELleftend, *ELrightend; int ELhashsize; struct Halfedge **ELhash; struct Halfedge *HEcreate(), *ELleft(), *ELright(), *ELleftbud(); struct Site *leftreg(), *rightreg(); int PQhashsize; struct Halfedge *PQhash; struct Halfedge *PQfind(); int PQcount; int PQmin; int PQempty(); /* my addition, Delaunay triangulation table */ float *px, *py; short **tri tbl; #define MAXEDGES 20 typedef struct graph { short n; /* number of links */ short e[MAXEDGES];/* link list */ char t[MAXEDGES];/* link orientation */ short seen; } graph; void freeinit(); void makefree(); void ELinitialize(); void ELinsert(); void ELdelete(); void PQinitialize(); void PQdelete(); void PQinsert(); void deref(); void ref(); void out bisector(); void out ep(); void out vertex(); void out site(); void out triple(); void endpoint(); void makevertex();
【図面の簡単な説明】
【図1】 本発明の好ましい実施例のソフトウェアのブ
ロックダイヤグラムである。
【図2】 水平と垂直の両方のテキストを示すビットマ
ップデータのサンプル頁である。
【図3】 (a)はテキスト関連要素の例の拡大図、
(b)は非テキスト関連要素の例の拡大図である。
【図4】 上記実施例において用いられる関連要素デー
タ構造のダイヤグラムである。
【図5】 (a)はテキスト文字を囲む仕切りボックス
を示し、(b)は非テキスト文字を囲む仕切りボックス
を示す。
【図6】 本発明の好ましい実施例の最近傍図形データ
構造の一例である。
【図7】 本実施例に採用された仕切りボックス技法を
理解するのに重要なダイヤグラムである。
【図8】 図2の原ビットマップと仕切りボックスとの
関係を示す併合仕切りボックスの一例である。
【図9】 (a)、(b)、(c)及び(d)は水平及
び垂直の分類が行われる方法を理解するのに有用な異な
る最近傍図形をそれぞれ示す。
【図10】 (a)及び(b)は本発明システムによっ
て得られる種々の特徴を示す例示的なテキスト文字0と
Mである。
【図11】 割り当てられたコンフィデンスファクター
で頁上の領域をラベル付けするのに本発明がいかに適用
されるかを示している。
【図12】 テキスト及び非テキスト関連要素がこれら
要素を分類するのに使用される種々の幾何学的要素の対
応する値を用いて示すチャートである。
【符号の説明】
22…ビットマップバッファ、 24…関連要素抽出モジュール、 26…関連要素データ構造、 28…テキスト分類モジュール、 29…写真分類モジュール、 30…最近傍分析モジュール、 32…最近傍図形データ構造、 34…テキスト行向き分析モジュール、 36…垂直及び水平フィルタモジュール、 38…仕切りボックス併合モジュール、 39…仕切りボックス併合モジュール、 40…仕切りボックスデータ、 41…非テキスト仕切りボックスデータ。

Claims (37)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータを用いて画像データ内のタ
    イトルを区画する方法は以下のステップからなる:画像
    データをバッファ内に格納する;複数の関連する要素を
    同定するとともに、関連する要素に対応する対象データ
    を格納するための第1データ構造を生成するため格納画
    像データについて関連要素の抽出を行う;第1データ構
    造内に格納された対象データの各々について、対応する
    関連要素の形状を反映する第1の属性と対応する関連要
    素の幾何学的特性を反映する第2の属性とを少なくとも
    同定するとともに第1データ構造との関連において上記
    第1,第2の属性を格納する;少なくとも第1の属性を
    分析してどの対象データがテキストを表わす画像データ
    に対応するかを同定する;少なくともテキストの1行の
    少なくとも一部を表わす画像データに対応する少なくと
    も1つの最も近傍の図形を構成するため上記対象データ
    について最近傍分析を実行する;テキストを表わす画像
    データに対応した関連要素の平均的な幾何学的特性を決
    定するため第2の属性を分析する;少なくともテキスト
    の1行を表わす画像データに対応する最近傍図形の各々
    について、各図形に関連する対象データの格納された第
    2の属性を上記平均的幾何学的特性と比較する;要素対
    象データが上記平均的幾何学的特性と実質的に異なる第
    2の属性を有する最近傍の図形をタイトル候補として選
    択する;上記タイトル候補の各々について仕切りボック
    スを画成するとともに、少なくとも一つの合併仕切りボ
    ックスを画成するために、少なくともテキストの一行に
    対応するタイトル候補の仕切りボックスを併合する;お
    よび上記合併仕切りボックスを格納画像データと関連さ
    せ、上記合併仕切りボックスがタイトルを表わす格納画
    像データの部分を区画する。
  2. 【請求項2】 上記幾何学的特性はサイズである、請求
    項1の方法。
  3. 【請求項3】 少なくともテキストの一行を表わす画像
    データに対応する最近傍図形を分析して空間的な方向性
    を決定するステップを更に備えた、請求項1の方法。
  4. 【請求項4】 少なくともテキストの一行を表わす画像
    データに対応する最近傍図形をほぼ水平方向の向きを有
    するテキストか、ほぼ垂直方向の向きを有するテキスト
    のいずれか一方として特定するステップを更に備えた、
    請求項1の方法。
  5. 【請求項5】 上記特定のステップは少なくともテキス
    トの一行を表わす画像データに対応する最近傍図形を4
    5°の傾きを表わす所定のデータと比較することにより
    実行される、請求項4の方法。
  6. 【請求項6】 (a)ほぼ水平方向に向いたテキストを
    表わす画像データに対応する関連要素の水平方向の平均
    フォントサイズおよび(b)ほぼ垂直方向に向いたテキ
    ストを表わす画像データに対応する関連要素の垂直方向
    の平均フォントサイズを個別に決定するとともに、 上記個別に決定された平均フォントサイズを用いて、
    (a)上記要素対象データが上記水平方向の平均フォン
    トサイズより大きいサイズ属性を有するような、ほぼ水
    平方向を向いたテキストの複数行を表わす画像データに
    対応する最近傍の図形;および(b)上記要素対象デー
    タが、上記垂直方向の平均フォントサイズより大きいサ
    イズ属性を有するような、ほぼ垂直方向を向いたテキス
    トの複数行を表わす画像データに対応する最近傍の図形
    をタイトル候補として選択するステップを更に備える、
    請求項4の方法。
  7. 【請求項7】 上記画像データは単色値を表わす1ビッ
    トデータである、請求項1の方法。
  8. 【請求項8】 上記画像データは中間調値を表わす複数
    ビットデータである、請求項1の方法。
  9. 【請求項9】 上記画像データは色調値を表わす複数ビ
    ットデータである、請求項1の方法。
  10. 【請求項10】 上記第1の幾何学的属性は、黒画素
    数、白画素数、ホール(hole)の数、ストローク端
    の数、上側に湾曲したストロークの数および下側に湾曲
    したストロークの数からなる群から選択される、請求項
    1の方法。
  11. 【請求項11】 上記第2の属性は関連要素の周りの仕
    切りボックスを定義する、請求項1の方法。
  12. 【請求項12】 上記第2の属性は、上,下,左,右の
    仕切り線で特徴づけられる、関連要素の周りの4角形状
    の仕切りボックスを定義する、請求項1の方法。
  13. 【請求項13】 いかなる対象データがテキストを表わ
    す画像データに対応するかを同定するために上記第1,
    第2の属性を分析するステップを更に含む請求項1の方
    法。
  14. 【請求項14】 上記第1の属性は予め定めた色の画素
    数に対応しており、どの対象データがテキストを表わす
    画像データに対応するかを同定するための上記第1の属
    性の分析ステップは、第1の属性を所定のしきい値と比
    較することにより行われる、請求項1の方法。
  15. 【請求項15】 上記第1の属性は黒画素数に対応し、
    どの対象データがテキストを表わす画像データに対応す
    るかを同定するための上記第1の属性の分析ステップ
    は、第1の属性が所定のしきい値より小さいときに画像
    データがテキストを表わすものでないことを明らかにす
    ることによって行われる、請求項1の方法。
  16. 【請求項16】 上記第1の属性は、ある高さと幅を有
    する関連要素を囲う仕切りボックスに対応し、どの対象
    データがテキストを表わす画像データに対応するかを同
    定するための上記第1属性の分析は上記高さと幅の少な
    くとも一つを所定のしきい値と比較することによって行
    われる、請求項1の方法。
  17. 【請求項17】 上記第1の属性はある高さと幅を有す
    る関連要素を囲う仕切りボックスに対応し、どの対象デ
    ータがテキストを表わす画像データに対応するかを同定
    するための第1属性の分析ステップは上記高さと幅の少
    なくとも一つが所定のしきい値より大きいときに当該画
    像データがテキストを表していないことを宣言すること
    によって行われる、請求項1の方法。
  18. 【請求項18】 上記第1の属性は平均ストローク幅に
    対応し、どの対象データがテキストを表わす画像データ
    であるかを同定する第1属性の分析のステップは上記第
    1の属性が所定のしきい値を越えている場合に当該画像
    データがテキストを表わすものでないことを宣言するこ
    とによって行われる、請求項1の方法。
  19. 【請求項19】 上記関連要素抽出は、上記格納された
    画像データを黒画素を含むセグメントに分割することに
    よって行われ、上記平均ストローク幅は黒セグメントの
    数に対する黒画素数の比として計算される、請求項18
    の方法。
  20. 【請求項20】 上記第1の属性はある高さと幅を有す
    る関連要素を囲う仕切りボックスに対応し、どの対象デ
    ータがテキストを表わす画像データであるかを同定する
    ための第1属性の分析ステップは高さに対する幅の比が
    所定のしきい値を越えている場合に当該画像データがテ
    キストを表わすものでないことを明らかにすることによ
    り行われる、請求項1の方法。
  21. 【請求項21】 上記第1の属性がある高さと幅を有す
    る関連要素を囲う仕切りボックスに対応し、どの対象デ
    ータがテキストを表わす画像データに対応するかを同定
    するための第1属性の分析ステップは幅に対する高さの
    比が所定のしきい値を越える場合に当該画像データがテ
    キストを表わすものでないことを明らかにすることによ
    って行われる、請求項1の方法。
  22. 【請求項22】 上記第1の属性は、関連要素内の画像
    ホール(hole)の数に対応し、どの対象データがテ
    キストを表わす画像データであるかを同定するための第
    1属性の分析ステップは、第1属性が所定のしきい値を
    越える場合に、当該画像データがテキストを表わすもの
    でないことを宣言することによって行われる、請求項1
    の方法。
  23. 【請求項23】 上記第1の属性は関連要素内のストロ
    ーク端の数に対応し、どの対象データがテキストを表わ
    す画像データであるかを同定するための第1属性の分析
    ステップは、第1の属性が所定のしきい値を越える場合
    に当該画像データがテキストを表わすものでないことを
    宣言することにより行われる、請求項1の方法。
  24. 【請求項24】 上記第1の属性がボックスの高さと幅
    から決定されるサイズを有する関連要素を囲う仕切りボ
    ックスに対応するとともに、更に関連要素内の黒画素数
    に対応しており、どの対象データがテキストを表わすか
    を同定するための第1属性のステップは上記仕切りボッ
    クスのサイズに対する黒画素数の比が所定のしきい値よ
    り低い場合に、当該画像データがテキストを表わすもの
    でないことを宣言することにより行われる、請求項1の
    方法。
  25. 【請求項25】 上記仕切りボックスによって切出され
    た格納画像データのサブセットを格納バッファに複写す
    ることにより画像データからタイトルを抽出するステッ
    プを更に含む、請求項1の方法。
  26. 【請求項26】 上記仕切りボックスによって切出され
    た格納画像データに関する光学文字認識を実行すること
    によってタイトルを上記画像データから抽出して抽出さ
    れたタイトルに対応するテキストデータを生成するステ
    ップを更に含む、請求項1の方法。
  27. 【請求項27】 上記切出されたタイトルに対応するテ
    キストデータを生成するため仕切りボックスを使用する
    とともに上記画像データに関連するインデックスとして
    上記テキストデータを使用するステップを更に含む、請
    求項1の方法。
  28. 【請求項28】 上記切出されたタイトルに対応するテ
    キストデータを生成するために仕切りボックスを使用す
    るとともに上記テキストデータを上記画像データに関連
    するコンピュータ索引可能なキーワードとして使用する
    ステップを更に含む、請求項1の方法。
  29. 【請求項29】 上記第1のデータ構造に格納された対
    象データの各々について、各々が対応する関連要素の異
    なる幾何学的特性を反映する複数の第2属性を同定する
    ステップを更に含む、請求項1の方法。
  30. 【請求項30】 要素対象データが予め定めた特徴に整
    合する属性を有するような最近傍の図形をタイトル候補
    として選択するため、上記第2属性と所定の順序で分析
    することを更に含む、請求項29の方法。
  31. 【請求項31】 要素データ対象が予め定めた特徴に整
    合するような最近傍の図形をタイトル候補として選択す
    るため上記第2属性を実質的に同時に分析することを更
    に含む、請求項29の方法。
  32. 【請求項32】 画像データ内の写真領域を切出す方法
    は以下のステップからなる:画像データをバッファ内に
    格納する;複数の関連要素を特定するとともに関連要素
    に対応する対象データを格納するための第1データ構造
    を生成するために格納した画像データについて関連要素
    抽出を実行する;上記第1データ構造内に格納された各
    対象データについて、対応する関連要素の幾何学的特性
    を反映する少なくとも第1の属性を同定するとともに第
    1の属性を第1データ構造に関連して格納する;どの対
    象データが可能性を有する写真領域を表わす画像データ
    に対応するかを同定するため関連要素の各々について仕
    切りボックスを定義することにより少なくとも第1属性
    を分析するとともに所定のしきい値サイズより大きい仕
    切りボックスを有する関連要素を写真領域候補として選
    択する;所定のしきい値と第1の関係を有する第1属性
    を有する上記候補を写真領域として選択するために上記
    写真領域候補の第1属性を更に分析する;少なくとも1
    つの併合仕切りボックスを定義するため仕切りボックス
    が相互にオーバーラップする、上記選択された写真領域
    の仕切りボックスを併合する;および上記併合仕切りボ
    ックスを上記格納画像データと関連づけ、これによって
    併合仕切りボックスにより写真領域を表わす、格納画像
    データの部分を切出す。
  33. 【請求項33】 上記第1の属性は、上記関連要素内の
    黒画素数を表わす、請求項32の方法。
  34. 【請求項34】 上記第1の属性は、上記関連要素の仕
    切りボックスの高さ対幅の比を表わす、請求項32の方
    法。
  35. 【請求項35】 上記第1の属性は、上記関連要素の仕
    切りボックスのサイズに対する黒画素数の比を表わす、
    請求項32の方法。
  36. 【請求項36】 上記第1の属性は、上記関連要素内の
    ホール数を表わす、請求項32の方法。
  37. 【請求項37】 上記第1の属性は、上記関連要素内の
    上向き端および下向き端の数を表わす、請求項32の方
    法。
JP10008773A 1997-01-21 1998-01-20 書類の走査画像からのタイトル、見出しおよび写真抽出 Pending JPH10260993A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/785993 1997-01-21
US08/785,993 US5892843A (en) 1997-01-21 1997-01-21 Title, caption and photo extraction from scanned document images

Publications (1)

Publication Number Publication Date
JPH10260993A true JPH10260993A (ja) 1998-09-29

Family

ID=25137273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008773A Pending JPH10260993A (ja) 1997-01-21 1998-01-20 書類の走査画像からのタイトル、見出しおよび写真抽出

Country Status (4)

Country Link
US (1) US5892843A (ja)
EP (1) EP0854433B1 (ja)
JP (1) JPH10260993A (ja)
DE (1) DE69724755T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2005339547A (ja) * 2004-05-21 2005-12-08 Samsung Electronics Co Ltd 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体
JP2006304062A (ja) * 2005-04-22 2006-11-02 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP2007200014A (ja) * 2006-01-26 2007-08-09 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
JP2010072842A (ja) * 2008-09-17 2010-04-02 Konica Minolta Business Technologies Inc 画像処理装置および画像処理方法
KR20200103205A (ko) * 2019-02-20 2020-09-02 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999926A (en) * 1996-08-23 1999-12-07 At&T Corp. View maintenance for unstructured databases
US6324500B1 (en) * 1997-11-14 2001-11-27 International Business Machines Corporation Method and system for the international support of internet web pages
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JP4100746B2 (ja) * 1998-01-09 2008-06-11 キヤノン株式会社 画像処理装置及び方法
JPH11282829A (ja) * 1998-03-31 1999-10-15 Fuji Photo Film Co Ltd フォント共有システムおよび方法ならびにフォント共有方法を実行するためのプログラムを格納した記録媒体
US6360010B1 (en) * 1998-08-12 2002-03-19 Lucent Technologies, Inc. E-mail signature block segmentation
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
US6351559B1 (en) * 1998-12-22 2002-02-26 Matsushita Electric Corporation Of America User-enclosed region extraction from scanned document images
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
WO2000052645A1 (fr) * 1999-03-01 2000-09-08 Matsushita Electric Industrial Co., Ltd. Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP3204259B2 (ja) * 1999-10-06 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
US7287214B1 (en) * 1999-12-10 2007-10-23 Books24X7.Com, Inc. System and method for providing a searchable library of electronic documents to a user
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
DE60142967D1 (de) * 2000-06-09 2010-10-14 British Broadcasting Corp Erzeugung von untertiteln für bewegte bilder
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
KR20030044008A (ko) * 2000-10-24 2003-06-02 톰슨 라이센싱 소시에떼 아노님 내장형 미디어 플레이어 페이지의 크기 조정 방법
FR2816157A1 (fr) * 2000-10-31 2002-05-03 Thomson Multimedia Sa Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede
US20020083079A1 (en) * 2000-11-16 2002-06-27 Interlegis, Inc. System and method of managing documents
US20040030681A1 (en) * 2000-11-21 2004-02-12 Shannon Paul Thurmond System and process for network site fragmented search
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US6832726B2 (en) 2000-12-19 2004-12-21 Zih Corp. Barcode optical character recognition
US7311256B2 (en) * 2000-12-19 2007-12-25 Zih Corp. Barcode optical character recognition
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US20040064500A1 (en) * 2001-11-20 2004-04-01 Kolar Jennifer Lynn System and method for unified extraction of media objects
US20030103673A1 (en) * 2001-11-30 2003-06-05 Nainesh Rathod Shape searcher
US7340092B2 (en) * 2001-12-21 2008-03-04 Minolta Co., Ltd. Image processing device, image processing method, program for executing image processing, and computer readable recording medium on which the program is stored
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
US7050630B2 (en) * 2002-05-29 2006-05-23 Hewlett-Packard Development Company, L.P. System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region
US7520857B2 (en) * 2002-06-07 2009-04-21 Verathon Inc. 3D ultrasound-based instrument for non-invasive measurement of amniotic fluid volume
US20100036252A1 (en) * 2002-06-07 2010-02-11 Vikram Chalana Ultrasound system and method for measuring bladder wall thickness and mass
US8221321B2 (en) 2002-06-07 2012-07-17 Verathon Inc. Systems and methods for quantification and classification of fluids in human cavities in ultrasound images
US20060025689A1 (en) * 2002-06-07 2006-02-02 Vikram Chalana System and method to measure cardiac ejection fraction
US20090112089A1 (en) * 2007-10-27 2009-04-30 Bill Barnard System and method for measuring bladder wall thickness and presenting a bladder virtual image
US20090062644A1 (en) * 2002-06-07 2009-03-05 Mcmorrow Gerald System and method for ultrasound harmonic imaging
US8221322B2 (en) * 2002-06-07 2012-07-17 Verathon Inc. Systems and methods to improve clarity in ultrasound images
GB2391625A (en) * 2002-08-09 2004-02-11 Diagnostic Ultrasound Europ B Instantaneous ultrasonic echo measurement of bladder urine volume with a limited number of ultrasound beams
US7819806B2 (en) * 2002-06-07 2010-10-26 Verathon Inc. System and method to identify and measure organ wall boundaries
US20040127797A1 (en) * 2002-06-07 2004-07-01 Bill Barnard System and method for measuring bladder wall thickness and presenting a bladder virtual image
US20080262356A1 (en) * 2002-06-07 2008-10-23 Vikram Chalana Systems and methods for ultrasound imaging using an inertial reference unit
US7450746B2 (en) * 2002-06-07 2008-11-11 Verathon Inc. System and method for cardiac imaging
US7085399B2 (en) * 2002-06-18 2006-08-01 Oki Electric Industry Co., Ltd. Watermark information embedding device and watermark information detection device
WO2004019230A2 (en) * 2002-08-20 2004-03-04 Matsushita Electric Industrial Co., Ltd. Method, system, and apparatus for generating structured document files
JP4462819B2 (ja) * 2002-09-26 2010-05-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US6965388B2 (en) * 2002-10-21 2005-11-15 Microsoft Corporation System and method for block scaling data to fit a screen on a mobile device
US7218779B2 (en) * 2003-01-21 2007-05-15 Microsoft Corporation Ink divider and associated application program interface
US7349918B2 (en) * 2003-06-30 2008-03-25 American Express Travel Related Services Company, Inc. Method and system for searching binary files
US7379594B2 (en) * 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
TWI284288B (en) * 2004-06-04 2007-07-21 Benq Corp Text region recognition method, storage medium and system
US20060045346A1 (en) * 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US8176054B2 (en) * 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7920759B2 (en) * 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
US7522771B2 (en) * 2005-03-17 2009-04-21 Microsoft Corporation Systems, methods, and computer-readable media for fast neighborhood determinations in dynamic environments
US20060267958A1 (en) * 2005-04-22 2006-11-30 Microsoft Corporation Touch Input Programmatical Interfaces
US7986307B2 (en) * 2005-04-22 2011-07-26 Microsoft Corporation Mechanism for allowing applications to filter out or opt into tablet input
US7928964B2 (en) * 2005-04-22 2011-04-19 Microsoft Corporation Touch input data handling
US8948511B2 (en) * 2005-06-02 2015-02-03 Hewlett-Packard Development Company, L.P. Automated document processing system
US20090049104A1 (en) * 2005-06-08 2009-02-19 William Pan Method and system for configuring a variety of medical information
US7623711B2 (en) * 2005-06-30 2009-11-24 Ricoh Co., Ltd. White space graphs and trees for content-adaptive scaling of document images
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
US7599556B2 (en) * 2005-08-25 2009-10-06 Joseph Stanley Czyszczewski Apparatus, system, and method for scanning segmentation
US20070067336A1 (en) * 2005-09-20 2007-03-22 Innodata Isogen, Inc. Electronic publishing system and method for managing publishing requirements in a neutral format
US8787660B1 (en) * 2005-11-23 2014-07-22 Matrox Electronic Systems, Ltd. System and method for performing automatic font definition
US7929769B2 (en) * 2005-12-13 2011-04-19 Microsoft Corporation Script recognition for ink notes
JP4897520B2 (ja) * 2006-03-20 2012-03-14 株式会社リコー 情報配信システム
US8201076B2 (en) * 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US8073263B2 (en) * 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8676810B2 (en) * 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080065671A1 (en) * 2006-09-07 2008-03-13 Xerox Corporation Methods and apparatuses for detecting and labeling organizational tables in a document
US7852499B2 (en) * 2006-09-27 2010-12-14 Xerox Corporation Captions detector
US8023725B2 (en) * 2007-04-12 2011-09-20 Samsung Electronics Co., Ltd. Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters
US8167803B2 (en) * 2007-05-16 2012-05-01 Verathon Inc. System and method for bladder detection using harmonic imaging
CN101354746B (zh) * 2007-07-23 2011-08-31 夏普株式会社 文字图像抽出装置及文字图像抽出方法
JP2009193187A (ja) * 2008-02-13 2009-08-27 Casio Comput Co Ltd 画像検索方法、画像検索システム、画像検索端末および検索用サーバー
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
US8225998B2 (en) * 2008-07-11 2012-07-24 Es&S Innovations Llc Secure ballot box
WO2010017508A1 (en) * 2008-08-07 2010-02-11 Verathon Inc. Device, system, and method to measure abdominal aortic aneurysm diameter
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US20100145808A1 (en) * 2008-12-08 2010-06-10 Fuji Xerox Co., Ltd. Document imaging with targeted advertising based on document content analysis
AU2009201252B2 (en) * 2009-03-31 2011-06-02 Canon Kabushiki Kaisha Colour correcting foreground colours for visual quality improvement
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US8396301B2 (en) 2009-09-24 2013-03-12 Gtech Corporation System and method for document location and recognition
US8509534B2 (en) 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US9135305B2 (en) * 2010-03-24 2015-09-15 Google Inc. Ranking object search results
JP5733907B2 (ja) * 2010-04-07 2015-06-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
AU2010257298B2 (en) * 2010-12-17 2014-01-23 Canon Kabushiki Kaisha Finding text regions from coloured image independent of colours
EP2490446A1 (en) 2011-02-15 2012-08-22 Eldon Technology Limited Copy protection
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
KR101814120B1 (ko) * 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
US9154832B2 (en) 2012-03-29 2015-10-06 Dish Network L.L.C. Testing frame color counting technique
CN103377232B (zh) * 2012-04-25 2016-12-07 阿里巴巴集团控股有限公司 标题关键词推荐方法及***
US8570379B1 (en) 2012-10-04 2013-10-29 Dish Network L.L.C. Frame block comparison
US9098532B2 (en) 2012-11-29 2015-08-04 International Business Machines Corporation Generating alternative descriptions for images
GB2513431B (en) 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
US11080777B2 (en) * 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US12008629B2 (en) 2014-03-31 2024-06-11 Monticello Enterprises LLC System and method for providing a social media shopping experience
US11004139B2 (en) 2014-03-31 2021-05-11 Monticello Enterprises LLC System and method for providing simplified in store purchases and in-app purchases using a use-interface-based payment API
US10511580B2 (en) 2014-03-31 2019-12-17 Monticello Enterprises LLC System and method for providing a social media shopping experience
US9842281B2 (en) * 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation
US9430704B2 (en) 2015-01-16 2016-08-30 Sony Corporation Image processing system with layout analysis and method of operation thereof
US11238215B2 (en) 2018-12-04 2022-02-01 Issuu, Inc. Systems and methods for generating social assets from electronic publications
US10614345B1 (en) 2019-04-12 2020-04-07 Ernst & Young U.S. Llp Machine learning based extraction of partition objects from electronic documents
US11113518B2 (en) 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US11915465B2 (en) 2019-08-21 2024-02-27 Eygs Llp Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
US11373106B2 (en) * 2019-11-21 2022-06-28 Fractal Analytics Private Limited System and method for detecting friction in websites
US11562591B2 (en) * 2019-12-23 2023-01-24 Insurance Services Office, Inc. Computer vision systems and methods for information extraction from text images using evidence grounding techniques
US11625934B2 (en) 2020-02-04 2023-04-11 Eygs Llp Machine learning based end-to-end extraction of tables from electronic documents

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0223468A (ja) * 1988-07-13 1990-01-25 Toshiba Corp ファイリング装置
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH05225397A (ja) * 1992-02-14 1993-09-03 Ricoh Co Ltd 文字形状整形装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
US4741046A (en) * 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
JPS62137974A (ja) * 1985-12-12 1987-06-20 Ricoh Co Ltd 画像処理方式
JP2702928B2 (ja) * 1987-06-19 1998-01-26 株式会社日立製作所 画像入力装置
US5001767A (en) * 1987-11-30 1991-03-19 Kabushiki Kaisha Toshiba Image processing device
US5703962A (en) * 1991-08-29 1997-12-30 Canon Kabushiki Kaisha Image processing method and apparatus
US5351314A (en) * 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
JP3039204B2 (ja) * 1993-06-02 2000-05-08 キヤノン株式会社 文書処理方法及び装置
DE69419291T2 (de) * 1993-09-03 1999-12-30 Canon Kk Formmessapparat
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5699453A (en) * 1994-09-30 1997-12-16 Xerox Corporation Method and apparatus for logically tagging of document elements in the column by major white region pattern matching
US5774579A (en) * 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5767978A (en) * 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0223468A (ja) * 1988-07-13 1990-01-25 Toshiba Corp ファイリング装置
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH05225397A (ja) * 1992-02-14 1993-09-03 Ricoh Co Ltd 文字形状整形装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2005339547A (ja) * 2004-05-21 2005-12-08 Samsung Electronics Co Ltd 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体
JP2006304062A (ja) * 2005-04-22 2006-11-02 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム
JP4579759B2 (ja) * 2005-04-22 2010-11-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US7848572B2 (en) 2005-04-22 2010-12-07 Canon Kabushiki Kaisha Image processing apparatus, image processing method, computer program
JP2007200014A (ja) * 2006-01-26 2007-08-09 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
JP2010072842A (ja) * 2008-09-17 2010-04-02 Konica Minolta Business Technologies Inc 画像処理装置および画像処理方法
US8482808B2 (en) 2008-09-17 2013-07-09 Konica Minolta Business Technologies, Inc. Image processing apparatus and method for displaying a preview of scanned document data
KR20200103205A (ko) * 2019-02-20 2020-09-02 경북대학교 산학협력단 도면 상에서 외곽선 및 표제 제거 방법을 포함하는 딥러닝 기반 학습 데이터 생성 방법 및 학습 데이터 생성 시스템

Also Published As

Publication number Publication date
EP0854433A3 (en) 1998-11-04
DE69724755D1 (de) 2003-10-16
DE69724755T2 (de) 2004-07-01
EP0854433B1 (en) 2003-09-10
US5892843A (en) 1999-04-06
EP0854433A2 (en) 1998-07-22

Similar Documents

Publication Publication Date Title
US5892843A (en) Title, caption and photo extraction from scanned document images
US5889886A (en) Method and apparatus for detecting running text in an image
US6009196A (en) Method for classifying non-running text in an image
US5465304A (en) Segmentation of text, picture and lines of a document image
Antonacopoulos Page segmentation using the description of the background
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US6674900B1 (en) Method for extracting titles from digital images
US5828771A (en) Method and article of manufacture for determining whether a scanned image is an original image or fax image
US5854854A (en) Skew detection and correction of a document image representation
US5369714A (en) Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5784487A (en) System for document layout analysis
US5774580A (en) Document image processing method and system having function of determining body text region reading order
US6512848B2 (en) Page analysis system
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5848184A (en) Document page analyzer and method
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0334472B1 (en) Methods of detecting character strings
US6351559B1 (en) User-enclosed region extraction from scanned document images
US6711292B2 (en) Block selection of table features
Chaudhury et al. Trainable script identification strategies for Indian languages
Li An implementation of ocr system based on skeleton matching
EP1229497B1 (en) Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm
JPH0743718B2 (ja) マルチメディア文書構造化方式