JP2004046295A - タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体 - Google Patents

タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004046295A
JP2004046295A JP2002199100A JP2002199100A JP2004046295A JP 2004046295 A JP2004046295 A JP 2004046295A JP 2002199100 A JP2002199100 A JP 2002199100A JP 2002199100 A JP2002199100 A JP 2002199100A JP 2004046295 A JP2004046295 A JP 2004046295A
Authority
JP
Japan
Prior art keywords
title
extracting
character
information
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002199100A
Other languages
English (en)
Inventor
Toshifumi Yamaai
山合 敏文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002199100A priority Critical patent/JP2004046295A/ja
Publication of JP2004046295A publication Critical patent/JP2004046295A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書画像からのタイトル抽出を精度を維持しつつ高速で行う。
【解決手段】文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求めるため、文字領域から行情報を抽出する際に、タイトルとの関係が深い行に絞り込む。つまり、例えば、1領域からは先頭から遠い行にはタイトルは含まれないと仮定してこれを除き、全行数より少ない特定の行数だけを抽出し、該抽出した行のみを次の処理(2次抽出処理)に渡すようにする。
【選択図】   図6

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像データから文書内容を簡便に表現する文書領域をタイトル領域として抽出する文書画像のタイトル抽出方法、タイトル抽出装置、タイトル抽出プログラム、及び該プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
文書をOCR装置等で読み込んで得られる文書画像から、文書のタイトル等の部分領域を抽出するため、例えば、文書画像内の黒画素を走査し、それらが連結している領域に外接する矩形領域を文字矩形として抽出し、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字矩形領域として抽出し、各文字列矩形の下線属性、枠付き属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係に基いて、タイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出することが既に知られている(特開平9−134406号公報:以下、従来技術1という)。
また、文書画像から切り出された文字列矩形に対し、この文字列矩形内の文字認識による、文字コード、確信度、文字矩形の座標値、大きさに基づくタイトルらしさ、同文字矩形内の各文字毎のフォントに基づくタイトルらしさ、文字認識で得られる文字コードに基づく自然言語的タイトルらしさ(例えば、体言止めになっている)、にそれぞれポイントを与え、更に、前記文字列矩形に対し、センタリング、下線等を用いてタイトルらしさのポイントを与え、これらのタイトルらしさのポイントを加算し、その合計値によりタイトル領域を決定して抽出することも既に知られている(特開平2000−148788号公報:以下、従来技術2という)。
【0003】
【発明が解決しようとする課題】
しかしながら、従来技術1では、非定型文書に対して文字列矩形(行領域)の、例えば、枠、下線などのレイアウト的特徴を用いてタイトルらしさのポイント計算を行ってタイトル抽出を行っているので、抽出率が必ずしも満足のいくものにならないという問題があり、他方、従来技術2では、タイトルらしさを多様な観点から抽出しているので抽出率は向上するものの、タイトル抽出の最初から文字認識を行ってその情報を使用してタイトル抽出を行うので、処理速度が遅くなるという問題があった。
そこで、本出願人は、このような問題点を解決するために、先にタイトル抽出時に文字認識のような処理速度を低下させる要因を減らし、かつ、従来技術1で提案している枠、下線以外のレイアウト的特徴を追加することで高速でしかも精度の良いタイトル抽出装置、方法等を提案したが(特願2001−98915号)、本発明は、この先願発明を一歩進めてタイトル抽出の精度を落とさず、一層の高速化を図ることを目的とするものである。
【0004】
【課題を達成させるための手段】
請求項1の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文字領域から行情報を抽出する際に、1領域からはタイトルの存在が予想できる1行以上で先頭から全行数未満の特定の行数だけを抽出する工程を有し、該抽出した行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法である。
【0005】
請求項2の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出する工程を有し、当該行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法である。
【0006】
請求項3の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づきその領域内部にある文字行のうち次処理に渡す行数を決定する工程を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出方法である。
【0007】
請求項4の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域の大きさに基づきその領域内部にある文字行のうち次処理に渡す文字行数を決定する工程を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出方法である。
【0008】
請求項5の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づき、タイトルらしさの情報が所定値より大きい場合にその文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合に、タイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出方法である。
【0009】
請求項6の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域の大きさが所定値よりも大きい場合に、その文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行のみを、以降の処理に渡すことを特徴とするタイトル抽出方法である。
【0010】
請求項7の発明は、請求項5又は6に記載されたタイトル抽出方法において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか1つ以上を使用することを特徴とするタイトル抽出方法である。
【0011】
請求項8の発明は、請求項1乃至7のいずれかに記載されたタイトル抽出方法において、行情報が得られなかった文字領域についてその文字領域内の文字サイズ及び該文字領域に存在する行数のデータを得る工程を有し、該文字サイズ及び行数情報を、前記抽出された行情報と共に以降の処理に渡すことを特徴とする特徴とするタイトル抽出方法である。
【0012】
請求項9の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字領域から行情報を抽出する際に、1領域からは1行以上で先頭から全行数未満の特定の行数だけを抽出する手段を有し、該行情報を次の処理に渡すことを特徴とするタイトル抽出装置である。
【0013】
請求項10の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字画像から抽出した文字領域のタイトルらしさの情報を抽出する手段を有し、該文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出して次の処理に渡すことを特徴とするタイトル抽出装置である。
【0014】
請求項11の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字領域から抽出したタイトルらしさの値に基づき、その領域内部にある文字行のうち、次処理に渡す行数を判断する手段を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出装置である。
【0015】
請求項12の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出した文字領域の大きさに基づき、次処理に渡す行数を判断する手段を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出装置である。
【0016】
請求項13の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出した文書領域のタイトルらしさの情報に基づき、タイトルらしさの情報のポイントが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定したときタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置である。
【0017】
請求項14の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出された文字領域の大きさが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置である。
【0018】
請求項15の発明は、請求項13〜14のいずれかに記載されたタイトル抽出装置において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか1つ以上を使用することを特徴とするタイトル抽出装置である。
【0019】
請求項16の発明は、請求項9〜15のいずれかに記載されたタイトル抽出装置において、行情報が得られなかった文字領域に対して、該文字領域内の文字サイズ、何行あるかというデータを得るための手段を有し、該データを以降の処理に渡すことを特徴とするタイトル抽出装置である。
【0020】
請求項17の発明は、請求項1〜8のいずれかに記載されたタイトル抽出方法における各工程の手順をコンピュータに実行させるためのプログラムである。
【0021】
請求項18の発明は、請求項17に記載されたプログラムを記録したコンピュータ読取可能な記録媒体である。
【0022】
【発明の実施の形態】
以下、本発明の実施形態について説明する。
図1は、本発明が適用される1実施形態に係るタイトル抽出装置の要部のブロック図である。図中、スキャナ100で読み取られた画像のデータを画像入力部200により必要に応じて圧縮し、図示しない画像メモリにオリジナルデータとして格納する。画像データは、画像入力部200から直接又は前記画像メモリから読み出されて領域分割装置300の矩形抽出部301に入力され、ここで、オリジナル画像の黒連結成分に外接した矩形を抽出する。外接矩形は、更に行抽出部302に入力され行抽出が行われる。
行抽出部302は、例えば、横書き文書の場合、図2に示すように、隣合う文字矩形501,502の水平距離sp1を求め、sp1が標準文字サイズ以下のときに両矩形を統合する。或いは図3のように、文字矩形503,504の水平方向についての重なり量sp2を求め、文字矩形503,504の高さh1、h2の小さい方の値をhとして、sp2≧h/2なら文字矩形503,504に統合する。このようにして統合された文字矩形の全てを包含する外接矩形を行として抽出する。文字領域生成部303は、このようにして抽出された行を統合することによって文字領域を抽出する。
一方、文字領域生成部303は、図示しない文字認識部や領域識別部に繋がっており、文字認識部において画像データの文字認識、文字矩形の座標値・大きさの取得が、領域識別部において各文字毎の文字コード・確信度の取得が行われる。そして、タイトル抽出部400において、これらにポイント付けが行われ、タイトル候補を抽出する。
【0023】
本発明の実施形態は、このようにタイトル抽出部400において、文書画像から文字領域を抽出し、さらに文書画像全体の行情報について、タイトルらしさの情報を抽出してタイトル候補を求めるものである。具体的な決め方として、公知のポイント(スコア)計算に基く順位付けによる手法を用いることができる。
【0024】
また、抽出した文字領域の位置、キャプションやヘッダー、本文などの属性からタイトルらしさの情報を抽出し、行のレイアウト的特徴からタイトルらしさの情報を抽出し、これらの情報にタイトルらしさのポイントを付与して第1次タイトル候補を抽出する。そして、抽出した第1次タイトル候補について、文字認識を行ってそのレイアウト的特徴からタイトルらしさの情報を抽出し、これにタイトルらしさのポイントを付与して第2次タイトル候補(最終的なタイトル)を抽出する。
【0025】
図4は、タイトル抽出処理をマイクロプロセッサ等のデジタル処理により実行できるように構築したシステムを概略的に示した図である。
図4において、スキャナー100は文書画像原稿を光学的に読み取り電気信号である画像データに変換する。CPU10は、本発明に係る処理プログラムを格納してあるプログラム格納ROM/RAM60から、又はCD−ROM/FDの格納媒体からCD−ROM/FDドライブ40によって当該プログラムを読み出してワークエリアRAM50において文書画像データに対する方向判別処理、傾き角度判定処理、画像回転処理などを実行する。処理された文書画像データはCPU10の指示によりメモリ20に格納され、必要によりディスプレイ30に表示されたり、印字装置70によって出力される。
【0026】
ところで、タイトル抽出作業における抽出処理速度に注目した場合、純粋な文字認識部分の抽出処理がこれに大きく寄与していることが分かっているため、その速度を上げるためには文字認識部分を減らすことが重要である。そのため、本発明では、文字認識する以前に候補となる行を絞り込み、文字認識部分を絞り込んでいる。これを一次抽出と呼び、1次抽出で絞り込んだタイトル行候補について文字認識を行い、最終的なタイトル候補を得る処理を2次抽出と呼んで、タイトル抽出処理を1次及び2次の2段階で行っている。
【0027】
図5はタイトル抽出のための大まかな処理のフローを示している。
即ち、処理に当たり、まずOCRを初期化し(S102)、行データを抽出し(S103)、抽出した行のレイアウト特徴を抽出し(S104)、これによってタイトル候補となる行を絞り込む、つまり1次抽出を行う(S105)。次に1次抽出した行についてOCRによる特徴抽出を行い(S106)、タイトル候補の2次抽出を行い(S107)、抽出したタイトル候補をタイトル情報構造体に格納して(S108)、OCR処理を終了する。
【0028】
ところで、行データの抽出処理は、画像全面に存在する行を抽出する処理工程である。例えば、文書上の上の方にある行だけを抽出するという方法も考えられるが、タイトル抽出では、抽出では文書全体の文字サイズからみた該当行の大きさや、直前の行との距離など、行自体の絶対的な特徴の他にも相対的な特徴を数多く使用している。そのため、タイトルとしてはあり得ない図などの位置関係も情報として保持している必要がある。
【0029】
本発明において、行抽出処理を実行する領域は文字領域(ヘッダー、フッター、キャプション、本文)と表領域である。各領域にはそれぞれ行方向情報が付けられているので、その行方向に基づき行抽出関数を呼び出す。
表に関しては、表処理を行わないので、罫線が無視される形で行抽出が行われる。したがって、同一行であるセルデータの連続が1行となる。
【0030】
次に、本発明の各請求項に記載された発明に対応する各実施形態について説明する。
請求項1に係る発明の実施形態(第1実施形態)では、まず最初に文書画像から文字領域を抽出する。抽出する方法には既に述べたような方法、例えば本出願人による、特開平06−187490号公報、特開平06−020692号公報に記載された公知の方法を使用する。また、文字領域から行抽出をするのも例えば射影を用いるなどの既に知られた技術を使うことで実施できる。
ところで、本出願人が提案した前記先願発明では、文字領域から行を抽出するに当たって全ての行を抽出することを前提としていたが、この場合抽出した全ての行の中にはタイトルではない行が存在することがは明らかである。そこで、例えば1つの文字領域上で、上からN行(例えば15行)を超えるところには、タイトルは存在しないという仮定をする。この行数Nの選択は経験等に基づき任意に決定することができる。このように1つの文字領域からは最高N行までの所定数の行数を抽出して、抽出された文字領域に対して、従来から知られた手順に従ってタイトルらしさの情報を抽出してゆき、タイトルの候補を求めるのである。
【0031】
図6は、この処理を説明するためのフローチャートである。
まず、従来公知の方法で、つまり、領域識別パラメータをセットし(S201)、領域が、図、罫線、囲み枠以外のタイトルが含まれる可能性のある領域を識別して(S302、)、行方向の判別を行い(S202)、この場合行方向が不明であれば(S302,YES)、行方向を水平にセットして(S204)、領域識別を実行し(S205)、識別領域の抽出処理ループを開始すると(S206)、ここで、識別領域が罫線、囲み枠でなければ(S206、NO)、識別領域単位に行方向をセットすると共に文字方向が北向きになるようにセットし(S207)、次に上から前記所定の行数N行を切り出(抽出)して、その行をページ情報構造体に登録する(S210)。この処理はその識別領域の抽出処理ループを終了するまで継続する。抽出処理ループが終了すると(S211、YES)、ページ中の抽出した総行数をセットする(S212)。
この処理では、上から所定の行N未満の行を切り出し、この行をページ情報構造体に登録して、切り出した行に対する文字認識を行いタイトルらしさの情報を抽出するようにする。この方法では、文字領域から全ての行を抽出することはないから、抽出速度を上げることができる。
【0032】
請求項2に係る発明の実施形態(第2実施形態)について説明する。まず、最初に文字領域を抽出する際に、その領域を分類し、予めヘッダー、フッター、キャプション、本文といった属性をつける、つまり領域識別を実行する。この属性の付与自体は、例えば、本出願人による出願に係る特開平7−192084号公報に記載されている公知の手段で実行することができる。
次のステップとして、各領域のタイトルらしさを判定する。この場合例えば最も下にある領域であるとか、フッターであるとか、明らかにタイトルが含まれていない領域を指摘することができる。この明らかにタイトルが含まれていないという条件は経験的に知ることができ、位置情報と整合をとることで、その領域にタイトルが含まれていなさそうな場合、その領域の行データにあるタイトル情報に、タイトルらしくないという情報を付加する。
ここで、従来は、タイトルらしくないという情報を付けた後でも、行の抽出を行っていたが、本発明では、タイトルらしくないと分かっている領域からは、行を抽出しないようにすることで高速かつ、精度の悪化がないタイトル抽出を実現している。
【0033】
図7は、以上の処理フローを表したフロー図であって、まず領域識別を実行し(S301)、識別した各領域についてタイトルらしいか否か判定し(S302)、抽出のための処理ループに移行する(S303)、処理ループではまず、識別された対象領域が罫線、囲み枠であるか否か判断され、対象領域が罫線、囲み枠でなければ(S304、NO)、領域のタイトルらしさのポイントを加点していって、そのポイントが低くければ(S305、YES)、タイトルらしくないという情報を付加して行の切り出しを行わず、領域のタイトルらしさのポイントが低くない場合だけ(S305、NO)、識別領域単位に行方向をセットして、文字を方向を北向きにセットし(S306)、切り出しを実行し(S307)、切り出した行をページ情報構造体に登録して(S308)、その領域に対する処理ループが終了すれば(S310、YES)、ページ中の切り出し(抽出)行数をセットして(S311)次の処理(2次抽出)に渡す。
【0034】
請求項3に係る発明の実施形態(第3実施形態)は、以上で説明した第2実施形態に類似している。つまり、文字領域を抽出した後その領域を分類して、ヘッダー、フッター、キャプション、本文といった属性をつけ、この属性を使用したり、その文字領域の位置や領域ごとにタイトルらしさのポイントを加点して、そのポイントに基づきタイトルらしさ或いはタイトルらしくなければその情報を付けておくことまでは前記実施形態と同様である。
ここで、前記第2の実施形態では、次の段階で領域のタイトルらしさが低くければ行抽出を全く行わないが、本実施形態では、タイトルらしさのポイントに応じて、抽出する行数を可変としている。つまりタイトルがなさそうな文字領域であったとしても、例えば最初の1行は抽出して情報を取得しておき、万が一に備えるということができるようにするなど、タイトルらしさのポイントに応じてタイトルらしさが上位の行を所定数切り出し、次の処理に渡す。
【0035】
図8は、第3の実施形態の抽出処理のフロー図である。
ここで、ステップ401からステップ403までの処理は以上で説明した第2実施形態と同様であるが、領域が図、罫線、囲み枠でないとき(S404,NO)、識別領域内でタイトルらしさの観点からタイトルであり得る行数Nを決定し(S405)、その行数N行を切り出す(S406)。それ以外の処理は既に説明した第2の実施形態と同様である。
【0036】
請求項4に係る発明の実施形態(第4実施形態)は、文字領域の大きさによって抽出する行数を可変とする方法である。つまり、小さな文字領域からは多くても3行程度の情報があれば、その中にタイトルは含まれると考えられるが、例えば、行間距離などを情報としてタイトルを抽出使用とする場合、1行しかないとその次の行との行間距離は測定できないから、大きな文字領域からは余裕をもってもう少し行を取得しておくほうが望ましい。この領域の大きさを調べる方法として、面積だけでなく、例えば水平行の文字領域であれば、推定した文字サイズと文字領域の高さから、当該文字領域内に何行あるかを推測する。ここではその推測した行数に基づいて抽出行数を自由に変更できるようにする。
なお、必要な抽出行数を予め決めておき、機械的にその行数だけ抽出するというのが最も処理が早いが、全部の行を抽出する処理を行う場合においても、次工程に渡す行数を絞るという処理を採れば当該処理以降の処理の高速化には貢献できる。
【0037】
図9は第4の実施形態の抽出処理のフローチャートを示す。
このフローチャートから明らかなように、ステップ501からステップ504までの処理は第2又は第3実施形態と同様であるが、本実施形態では、ステップ504で抽出された領域が図、罫線、囲み枠でないとき(S504、NO)、前記推測した領域の大きさから行数Nを幾つにするか決定する(S505)。ここで、どの程度の大きさであれば何行抽出すればよいかは、経験等に基づき適宜決定すればよい。次に、領域単位で行方向をセットするとともに文字方向が北向きになるようセットし(S506)、領域の大きさに基づいて決めた任意の行数の切り出しを実行する(S507)。
その後の処理は以上で説明した各処理と同様である。
【0038】
請求項5に係る発明の実施形態(第5実施形態)は、文字領域を抽出した後、その文字領域のタイトルらしさを検討するまでの処理は、第2、第3の実施形態について以上で説明した処理と同様である。そしてタイトルらしさの検討の結果、タイトルらしさのポイントが所定値より大きい場合には、一度その領域内の文字行を全てを抽出し、その領域内で、タイトルがあるとしたらどの行であるかという観点から、その行情報からタイトル候補行を絞り込む。そうして絞り込んだ行のうち幾つかをタイトルらしさの程度に応じて次の全体処理へ渡す行情報とする。この方法で、無駄な行が全体の処理行として渡されることがなくなり、高速化へ貢献することができる。
【0039】
図10は、この第5実施形態における抽出処理を説明するためのフロー図である。
この処理のステップ601からステップ604までの処理は以上で説明した各実施形態における処理と同様である。領域が図、罫線、囲み枠以外のものであれば、領域単位で行方向をセットしかつ文字方向が北向きになるようにセットし(S605)、更に、当該領域のタイトルらしさのポイントが所定値より高いか否かを判断する(S606)。この場合、領域のタイトルらしさのポイントが所定値より高い場合(S606、YES)は、領域内の全行を切り出し(S607)、領域内行データのタイトルらしさを抽出するが(S608)、領域のタイトルらしさのポイントが所定値より高くない場合には(S606、NO)、その領域内でタイトルらしさのポイントに応じて上位の行数を抽出し(S607)、その結果、いずれの場合もタイトルらしい行のみをページ情報構造体に登録する(S610)。領域のループ処理が終了すれば(S611、YES)、ページ中の抽出行数をセットして処理を終了する(S612)。
【0040】
請求項6に係る発明の実施形態(第6実施形態)では、第5実施形態のように文字領域中のタイトルらしさという情報ではなく、第3実施形態のような文字領域自体の大きさで、その内部に関して暫定的なタイトル抽出を行い、タイトルらしさが上位に入る行のみを次の処理へ渡す。この処理は、第3実施形態の前記処理フロー中の後半の処理に類似している。この処理では、大きな文字領域つまり多くの行が入っていると思われる文字領域について、その文字領域に限定した場合にタイトルらしいと判定される行のみ、つまりその中の必要な行だけを後半の処理(2次抽出)に渡すことで高速化を図っている。
【0041】
図11は、第6実施形態の処理を説明をするためのフロー図である。ここでは第5実施形態に関連して説明した処理において、識別領域のタイトルらしさのポイントが高いか否かを判断する代わりに、識別領域の大きさが所定の大きさより大きいか否かを判断している。つまり、識別領域が所定の大きさよりも小さい場合は(S705、NO)全行の切り出しを実行し(S706)、領域内行データのタイトルらしさの抽出を行うが(S707)、領域が所定の大きさよりも大きい場合には(S705、YES)、その領域の全行の切り出しを実行すると時間が掛かるので、タイトルらしさのポイントに応じて決定した行数だけの抽出を行う(S708)。ここで、領域の大きさは、例えば経験に基づくなど任意に決定する。
【0042】
請求項7に係る発明の実施形態(第7実施形態)は、第5又は第6実施形態の抽出方法において、文字領域内に限定した擬似的なタイトル抽出を行う際のタイトルらしさの指標は、行の位置、行の長さ、行内文字数、行のサイズ(大きさ)、下線の有無、行間距離、行の先頭のインデント量(センタリング、左寄せ、右寄せ等)に関する情報である。本実施形態では、これらの指標の1つあるいは複数を用いてそれぞれの数量等に対応して予め適宜定めたポイント付けを行いそのポイント(プラスのみでなく、ゼロ、マイナスもある)を加算した結果に基づき、予め定めた所定値以上のスコアを獲得した行をタイトルらしい行として抽出を行う。
【0043】
請求項8に係る発明の実施形態(第8実施形態)は、第1〜第7実施形態におけるタイトル抽出方法において、必要な行情報だけを後段の処理に渡すことを特徴にしている。つまり、例えば、ある文字領域は本文にもかかわらずタイトルではなさそうな位置に配置されていたとすると、以上で説明した第1乃至第7実施形態のいずれかに記載された文字行全部については抽出しない処理を行うと、例えばその画像の平均文字行サイズを抽出しようとしたときに、タイトルらしい行だけでの平均サイズとなり、望ましくない結果となることが考えられる。通常文では、タイトル以外の文字の方が文書中で非常に多く、他方、タイトル行は標準文字サイズよりも大きいという傾向がある。そのため、標準文字サイズを求める処理のためにタイトルらしい行だけのデータを使うと、当然標準文字サイズのレベルが上がってしまい、それにともなって、タイトル行が見かけ上標準文字サイズに比べてあまり大きくないという結果となるので、タイトル行が文字サイズの点からは見分け難くなる。第8実施形態の処理はこれを避けることを目的としている。
【0044】
図12はこの処理を説明するためのフローチャートである。この処理では、図11に示す第6実施形態処理フローの最後のステップに、その文字領域内の行数、平均行サイズの抽出行程を付加している(S812)。このようなステップを付加して、次の行程に渡すために、領域のタイトルらしさのポイントが高くない場合でも、行データを全て出力した場合に比して大きな差異が生じることがない。
本発明の実施形態は、このようなタイトル抽出装置において、文書画像から文字領域を抽出し、さらに文書画像全体の行情報について、タイトルらしさの情報を抽出してタイトル候補を求めるものである。具体的な決め方として、公知のポイント(スコア)計算に基く順位付けによる手法を用いることができる。
【0045】
請求項9乃至16に係る発明は、請求項1乃至8に係るタイトル抽出方法を実施するための装置に関するものであり、既に、図1に関連して説明した構成を有し、図4に関連して説明したタイトル抽出処理システムを備えている。
それによって、それぞれ以上で説明した第1乃至第8実施形態について説明したタイトル抽出方法を実現することができる。
【0046】
また、前記実施形態1乃至8で説明した文書画像のタイトル抽出方法は、該抽出方法の各工程を実施するための処理手順を、図4に示すタイトル抽出システムにおけるCPU(コンピュータ)で実行させるプログラムにより、実現可能である。即ち、例えば、スキャナー100で読み取って得た画像データに基づき、CPU10は、プログラム格納ROM/RAM60から、又はCD−ROM/FDの格納媒体からCD−ROM/FDドライブ40によってタイトル抽出用のプログラムを読み出し、ワークエリアRAM50において文書画像データに対する方向判別処理、傾き角度判定処理、画像回転処理などを実行する。処理された文書画像データはCPU10の指示によりメモリ20に格納され、必要によりディスプレイ30に表示されたり、印字装置70によって出力されるようになっている。
また、前記プログラムはCD−ROM、MO、フレキシブルディスク等の公知の記録媒体に記録しておくことにより、容易に提供可能である。
【0047】
【発明の効果】
請求項1乃至16に対応する効果:タイトル抽出のために、識別領域から切り出す行数を絞りこんで後段の処理(2次抽出処理)に渡すことができるため、タイトル抽出処理のためのデータ量を抑制することができ、文書画像から精度を落とすことなく高速でタイトル抽出を行うことができる。
請求項17、18に対応する効果:本発明のタイトル抽出方法をタイトル抽出装置のコンピュータにおいて容易に実行することができる。
【図面の簡単な説明】
【図1】タイトル抽出装置の要部ブロック図である。
【図2】行抽出のための矩形統合を説明する図である。
【図3】行抽出のための他の矩形統合を説明する図である。
【図4】タイトル抽出処理システムの概略図である。
【図5】タイトル抽出のためのおおまかな処理を説明するためのフロー図である。
【図6】第1実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図7】第2実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図8】第3実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図9】第4実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図10】第5実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図11】第6実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図12】第8実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【符号の説明】
10…CPU、20…メモリ、30…ディスプレイ、40…CD−ROM/FDドライブ、50…ワークエリアRAM、60…プログラム格納ROM/RAM。70…印字装置、100…スキャナ、200…画像入力部、300…領域分割装置、301…矩形抽出部、302…行抽出部、303…文字領域生成部、400…タイトル抽出部、

Claims (18)

  1. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文字領域から行情報を抽出する際に、1領域からはタイトルの存在が予想できる1行以上で先頭から全行数未満の特定の行数だけを抽出する工程を有し、該抽出した行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法。
  2. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出する工程を有し、当該行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法。
  3. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づきその領域内部にある文字行のうち次処理に渡す行数を決定する工程を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出方法。
  4. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文書画像から抽出した文字領域の大きさに基づきその領域内部にある文字行のうち次処理に渡す文字行数を決定する工程を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出方法。
  5. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づき、タイトルらしさの情報が所定値より大きい場合にその文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合に、タイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出方法。
  6. 文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
    文書画像から抽出した文字領域の大きさが所定値よりも大きい場合に、その文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行のみを、以降の処理に渡すことを特徴とするタイトル抽出方法。
  7. 請求項5又は6に記載されたタイトル抽出方法において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか1つ以上を使用することを特徴とするタイトル抽出方法。
  8. 請求項1乃至7のいずれかに記載されたタイトル抽出方法において、
    行情報が得られなかった文字領域についてその文字領域内の文字サイズ及び該文字領域に存在する行数のデータを得る工程を有し、該文字サイズ及び行数情報を、前記抽出された行情報と共に以降の処理に渡すことを特徴とする特徴とするタイトル抽出方法。
  9. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    文字領域から行情報を抽出する際に、1領域からは1行以上で先頭から全行数未満の特定の行数だけを抽出する手段を有し、該行情報を次の処理に渡すことを特徴とするタイトル抽出装置。
  10. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    文字画像から抽出した文字領域のタイトルらしさの情報を抽出する手段を有し、該文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出して次の処理に渡すことを特徴とするタイトル抽出装置。
  11. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    文字領域から抽出したタイトルらしさの値に基づき、その領域内部にある文字行のうち、次処理に渡す行数を判断する手段を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出装置。
  12. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    抽出した文字領域の大きさに基づき、次処理に渡す行数を判断する手段を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出装置。
  13. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    抽出した文書領域のタイトルらしさの情報に基づき、タイトルらしさの情報のポイントが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定したときタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置。
  14. 文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
    抽出された文字領域の大きさが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置。
  15. 請求項13〜14のいずれかに記載されたタイトル抽出装置において、
    文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか1つ以上を使用することを特徴とするタイトル抽出装置。
  16. 請求項9〜15のいずれかに記載されたタイトル抽出装置において、
    行情報が得られなかった文字領域に対して、該文字領域内の文字サイズ、何行あるかというデータを得るための手段を有し、該データを以降の処理に渡すことを特徴とするタイトル抽出装置。
  17. 請求項1〜8のいずれかに記載されたタイトル抽出方法における各工程の手順をコンピュータに実行させるためのプログラム。
  18. 請求項17に記載されたプログラムを記録したコンピュータ読取可能な記録媒体。
JP2002199100A 2002-07-08 2002-07-08 タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体 Pending JP2004046295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002199100A JP2004046295A (ja) 2002-07-08 2002-07-08 タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002199100A JP2004046295A (ja) 2002-07-08 2002-07-08 タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004046295A true JP2004046295A (ja) 2004-02-12

Family

ID=31706368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002199100A Pending JP2004046295A (ja) 2002-07-08 2002-07-08 タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2004046295A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
WO2010140291A1 (ja) * 2009-06-02 2010-12-09 日本電気株式会社 情報処理装置
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
JP2017117311A (ja) * 2015-12-25 2017-06-29 富士通株式会社 文書検索方法、文書検索プログラムおよび文書検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP4614320B2 (ja) * 2004-10-25 2011-01-19 株式会社リコー 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
WO2010140291A1 (ja) * 2009-06-02 2010-12-09 日本電気株式会社 情報処理装置
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
JP2017117311A (ja) * 2015-12-25 2017-06-29 富士通株式会社 文書検索方法、文書検索プログラムおよび文書検索装置

Similar Documents

Publication Publication Date Title
JP4364914B2 (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP4740916B2 (ja) 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
JP2713622B2 (ja) 表形式文書読取装置
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JPH0772905B2 (ja) 記号列の認識方法
JP2009026288A (ja) 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2004046295A (ja) タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
JP2003186889A (ja) 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
JP3285686B2 (ja) 領域分割方法
JP2000105836A (ja) 論理構造抽出装置
US6330360B1 (en) Image processing apparatus and method
JP2917427B2 (ja) 図面読取装置
JPH08153110A (ja) 文書ファイリング装置及び方法
JPH11242716A (ja) 画像処理方法および記録媒体
JP2918666B2 (ja) 文字画像切出し方法
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JPH07319880A (ja) キーワード抽出・検索装置
JPH0728935A (ja) 文書画像処理装置
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2821303B2 (ja) 掠れ文字結合方式
JPH0830725A (ja) 画像処理装置及び方法
JP2797523B2 (ja) 図面続取装置
JPH11316797A (ja) 文書画像の領域識別方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080417