JP2004046295A

JP2004046295A - タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体

Info

Publication number: JP2004046295A
Application number: JP2002199100A
Authority: JP
Inventors: Toshifumi Yamaai; 山合　敏文
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-07-08
Filing date: 2002-07-08
Publication date: 2004-02-12

Abstract

【課題】文書画像からのタイトル抽出を精度を維持しつつ高速で行う。
【解決手段】文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求めるため、文字領域から行情報を抽出する際に、タイトルとの関係が深い行に絞り込む。つまり、例えば、１領域からは先頭から遠い行にはタイトルは含まれないと仮定してこれを除き、全行数より少ない特定の行数だけを抽出し、該抽出した行のみを次の処理（２次抽出処理）に渡すようにする。
【選択図】　　　図６

Description

【０００１】
【発明の属する技術分野】
本発明は、文書画像データから文書内容を簡便に表現する文書領域をタイトル領域として抽出する文書画像のタイトル抽出方法、タイトル抽出装置、タイトル抽出プログラム、及び該プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
文書をＯＣＲ装置等で読み込んで得られる文書画像から、文書のタイトル等の部分領域を抽出するため、例えば、文書画像内の黒画素を走査し、それらが連結している領域に外接する矩形領域を文字矩形として抽出し、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字矩形領域として抽出し、各文字列矩形の下線属性、枠付き属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係に基いて、タイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出することが既に知られている（特開平９−１３４４０６号公報：以下、従来技術１という）。
また、文書画像から切り出された文字列矩形に対し、この文字列矩形内の文字認識による、文字コード、確信度、文字矩形の座標値、大きさに基づくタイトルらしさ、同文字矩形内の各文字毎のフォントに基づくタイトルらしさ、文字認識で得られる文字コードに基づく自然言語的タイトルらしさ（例えば、体言止めになっている）、にそれぞれポイントを与え、更に、前記文字列矩形に対し、センタリング、下線等を用いてタイトルらしさのポイントを与え、これらのタイトルらしさのポイントを加算し、その合計値によりタイトル領域を決定して抽出することも既に知られている（特開平２０００−１４８７８８号公報：以下、従来技術２という）。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来技術１では、非定型文書に対して文字列矩形（行領域）の、例えば、枠、下線などのレイアウト的特徴を用いてタイトルらしさのポイント計算を行ってタイトル抽出を行っているので、抽出率が必ずしも満足のいくものにならないという問題があり、他方、従来技術２では、タイトルらしさを多様な観点から抽出しているので抽出率は向上するものの、タイトル抽出の最初から文字認識を行ってその情報を使用してタイトル抽出を行うので、処理速度が遅くなるという問題があった。
そこで、本出願人は、このような問題点を解決するために、先にタイトル抽出時に文字認識のような処理速度を低下させる要因を減らし、かつ、従来技術１で提案している枠、下線以外のレイアウト的特徴を追加することで高速でしかも精度の良いタイトル抽出装置、方法等を提案したが（特願２００１−９８９１５号）、本発明は、この先願発明を一歩進めてタイトル抽出の精度を落とさず、一層の高速化を図ることを目的とするものである。
【０００４】
【課題を達成させるための手段】
請求項１の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文字領域から行情報を抽出する際に、１領域からはタイトルの存在が予想できる１行以上で先頭から全行数未満の特定の行数だけを抽出する工程を有し、該抽出した行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法である。
【０００５】
請求項２の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出する工程を有し、当該行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法である。
【０００６】
請求項３の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づきその領域内部にある文字行のうち次処理に渡す行数を決定する工程を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出方法である。
【０００７】
請求項４の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域の大きさに基づきその領域内部にある文字行のうち次処理に渡す文字行数を決定する工程を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出方法である。
【０００８】
請求項５の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づき、タイトルらしさの情報が所定値より大きい場合にその文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合に、タイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出方法である。
【０００９】
請求項６の発明は、文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、文書画像から抽出した文字領域の大きさが所定値よりも大きい場合に、その文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行のみを、以降の処理に渡すことを特徴とするタイトル抽出方法である。
【００１０】
請求項７の発明は、請求項５又は６に記載されたタイトル抽出方法において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか１つ以上を使用することを特徴とするタイトル抽出方法である。
【００１１】
請求項８の発明は、請求項１乃至７のいずれかに記載されたタイトル抽出方法において、行情報が得られなかった文字領域についてその文字領域内の文字サイズ及び該文字領域に存在する行数のデータを得る工程を有し、該文字サイズ及び行数情報を、前記抽出された行情報と共に以降の処理に渡すことを特徴とする特徴とするタイトル抽出方法である。
【００１２】
請求項９の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字領域から行情報を抽出する際に、１領域からは１行以上で先頭から全行数未満の特定の行数だけを抽出する手段を有し、該行情報を次の処理に渡すことを特徴とするタイトル抽出装置である。
【００１３】
請求項１０の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字画像から抽出した文字領域のタイトルらしさの情報を抽出する手段を有し、該文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出して次の処理に渡すことを特徴とするタイトル抽出装置である。
【００１４】
請求項１１の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、文字領域から抽出したタイトルらしさの値に基づき、その領域内部にある文字行のうち、次処理に渡す行数を判断する手段を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出装置である。
【００１５】
請求項１２の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出した文字領域の大きさに基づき、次処理に渡す行数を判断する手段を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出装置である。
【００１６】
請求項１３の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出した文書領域のタイトルらしさの情報に基づき、タイトルらしさの情報のポイントが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定したときタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置である。
【００１７】
請求項１４の発明は、文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、抽出された文字領域の大きさが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置である。
【００１８】
請求項１５の発明は、請求項１３〜１４のいずれかに記載されたタイトル抽出装置において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか１つ以上を使用することを特徴とするタイトル抽出装置である。
【００１９】
請求項１６の発明は、請求項９〜１５のいずれかに記載されたタイトル抽出装置において、行情報が得られなかった文字領域に対して、該文字領域内の文字サイズ、何行あるかというデータを得るための手段を有し、該データを以降の処理に渡すことを特徴とするタイトル抽出装置である。
【００２０】
請求項１７の発明は、請求項１〜８のいずれかに記載されたタイトル抽出方法における各工程の手順をコンピュータに実行させるためのプログラムである。
【００２１】
請求項１８の発明は、請求項１７に記載されたプログラムを記録したコンピュータ読取可能な記録媒体である。
【００２２】
【発明の実施の形態】
以下、本発明の実施形態について説明する。
図１は、本発明が適用される１実施形態に係るタイトル抽出装置の要部のブロック図である。図中、スキャナ１００で読み取られた画像のデータを画像入力部２００により必要に応じて圧縮し、図示しない画像メモリにオリジナルデータとして格納する。画像データは、画像入力部２００から直接又は前記画像メモリから読み出されて領域分割装置３００の矩形抽出部３０１に入力され、ここで、オリジナル画像の黒連結成分に外接した矩形を抽出する。外接矩形は、更に行抽出部３０２に入力され行抽出が行われる。
行抽出部３０２は、例えば、横書き文書の場合、図２に示すように、隣合う文字矩形５０１，５０２の水平距離ｓｐ１を求め、ｓｐ１が標準文字サイズ以下のときに両矩形を統合する。或いは図３のように、文字矩形５０３，５０４の水平方向についての重なり量ｓｐ２を求め、文字矩形５０３，５０４の高さｈ１、ｈ２の小さい方の値をｈとして、ｓｐ２≧ｈ／２なら文字矩形５０３，５０４に統合する。このようにして統合された文字矩形の全てを包含する外接矩形を行として抽出する。文字領域生成部３０３は、このようにして抽出された行を統合することによって文字領域を抽出する。
一方、文字領域生成部３０３は、図示しない文字認識部や領域識別部に繋がっており、文字認識部において画像データの文字認識、文字矩形の座標値・大きさの取得が、領域識別部において各文字毎の文字コード・確信度の取得が行われる。そして、タイトル抽出部４００において、これらにポイント付けが行われ、タイトル候補を抽出する。
【００２３】
本発明の実施形態は、このようにタイトル抽出部４００において、文書画像から文字領域を抽出し、さらに文書画像全体の行情報について、タイトルらしさの情報を抽出してタイトル候補を求めるものである。具体的な決め方として、公知のポイント（スコア）計算に基く順位付けによる手法を用いることができる。
【００２４】
また、抽出した文字領域の位置、キャプションやヘッダー、本文などの属性からタイトルらしさの情報を抽出し、行のレイアウト的特徴からタイトルらしさの情報を抽出し、これらの情報にタイトルらしさのポイントを付与して第１次タイトル候補を抽出する。そして、抽出した第１次タイトル候補について、文字認識を行ってそのレイアウト的特徴からタイトルらしさの情報を抽出し、これにタイトルらしさのポイントを付与して第２次タイトル候補（最終的なタイトル）を抽出する。
【００２５】
図４は、タイトル抽出処理をマイクロプロセッサ等のデジタル処理により実行できるように構築したシステムを概略的に示した図である。
図４において、スキャナー１００は文書画像原稿を光学的に読み取り電気信号である画像データに変換する。ＣＰＵ１０は、本発明に係る処理プログラムを格納してあるプログラム格納ＲＯＭ／ＲＡＭ６０から、又はＣＤ−ＲＯＭ／ＦＤの格納媒体からＣＤ−ＲＯＭ／ＦＤドライブ４０によって当該プログラムを読み出してワークエリアＲＡＭ５０において文書画像データに対する方向判別処理、傾き角度判定処理、画像回転処理などを実行する。処理された文書画像データはＣＰＵ１０の指示によりメモリ２０に格納され、必要によりディスプレイ３０に表示されたり、印字装置７０によって出力される。
【００２６】
ところで、タイトル抽出作業における抽出処理速度に注目した場合、純粋な文字認識部分の抽出処理がこれに大きく寄与していることが分かっているため、その速度を上げるためには文字認識部分を減らすことが重要である。そのため、本発明では、文字認識する以前に候補となる行を絞り込み、文字認識部分を絞り込んでいる。これを一次抽出と呼び、１次抽出で絞り込んだタイトル行候補について文字認識を行い、最終的なタイトル候補を得る処理を２次抽出と呼んで、タイトル抽出処理を１次及び２次の２段階で行っている。
【００２７】
図５はタイトル抽出のための大まかな処理のフローを示している。
即ち、処理に当たり、まずＯＣＲを初期化し（Ｓ１０２）、行データを抽出し（Ｓ１０３）、抽出した行のレイアウト特徴を抽出し（Ｓ１０４）、これによってタイトル候補となる行を絞り込む、つまり１次抽出を行う（Ｓ１０５）。次に１次抽出した行についてＯＣＲによる特徴抽出を行い（Ｓ１０６）、タイトル候補の２次抽出を行い（Ｓ１０７）、抽出したタイトル候補をタイトル情報構造体に格納して（Ｓ１０８）、ＯＣＲ処理を終了する。
【００２８】
ところで、行データの抽出処理は、画像全面に存在する行を抽出する処理工程である。例えば、文書上の上の方にある行だけを抽出するという方法も考えられるが、タイトル抽出では、抽出では文書全体の文字サイズからみた該当行の大きさや、直前の行との距離など、行自体の絶対的な特徴の他にも相対的な特徴を数多く使用している。そのため、タイトルとしてはあり得ない図などの位置関係も情報として保持している必要がある。
【００２９】
本発明において、行抽出処理を実行する領域は文字領域（ヘッダー、フッター、キャプション、本文）と表領域である。各領域にはそれぞれ行方向情報が付けられているので、その行方向に基づき行抽出関数を呼び出す。
表に関しては、表処理を行わないので、罫線が無視される形で行抽出が行われる。したがって、同一行であるセルデータの連続が１行となる。
【００３０】
次に、本発明の各請求項に記載された発明に対応する各実施形態について説明する。
請求項１に係る発明の実施形態（第１実施形態）では、まず最初に文書画像から文字領域を抽出する。抽出する方法には既に述べたような方法、例えば本出願人による、特開平０６−１８７４９０号公報、特開平０６−０２０６９２号公報に記載された公知の方法を使用する。また、文字領域から行抽出をするのも例えば射影を用いるなどの既に知られた技術を使うことで実施できる。
ところで、本出願人が提案した前記先願発明では、文字領域から行を抽出するに当たって全ての行を抽出することを前提としていたが、この場合抽出した全ての行の中にはタイトルではない行が存在することがは明らかである。そこで、例えば１つの文字領域上で、上からＮ行（例えば１５行）を超えるところには、タイトルは存在しないという仮定をする。この行数Ｎの選択は経験等に基づき任意に決定することができる。このように１つの文字領域からは最高Ｎ行までの所定数の行数を抽出して、抽出された文字領域に対して、従来から知られた手順に従ってタイトルらしさの情報を抽出してゆき、タイトルの候補を求めるのである。
【００３１】
図６は、この処理を説明するためのフローチャートである。
まず、従来公知の方法で、つまり、領域識別パラメータをセットし（Ｓ２０１）、領域が、図、罫線、囲み枠以外のタイトルが含まれる可能性のある領域を識別して（Ｓ３０２、）、行方向の判別を行い（Ｓ２０２）、この場合行方向が不明であれば（Ｓ３０２，ＹＥＳ）、行方向を水平にセットして（Ｓ２０４）、領域識別を実行し（Ｓ２０５）、識別領域の抽出処理ループを開始すると（Ｓ２０６）、ここで、識別領域が罫線、囲み枠でなければ（Ｓ２０６、ＮＯ）、識別領域単位に行方向をセットすると共に文字方向が北向きになるようにセットし（Ｓ２０７）、次に上から前記所定の行数Ｎ行を切り出（抽出）して、その行をページ情報構造体に登録する（Ｓ２１０）。この処理はその識別領域の抽出処理ループを終了するまで継続する。抽出処理ループが終了すると（Ｓ２１１、ＹＥＳ）、ページ中の抽出した総行数をセットする（Ｓ２１２）。
この処理では、上から所定の行Ｎ未満の行を切り出し、この行をページ情報構造体に登録して、切り出した行に対する文字認識を行いタイトルらしさの情報を抽出するようにする。この方法では、文字領域から全ての行を抽出することはないから、抽出速度を上げることができる。
【００３２】
請求項２に係る発明の実施形態（第２実施形態）について説明する。まず、最初に文字領域を抽出する際に、その領域を分類し、予めヘッダー、フッター、キャプション、本文といった属性をつける、つまり領域識別を実行する。この属性の付与自体は、例えば、本出願人による出願に係る特開平７−１９２０８４号公報に記載されている公知の手段で実行することができる。
次のステップとして、各領域のタイトルらしさを判定する。この場合例えば最も下にある領域であるとか、フッターであるとか、明らかにタイトルが含まれていない領域を指摘することができる。この明らかにタイトルが含まれていないという条件は経験的に知ることができ、位置情報と整合をとることで、その領域にタイトルが含まれていなさそうな場合、その領域の行データにあるタイトル情報に、タイトルらしくないという情報を付加する。
ここで、従来は、タイトルらしくないという情報を付けた後でも、行の抽出を行っていたが、本発明では、タイトルらしくないと分かっている領域からは、行を抽出しないようにすることで高速かつ、精度の悪化がないタイトル抽出を実現している。
【００３３】
図７は、以上の処理フローを表したフロー図であって、まず領域識別を実行し（Ｓ３０１）、識別した各領域についてタイトルらしいか否か判定し（Ｓ３０２）、抽出のための処理ループに移行する（Ｓ３０３）、処理ループではまず、識別された対象領域が罫線、囲み枠であるか否か判断され、対象領域が罫線、囲み枠でなければ（Ｓ３０４、ＮＯ）、領域のタイトルらしさのポイントを加点していって、そのポイントが低くければ（Ｓ３０５、ＹＥＳ）、タイトルらしくないという情報を付加して行の切り出しを行わず、領域のタイトルらしさのポイントが低くない場合だけ（Ｓ３０５、ＮＯ）、識別領域単位に行方向をセットして、文字を方向を北向きにセットし（Ｓ３０６）、切り出しを実行し（Ｓ３０７）、切り出した行をページ情報構造体に登録して（Ｓ３０８）、その領域に対する処理ループが終了すれば（Ｓ３１０、ＹＥＳ）、ページ中の切り出し（抽出）行数をセットして（Ｓ３１１）次の処理（２次抽出）に渡す。
【００３４】
請求項３に係る発明の実施形態（第３実施形態）は、以上で説明した第２実施形態に類似している。つまり、文字領域を抽出した後その領域を分類して、ヘッダー、フッター、キャプション、本文といった属性をつけ、この属性を使用したり、その文字領域の位置や領域ごとにタイトルらしさのポイントを加点して、そのポイントに基づきタイトルらしさ或いはタイトルらしくなければその情報を付けておくことまでは前記実施形態と同様である。
ここで、前記第２の実施形態では、次の段階で領域のタイトルらしさが低くければ行抽出を全く行わないが、本実施形態では、タイトルらしさのポイントに応じて、抽出する行数を可変としている。つまりタイトルがなさそうな文字領域であったとしても、例えば最初の１行は抽出して情報を取得しておき、万が一に備えるということができるようにするなど、タイトルらしさのポイントに応じてタイトルらしさが上位の行を所定数切り出し、次の処理に渡す。
【００３５】
図８は、第３の実施形態の抽出処理のフロー図である。
ここで、ステップ４０１からステップ４０３までの処理は以上で説明した第２実施形態と同様であるが、領域が図、罫線、囲み枠でないとき（Ｓ４０４，ＮＯ）、識別領域内でタイトルらしさの観点からタイトルであり得る行数Ｎを決定し（Ｓ４０５）、その行数Ｎ行を切り出す（Ｓ４０６）。それ以外の処理は既に説明した第２の実施形態と同様である。
【００３６】
請求項４に係る発明の実施形態（第４実施形態）は、文字領域の大きさによって抽出する行数を可変とする方法である。つまり、小さな文字領域からは多くても３行程度の情報があれば、その中にタイトルは含まれると考えられるが、例えば、行間距離などを情報としてタイトルを抽出使用とする場合、１行しかないとその次の行との行間距離は測定できないから、大きな文字領域からは余裕をもってもう少し行を取得しておくほうが望ましい。この領域の大きさを調べる方法として、面積だけでなく、例えば水平行の文字領域であれば、推定した文字サイズと文字領域の高さから、当該文字領域内に何行あるかを推測する。ここではその推測した行数に基づいて抽出行数を自由に変更できるようにする。
なお、必要な抽出行数を予め決めておき、機械的にその行数だけ抽出するというのが最も処理が早いが、全部の行を抽出する処理を行う場合においても、次工程に渡す行数を絞るという処理を採れば当該処理以降の処理の高速化には貢献できる。
【００３７】
図９は第４の実施形態の抽出処理のフローチャートを示す。
このフローチャートから明らかなように、ステップ５０１からステップ５０４までの処理は第２又は第３実施形態と同様であるが、本実施形態では、ステップ５０４で抽出された領域が図、罫線、囲み枠でないとき（Ｓ５０４、ＮＯ）、前記推測した領域の大きさから行数Ｎを幾つにするか決定する（Ｓ５０５）。ここで、どの程度の大きさであれば何行抽出すればよいかは、経験等に基づき適宜決定すればよい。次に、領域単位で行方向をセットするとともに文字方向が北向きになるようセットし（Ｓ５０６）、領域の大きさに基づいて決めた任意の行数の切り出しを実行する（Ｓ５０７）。
その後の処理は以上で説明した各処理と同様である。
【００３８】
請求項５に係る発明の実施形態（第５実施形態）は、文字領域を抽出した後、その文字領域のタイトルらしさを検討するまでの処理は、第２、第３の実施形態について以上で説明した処理と同様である。そしてタイトルらしさの検討の結果、タイトルらしさのポイントが所定値より大きい場合には、一度その領域内の文字行を全てを抽出し、その領域内で、タイトルがあるとしたらどの行であるかという観点から、その行情報からタイトル候補行を絞り込む。そうして絞り込んだ行のうち幾つかをタイトルらしさの程度に応じて次の全体処理へ渡す行情報とする。この方法で、無駄な行が全体の処理行として渡されることがなくなり、高速化へ貢献することができる。
【００３９】
図１０は、この第５実施形態における抽出処理を説明するためのフロー図である。
この処理のステップ６０１からステップ６０４までの処理は以上で説明した各実施形態における処理と同様である。領域が図、罫線、囲み枠以外のものであれば、領域単位で行方向をセットしかつ文字方向が北向きになるようにセットし（Ｓ６０５）、更に、当該領域のタイトルらしさのポイントが所定値より高いか否かを判断する（Ｓ６０６）。この場合、領域のタイトルらしさのポイントが所定値より高い場合（Ｓ６０６、ＹＥＳ）は、領域内の全行を切り出し（Ｓ６０７）、領域内行データのタイトルらしさを抽出するが（Ｓ６０８）、領域のタイトルらしさのポイントが所定値より高くない場合には（Ｓ６０６、ＮＯ）、その領域内でタイトルらしさのポイントに応じて上位の行数を抽出し（Ｓ６０７）、その結果、いずれの場合もタイトルらしい行のみをページ情報構造体に登録する（Ｓ６１０）。領域のループ処理が終了すれば（Ｓ６１１、ＹＥＳ）、ページ中の抽出行数をセットして処理を終了する（Ｓ６１２）。
【００４０】
請求項６に係る発明の実施形態（第６実施形態）では、第５実施形態のように文字領域中のタイトルらしさという情報ではなく、第３実施形態のような文字領域自体の大きさで、その内部に関して暫定的なタイトル抽出を行い、タイトルらしさが上位に入る行のみを次の処理へ渡す。この処理は、第３実施形態の前記処理フロー中の後半の処理に類似している。この処理では、大きな文字領域つまり多くの行が入っていると思われる文字領域について、その文字領域に限定した場合にタイトルらしいと判定される行のみ、つまりその中の必要な行だけを後半の処理（２次抽出）に渡すことで高速化を図っている。
【００４１】
図１１は、第６実施形態の処理を説明をするためのフロー図である。ここでは第５実施形態に関連して説明した処理において、識別領域のタイトルらしさのポイントが高いか否かを判断する代わりに、識別領域の大きさが所定の大きさより大きいか否かを判断している。つまり、識別領域が所定の大きさよりも小さい場合は（Ｓ７０５、ＮＯ）全行の切り出しを実行し（Ｓ７０６）、領域内行データのタイトルらしさの抽出を行うが（Ｓ７０７）、領域が所定の大きさよりも大きい場合には（Ｓ７０５、ＹＥＳ）、その領域の全行の切り出しを実行すると時間が掛かるので、タイトルらしさのポイントに応じて決定した行数だけの抽出を行う（Ｓ７０８）。ここで、領域の大きさは、例えば経験に基づくなど任意に決定する。
【００４２】
請求項７に係る発明の実施形態（第７実施形態）は、第５又は第６実施形態の抽出方法において、文字領域内に限定した擬似的なタイトル抽出を行う際のタイトルらしさの指標は、行の位置、行の長さ、行内文字数、行のサイズ（大きさ）、下線の有無、行間距離、行の先頭のインデント量（センタリング、左寄せ、右寄せ等）に関する情報である。本実施形態では、これらの指標の１つあるいは複数を用いてそれぞれの数量等に対応して予め適宜定めたポイント付けを行いそのポイント（プラスのみでなく、ゼロ、マイナスもある）を加算した結果に基づき、予め定めた所定値以上のスコアを獲得した行をタイトルらしい行として抽出を行う。
【００４３】
請求項８に係る発明の実施形態（第８実施形態）は、第１〜第７実施形態におけるタイトル抽出方法において、必要な行情報だけを後段の処理に渡すことを特徴にしている。つまり、例えば、ある文字領域は本文にもかかわらずタイトルではなさそうな位置に配置されていたとすると、以上で説明した第１乃至第７実施形態のいずれかに記載された文字行全部については抽出しない処理を行うと、例えばその画像の平均文字行サイズを抽出しようとしたときに、タイトルらしい行だけでの平均サイズとなり、望ましくない結果となることが考えられる。通常文では、タイトル以外の文字の方が文書中で非常に多く、他方、タイトル行は標準文字サイズよりも大きいという傾向がある。そのため、標準文字サイズを求める処理のためにタイトルらしい行だけのデータを使うと、当然標準文字サイズのレベルが上がってしまい、それにともなって、タイトル行が見かけ上標準文字サイズに比べてあまり大きくないという結果となるので、タイトル行が文字サイズの点からは見分け難くなる。第８実施形態の処理はこれを避けることを目的としている。
【００４４】
図１２はこの処理を説明するためのフローチャートである。この処理では、図１１に示す第６実施形態処理フローの最後のステップに、その文字領域内の行数、平均行サイズの抽出行程を付加している（Ｓ８１２）。このようなステップを付加して、次の行程に渡すために、領域のタイトルらしさのポイントが高くない場合でも、行データを全て出力した場合に比して大きな差異が生じることがない。
本発明の実施形態は、このようなタイトル抽出装置において、文書画像から文字領域を抽出し、さらに文書画像全体の行情報について、タイトルらしさの情報を抽出してタイトル候補を求めるものである。具体的な決め方として、公知のポイント（スコア）計算に基く順位付けによる手法を用いることができる。
【００４５】
請求項９乃至１６に係る発明は、請求項１乃至８に係るタイトル抽出方法を実施するための装置に関するものであり、既に、図１に関連して説明した構成を有し、図４に関連して説明したタイトル抽出処理システムを備えている。
それによって、それぞれ以上で説明した第１乃至第８実施形態について説明したタイトル抽出方法を実現することができる。
【００４６】
また、前記実施形態１乃至８で説明した文書画像のタイトル抽出方法は、該抽出方法の各工程を実施するための処理手順を、図４に示すタイトル抽出システムにおけるＣＰＵ（コンピュータ）で実行させるプログラムにより、実現可能である。即ち、例えば、スキャナー１００で読み取って得た画像データに基づき、ＣＰＵ１０は、プログラム格納ＲＯＭ／ＲＡＭ６０から、又はＣＤ−ＲＯＭ／ＦＤの格納媒体からＣＤ−ＲＯＭ／ＦＤドライブ４０によってタイトル抽出用のプログラムを読み出し、ワークエリアＲＡＭ５０において文書画像データに対する方向判別処理、傾き角度判定処理、画像回転処理などを実行する。処理された文書画像データはＣＰＵ１０の指示によりメモリ２０に格納され、必要によりディスプレイ３０に表示されたり、印字装置７０によって出力されるようになっている。
また、前記プログラムはＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク等の公知の記録媒体に記録しておくことにより、容易に提供可能である。
【００４７】
【発明の効果】
請求項１乃至１６に対応する効果：タイトル抽出のために、識別領域から切り出す行数を絞りこんで後段の処理（２次抽出処理）に渡すことができるため、タイトル抽出処理のためのデータ量を抑制することができ、文書画像から精度を落とすことなく高速でタイトル抽出を行うことができる。
請求項１７、１８に対応する効果：本発明のタイトル抽出方法をタイトル抽出装置のコンピュータにおいて容易に実行することができる。
【図面の簡単な説明】
【図１】タイトル抽出装置の要部ブロック図である。
【図２】行抽出のための矩形統合を説明する図である。
【図３】行抽出のための他の矩形統合を説明する図である。
【図４】タイトル抽出処理システムの概略図である。
【図５】タイトル抽出のためのおおまかな処理を説明するためのフロー図である。
【図６】第１実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図７】第２実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図８】第３実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図９】第４実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図１０】第５実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図１１】第６実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【図１２】第８実施形態のタイトル抽出のための処理を説明するためのフロー図である。
【符号の説明】
１０…ＣＰＵ、２０…メモリ、３０…ディスプレイ、４０…ＣＤ−ＲＯＭ／ＦＤドライブ、５０…ワークエリアＲＡＭ、６０…プログラム格納ＲＯＭ／ＲＡＭ。７０…印字装置、１００…スキャナ、２００…画像入力部、３００…領域分割装置、３０１…矩形抽出部、３０２…行抽出部、３０３…文字領域生成部、４００…タイトル抽出部、

Claims

文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文字領域から行情報を抽出する際に、１領域からはタイトルの存在が予想できる１行以上で先頭から全行数未満の特定の行数だけを抽出する工程を有し、該抽出した行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法。
文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出する工程を有し、当該行情報のみを次の処理に渡すことを特徴とするタイトル抽出方法。
文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づきその領域内部にある文字行のうち次処理に渡す行数を決定する工程を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出方法。
文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文書画像から抽出した文字領域の大きさに基づきその領域内部にある文字行のうち次処理に渡す文字行数を決定する工程を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出方法。
文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文書画像から抽出した文字領域のタイトルらしさの情報を抽出する工程、文字領域のタイトルらしさの情報に基づき、タイトルらしさの情報が所定値より大きい場合にその文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合に、タイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出方法。
文書画像から文字領域を抽出し、さらにその文字領域から行情報を抽出し、その行情報からタイトルらしさの情報を抽出してタイトル候補を求める各工程からなるタイトル抽出方法において、
文書画像から抽出した文字領域の大きさが所定値よりも大きい場合に、その文字領域内で行抽出を行う工程を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行のみを、以降の処理に渡すことを特徴とするタイトル抽出方法。
請求項５又は６に記載されたタイトル抽出方法において、文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか１つ以上を使用することを特徴とするタイトル抽出方法。
請求項１乃至７のいずれかに記載されたタイトル抽出方法において、
行情報が得られなかった文字領域についてその文字領域内の文字サイズ及び該文字領域に存在する行数のデータを得る工程を有し、該文字サイズ及び行数情報を、前記抽出された行情報と共に以降の処理に渡すことを特徴とする特徴とするタイトル抽出方法。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
文字領域から行情報を抽出する際に、１領域からは１行以上で先頭から全行数未満の特定の行数だけを抽出する手段を有し、該行情報を次の処理に渡すことを特徴とするタイトル抽出装置。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
文字画像から抽出した文字領域のタイトルらしさの情報を抽出する手段を有し、該文字領域のタイトルらしさの情報が所定の値より大きい場合にのみ、行情報を抽出して次の処理に渡すことを特徴とするタイトル抽出装置。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
文字領域から抽出したタイトルらしさの値に基づき、その領域内部にある文字行のうち、次処理に渡す行数を判断する手段を有し、次工程に渡す行数がタイトルらしさの情報に基づき可変であることを特徴とするタイトル抽出装置。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
抽出した文字領域の大きさに基づき、次処理に渡す行数を判断する手段を有し、次工程に渡す行数が文字領域の大きさに基づき可変であることを特徴とするタイトル抽出装置。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
抽出した文書領域のタイトルらしさの情報に基づき、タイトルらしさの情報のポイントが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定したときタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置。
文書画像から文字領域を抽出する手段、該抽出された文字領域から行情報を抽出する手段、該行情報からタイトルらしさの情報を抽出してタイトル候補を求めるタイトル抽出手段を有するタイトル抽出装置において、
抽出された文字領域の大きさが所定値より大きい場合に、その文字領域内で行抽出を行う手段を有し、当該文字領域内に限定した場合にタイトルらしいと判定される行情報のみを、以降の処理に渡すことを特徴とするタイトル抽出装置。
請求項１３〜１４のいずれかに記載されたタイトル抽出装置において、
文字領域内に限定した場合にタイトルらしいと判定する指標として、行の位置、行の長さ、行内文字数、行のサイズ、下線の有無、行間距離、行の先頭のインデント量のいずれか１つ以上を使用することを特徴とするタイトル抽出装置。
請求項９〜１５のいずれかに記載されたタイトル抽出装置において、
行情報が得られなかった文字領域に対して、該文字領域内の文字サイズ、何行あるかというデータを得るための手段を有し、該データを以降の処理に渡すことを特徴とするタイトル抽出装置。
請求項１〜８のいずれかに記載されたタイトル抽出方法における各工程の手順をコンピュータに実行させるためのプログラム。
請求項１７に記載されたプログラムを記録したコンピュータ読取可能な記録媒体。