JPH04287168A - ファイリングの自動キーワード抽出方法 - Google Patents

ファイリングの自動キーワード抽出方法

Info

Publication number
JPH04287168A
JPH04287168A JP3076906A JP7690691A JPH04287168A JP H04287168 A JPH04287168 A JP H04287168A JP 3076906 A JP3076906 A JP 3076906A JP 7690691 A JP7690691 A JP 7690691A JP H04287168 A JPH04287168 A JP H04287168A
Authority
JP
Japan
Prior art keywords
area
character
character string
title
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3076906A
Other languages
English (en)
Inventor
Michiyoshi Tachikawa
道義 立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3076906A priority Critical patent/JPH04287168A/ja
Publication of JPH04287168A publication Critical patent/JPH04287168A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、ファイリングの自動キーワード
抽出方法に関し、より詳細には、文字認識を用いたファ
イリングシステムに関する。
【0002】
【従来技術】従来の文書読取装置では、文字列領域のみ
を読み取り対象としていたために、例えば、表領域は表
中の文字パターンを切り出して読み取り、写真領域はそ
の領域の文書画像を圧縮して出力するといった領域の属
性に応じた処理が出来なかった。又、文字列領域か否か
を検査するには、領域の形状と直線特徴の割合だけを用
いていたために、検出された領域が図領域であるか表領
域であるかを判別するには判定基準が少なく、判別する
のが困難であるといった問題点があった。この点を解決
するために、例えば、特開昭61−296481号公報
に「文書読取装置」が提案されている。この公報のもの
は検出した領域の属性(文字列、図、表、写真、その他
)を判定し、領域の属性に応じた処理が出来る文書読取
装置に関するものである。
【0003】しかしながら、矩形抽出を行ない、文字領
域、図領域、写真領域、表領域などに領域を分割するも
のであり、キーワードを高速に抽出するものではない。 ファイリングの分野では、画像読み取り装置(スキャナ
等)で文書を読み取り、画像圧縮などの技術を用いて画
像として光ディスク等へ保存している。そして、これら
のデータベースを検索するために、人手でキーワードを
入力しており、自動ファイリングは非常に困難なものと
なっている。また、文字認識装置ですべての部分を認識
し、その結果を言語処理してキーワードを抽出する方法
もあるが、キーワード抽出に時間がかかり、性能も十分
なものがない。そこで、本発明では写真、図の説明文や
表題にその文書内容を表すキーワードが多いということ
と、写真、図の説明文はその下部にあり、表題は表の上
部にあることが多いということを使用して、これらの問
題点を解決するものである。
【0004】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、キーワードを抽出する時間を短縮し、より的確
なキーワードを抽出するような簡便な方法であるファイ
リングの自動キーワード抽出方法を提供することを目的
としてなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
文書画像を入力してファイリングする装置において、文
字領域、写真領域、図領域、表領域などの領域判定を行
なう領域識別部と、前記表領域の上部にある表題の文字
列を見つける表題判定部と、前記図領域、写真領域の下
部にある説明文字列を見つける図説明文字列判定部と、
該図説明文字列判定部により見つけられた文字列を認識
する文字認識部と、該文字認識部により認識した結果か
らキーワードを抽出するキーワード抽出部とからなるこ
と、或いは、(2)文書画像を入力してファイリングす
る装置において、文字領域、写真領域、図領域、表領域
などの領域判定を行なう領域識別部と、前記表領域の上
部である範囲内にある表題の文字列を見つける表題判定
部と、前記図領域、写真領域の下部である範囲内にある
説明文字列を見つける図説明文字列判定部と、該図説明
文字列判定部により見つけられた文字列を認識する文字
認識部と、該文字認識部により認識した結果からキーワ
ードを抽出するキーワード抽出部とからなること、或い
は、(3)文書画像を入力してファイリングする装置に
おいて、文字領域、写真領域、図領域、表領域などの領
域判定を行なう領域識別部と、前記表領域の上部にある
表題の文字領域を見つける表題判定部と、前記図領域、
写真領域の下部にある説明文字領域を見つける図説明文
字領域判定部と、該図説明文字領域判定部により見つけ
られた文字領域を認識する文字認識部と、該文字認識部
により認識した結果からキーワードを抽出するキーワー
ド抽出部とからなること、或いは、(4)文書画像を入
力してファイリングする装置において、文字領域、写真
領域、図領域、表領域などの領域判定を行なう領域識別
部と、前記表領域の上部である範囲内にある表題の文字
領域を見つける表題判定部と、前記図領域、写真領域の
下部である範囲内にある説明文字領域を見つける図説明
文字領域判定部と、該図説明文字領域判定部により見つ
けられた文字領域を認識する文字認識部と、該文字認識
部により認識した結果からキーワードを抽出するキーワ
ード抽出部とからなることを特徴としたものである。以
下、本発明の実施例に基づいて説明する。
【0006】図1は、本発明によるファイリングの自動
キーワード抽出方法の一実施例を説明するための構成図
で、図中、1は制御部、2は領域識別部、3は図説明文
字列判定部、4は表題判定部、5は文字認識部、6はキ
ーワード抽出部、7は文書画像メモリ、8は領域情報メ
モリ、9はキーワード抽出文字列メモリ、10は認識結
果部である。文書画像を入力して文字、写真、図、表な
どの領域を識別する領域識別部2と、図の内容を説明す
る文字列を見つけだす図説明文字列判定部3と、表題を
見つけだす表題判定部4と、文字列に対して認識処理を
行なう文字認識部5と、認識した結果を言語処理し、キ
ーワードを抽出するキーワード抽出部16とからなる。
【0007】図2は、本発明によるファイリングの自動
キーワード抽出方法の実施例(請求項1)を説明するた
めのフローチャートである。以下、各ステップに従って
順に説明する。 step1:まず、文書画像に対して矩形抽出処理を行
う。 step2:抽出された矩形のサイズにより文字を構成
する矩形なのか、その他(写真、図、表)の矩形なのか
を判定する。 step3:矩形の種類を判定する。すなわち、図領域
であるか、表領域であるかを判定し、写真、図と表の領
域を区別する。 step4:前記step3において、表であった場合
には、表領域の上部に文字列があるかどうかを調べる。
【0008】step5:前記step4において、文
字列があれば表領域の上部を参照し、最も表領域に近い
文字列をキーワード抽出文字列として、文字認識し、キ
ーワード抽出を行う。 step6:前記step3において、写真、図の領域
の場合には、その領域の下部に文字列があるかどうかを
調べる。 step7:step6において、文字列があれば、写
真、図の領域の下部を参照し、最も近い文字列をキーワ
ード抽出文字列とする。 step8:すべての文字以外の矩形終了を調べる。終
了でなければ前記step3に戻る。 step9:終了であれば、キーワード抽出処理を行う
。キーワード抽出には、漢字文字列や片仮名文字列を抽
出する方法、言語処理(形態素解析)を行なって名詞を
抽出する方法、名詞の中でも頻度が高いものだけをキー
ワードとして抽出する方法などがある。表領域や写真、
図領域と判定されたものがない場合や、表領域の上部や
、写真、図領域の下部に1つも文字列がない場合には、
すべての文字領域をキーワード抽出文字ブロックとして
文字認識し、キーワード抽出処理を行なう。
【0009】図3は、本発明によるファイリングの自動
キーワード抽出方法の他の実施例(請求項2)を説明す
るためのフローチャートである。以下、各ステップに従
って順に説明する。 step1:まず、文書画像に対して矩形抽出処理を行
う。 step2:抽出された矩形のサイズにより文字を構成
する矩形なのか、その他(写真、図、表)の矩形なのか
を判定する。 step3:矩形の種類を判定する。すなわち、図領域
であるか、表領域であるかを判定し、写真、図と表の領
域を区別する。 step4:前記step3において、表であった場合
には、表領域の上部に文字領域列があるかどうかを調べ
る。
【0010】step5:前記step4において、文
字領域列があれば、キーワード抽出文字列を表領域の上
部のある一定範囲内で参照し、最も近い文字列をキーワ
ード抽出文字列とする。当てはまる文字列がない場合に
は、その表領域のキーワード抽出文字列は存在しないと
判定する。 step6:前記step3において、写真、図の領域
の場合にはその領域の下部に文字領域列があるかどうか
調べる。 step7:前記step6において、文字領域列があ
れば、写真、図の領域では下部のある一定範囲内で参照
し、キーワード抽出文字領域として登録する。 step8:すべての文字以外の矩形終了を調べる。終
了でなければ前記step3に戻る。 step9:終了であれば、キーワード抽出処理を行う
【0011】次に第3の実施例について説明する。すな
わち、請求項1の実施例において、キーワード抽出を行
なう対象を表領域の上部にある最も近い文字領域にし、
写真、図の領域は対象を下部にある最も近い文字領域と
する。次に第4の実施例について説明する。すなわち、
請求項2において、キーワード抽出を行なう対象を表領
域の上部にある所定の範囲内で最も近い文字領域にし、
写真、図の領域は対象を下部にある所定の範囲内で最も
近い文字領域とする。
【0012】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。文書画像を入力しファイ
リングする場合に、図も説明文や表題を自動的に抽出し
、認識、キーワード抽出を行なうので、キーワードの付
加の作業を省力化でき、しかも高速に行なうことができ
る。
【図面の簡単な説明】
【図1】  本発明によるファイリングの自動キーワー
ド抽出方法の一実施例を説明するための構成図である。
【図2】  本発明によるファイリングの自動キーワー
ド抽出方法を説明するためのフローチャートである。
【図3】  本発明によるファイリングの自動キーワー
ド抽出方法を説明するための他のフローチャートである
【符号の説明】
1…制御部、2…領域識別部、3…図説明文字列判定部
、4…表題判定部、5…文字認識部、6…キーワード抽
出部、7…文書画像メモリ、8…領域情報メモリ、9…
キーワード抽出文字列メモリ、10…認識結果部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  文書画像を入力してファイリングする
    装置において、文字領域、写真領域、図領域、表領域な
    どの領域判定を行なう領域識別部と、前記表領域の上部
    にある表題の文字列を見つける表題判定部と、前記図領
    域、写真領域の下部にある説明文字列を見つける図説明
    文字列判定部と、該図説明文字列判定部により見つけら
    れた文字列を認識する文字認識部と、該文字認識部によ
    り認識した結果からキーワードを抽出するキーワード抽
    出部とからなるファイリングの自動キーワード抽出方法
  2. 【請求項2】  文書画像を入力してファイリングする
    装置において、文字領域、写真領域、図領域、表領域な
    どの領域判定を行なう領域識別部と、前記表領域の上部
    である範囲内にある表題の文字列を見つける表題判定部
    と、前記図領域、写真領域の下部である範囲内にある説
    明文字列を見つける図説明文字列判定部と、該図説明文
    字列判定部により見つけられた文字列を認識する文字認
    識部と、該文字認識部により認識した結果からキーワー
    ドを抽出するキーワード抽出部とからなるファイリング
    の自動キーワード抽出方法。
  3. 【請求項3】  文書画像を入力してファイリングする
    装置において、文字領域、写真領域、図領域、表領域な
    どの領域判定を行なう領域識別部と、前記表領域の上部
    にある表題の文字領域を見つける表題判定部と、前記図
    領域、写真領域の下部にある説明文字領域を見つける図
    説明文字領域判定部と、該図説明文字領域判定部により
    見つけられた文字領域を認識する文字認識部と、該文字
    認識部により認識した結果からキーワードを抽出するキ
    ーワード抽出部とからなるファイリングの自動キーワー
    ド抽出方法。
  4. 【請求項4】  文書画像を入力してファイリングする
    装置において、文字領域、写真領域、図領域、表領域な
    どの領域判定を行なう領域識別部と、前記表領域の上部
    である範囲内にある表題の文字領域を見つける表題判定
    部と、前記図領域、写真領域の下部である範囲内にある
    説明文字領域を見つける図説明文字領域判定部と、該図
    説明文字領域判定部により見つけられた文字領域を認識
    する文字認識部と、該文字認識部により認識した結果か
    らキーワードを抽出するキーワード抽出部とからなるフ
    ァイリングの自動キーワード抽出方法。
JP3076906A 1991-03-15 1991-03-15 ファイリングの自動キーワード抽出方法 Pending JPH04287168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3076906A JPH04287168A (ja) 1991-03-15 1991-03-15 ファイリングの自動キーワード抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3076906A JPH04287168A (ja) 1991-03-15 1991-03-15 ファイリングの自動キーワード抽出方法

Publications (1)

Publication Number Publication Date
JPH04287168A true JPH04287168A (ja) 1992-10-12

Family

ID=13618715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3076906A Pending JPH04287168A (ja) 1991-03-15 1991-03-15 ファイリングの自動キーワード抽出方法

Country Status (1)

Country Link
JP (1) JPH04287168A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07273922A (ja) * 1994-03-30 1995-10-20 Matsushita Electric Ind Co Ltd Fax情報転送装置
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JP2012212290A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07273922A (ja) * 1994-03-30 1995-10-20 Matsushita Electric Ind Co Ltd Fax情報転送装置
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JP2012212290A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法

Similar Documents

Publication Publication Date Title
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
JP3289968B2 (ja) 電子的文書処理のための装置および方法
US6353840B2 (en) User-defined search template for extracting information from documents
JP3694149B2 (ja) 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP2713622B2 (ja) 表形式文書読取装置
JP2890482B2 (ja) 文書画像再配置ファイリング装置
US20010043742A1 (en) Communication document detector
Saitoh et al. Document image segmentation and text area ordering
JPH04287168A (ja) ファイリングの自動キーワード抽出方法
JP3285686B2 (ja) 領域分割方法
JP2002342343A (ja) 文書管理システム
JPH08180068A (ja) 電子ファイリング装置
JPH0785080A (ja) 全文書検索システム
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JPH10198683A (ja) 文書画像分類方法
JPH08153110A (ja) 文書ファイリング装置及び方法
JPH0757040A (ja) Ocr付きファイリング装置
JPH09269970A (ja) 文字認識方法とその装置
JPH0259979A (ja) 文書画像処理装置
JP3197441B2 (ja) 文字認識装置
JP2006092226A (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JPH06274551A (ja) 画像ファイリング装置
JP3220226B2 (ja) 文字列方向判別方法