JPH10198683A - 文書画像分類方法 - Google Patents

文書画像分類方法

Info

Publication number
JPH10198683A
JPH10198683A JP9000738A JP73897A JPH10198683A JP H10198683 A JPH10198683 A JP H10198683A JP 9000738 A JP9000738 A JP 9000738A JP 73897 A JP73897 A JP 73897A JP H10198683 A JPH10198683 A JP H10198683A
Authority
JP
Japan
Prior art keywords
category
document
document image
character
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9000738A
Other languages
English (en)
Inventor
Shiori Ooaku
志緒理 大阿久
Takashi Saito
高志 齋藤
Tei Abe
悌 阿部
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9000738A priority Critical patent/JPH10198683A/ja
Publication of JPH10198683A publication Critical patent/JPH10198683A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 小規模なシステム構成で高速に画像分類・検
索を行なうために、文字認識結果の文字種情報を基に、
帳票・電話帳・日本語一般文書・その他の言語の文書な
どを識別し、文書画像を自動分類する。 【解決手段】 カテゴリインデクス作成部6は、カテゴ
リを代表する文書画像の文字種別頻度データを作成して
カテゴリインデクス5に格納する。入力文書画像が文字
認識され、文字種測定部3では、認識結果から文字種毎
の頻度を測定する。カテゴリ決定部4は、測定された頻
度データとカテゴリインデクス5の頻度データとの類似
度を求め、最も類似度の高い代表画像が属するカテゴリ
を、入力文書画像のカテゴリと決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識結果の文
字種情報を基に文書を識別し、文書画像を自動的に分類
する文書画像分類方法に関する。
【0002】
【従来の技術】従来、文書画像の分類・検索において
は、ユーザーがキーワードを付与し、あらかじめインデ
クスを作成し、キーワードとインデクスの内容の照合に
より分類・検索する方法が採られてきた。
【0003】また、他の方法としては、インデクスとの
照合ではなく、文書画像を文字認識によりテキスト化し
て格納しておき、その内容とキーワードを照合し、画像
を検索するなどの方法も提案されている(例えば、特開
平8−7033号公報を参照)。
【0004】
【発明が解決しようとする課題】しかし、上記した方法
は何れもユーザーがキーワードをその都度指定しなけれ
ばならず、繁雑な作業が要求される。また、キーワード
の内容や指定の仕方によっては、所望の画像が得られな
いこともあり、ユーザーに多大な負担を与えてしまう。
【0005】そこで、文書画像を分類・検索する際に、
文字認識を行って文書中のキーワードを自動抽出し、分
類する手法が提案されている。例えば、特開平7−11
4572号公報に記載された技術では、文書から自動的
に単語の特徴ベクトルを抽出し、その特徴ベクトルを基
に文書を分類することにより、意味的な異なりを用いた
自動分類を実現している。
【0006】しかし、このような方法は、キーワードの
相関関係を記述する手段が複雑になるとともに、シソー
ラスのような大規模な言語データベースなども必要とな
り、システム構成が大規模なものとなってしまう。
【0007】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、小規模なシステム構成で高速
に画像分類・検索を行なうために、文字認識結果の文字
種情報を基に、帳票・電話帳・日本語一般文書・その他
の言語の文書などを識別し、文書画像を自動分類する文
書画像分類方法を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、複数の文書画像を所定の
カテゴリに分類する文書画像分類方法であって、入力さ
れた文書画像に対して文字認識処理を行い、認識処理さ
れた文字種の特徴を基に前記入力文書画像を所定のカテ
ゴリに分類することを特徴としている。
【0009】請求項2記載の発明では、複数の文書画像
を所定のカテゴリに分類する文書画像分類方法であっ
て、入力された文書画像に対して文字認識処理を行い、
認識処理された文字種の特徴および総文字数を基に所定
の文書画像との類似度を測定し、前記入力文書画像を、
最も類似度の高い文書画像と同一のカテゴリに分類する
ことを特徴としている。
【0010】請求項3記載の発明では、複数の入力文書
画像を所定のカテゴリに分類する文書画像分類方法であ
って、予め用意された画像に対して文字認識処理を行
い、認識処理された文字種の特徴および総文字数を測定
し、前記画像を所定のカテゴリに分類し、該分類された
各カテゴリの特徴を最も示す代表画像を選択し、入力さ
れた文書画像のカテゴリを決定する際に、文字認識処理
を行い、認識処理された文字種の特徴および総文字数を
測定し、前記代表画像との類似度を測定し、最も類似度
の高い代表画像が所属するカテゴリに決定することを特
徴としている。
【0011】請求項4記載の発明では、前記何れの代表
画像とも類似しないとき、すべての原稿の文字種データ
を用いて前記カテゴリを再設定することを特徴としてい
る。
【0012】請求項5記載の発明では、前記文字種の特
徴として、数字または英字の頻度を用いることを特徴と
している。
【0013】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、1は画像入力部、2は文字認識
処理部、3は認識結果を文字種毎に測定する文字種測定
部、4は入力文書画像とカテゴリインデクス内の代表画
像との類似度を基にカテゴリを決定する文書画像カテゴ
リ決定部、5はカテゴリを代表する文書画像の文字種別
頻度データを格納したカテゴリインデクス、6はカテゴ
リインデクス作成部、7は全ての原稿の文字種別頻度デ
ータを格納した頻度データ格納部、8は画像カテゴリ格
納部、9、10、11は各カテゴリに分類された画像デ
ータである。
【0014】図2は、本発明の処理フローチャートであ
る。スキャナなどの画像入力部1から、文書などのイメ
ージデータを読み込み(ステップ101)、文字認識処
理部2では、読み込まれたデータについて文字認識処理
を行い(ステップ102)、その認識結果を文字種測定
部3に入力する。
【0015】文字種測定部3は、上記した文字認識結果
を、英字/数字/記号などの文字種ごとに頻度を測定す
る(ステップ103)。ここで、測定対象文字として
は、認識結果の全ての文字を対象としてもよいし、認識
結果の内、信頼度の高い文字のみを対象としてもよい。
また、文字種測定部3では総文字数も測定する。
【0016】文書画像カテゴリ決定部4は、測定した頻
度データを基に、カテゴリインデクス5内の既存カテゴ
リのどれに分類可能かを決定する。ここで、カテゴリイ
ンデクス5には、各カテゴリの特徴を表すのに最も適し
た文書画像(代表画像)を1つ選択し、その代表画像の
文字種別頻度データが格納されている。図3は、カテゴ
リインデクスの一例を示す。このカテゴリインデクス
は、カテゴリインデクス作成部6によって、予め既定の
画像が用意されているとき、もしくはカテゴリを再設定
した際に自動的に作成される。この代表画像を求める方
法としては種々の方法があるが、例えば、文書画像をあ
る特徴空間にマッピングした際にグループ(カテゴリ)
の中心に位置するものを代表画像として用いる。
【0017】文書画像カテゴリ決定部4は、入力文書画
像の文字頻度データと、カテゴリインデクス5に格納さ
れている文字頻度データを対象として、文書画像の類似
度を求める(ステップ104)。類似度の測定方法とし
ては公知の手法を用いればよいが、主成分分析もしくは
数量化理論第IV類などを用いるのが望ましい。最終的
に、文書画像を座標上の空間にマッピングして距離の近
いものどうしを同一カテゴリと定める。図4は、画像分
類のマッピング例を示し、画像番号(032)がカテゴ
リAに分類され、画像番号(023)がカテゴリBに分
類されている。これによって入力画像は、最も距離の近
い文書画像と同一のカテゴリに分類される(ステップ1
05、106)。
【0018】また、何れのカテゴリとも距離が遠い場合
(距離が所定の閾値Th以上)もある(ステップ105
でNo)。その場合は、文書画像カテゴリ決定部4はカ
テゴリインデクス作成部6に対してカテゴリの再設定を
指示する。カテゴリインデクス作成部6は、頻度データ
格納部7に格納されている全原稿の頻度データを対象と
して、文書画像間の類似度を求め、文書画像を再度分類
する。さらに、各カテゴリの代表画像を再設定し、カテ
ゴリインデクス5を再作成する(ステップ107)。図
4の例では、例えばカテゴリAがカテゴリA1とカテゴ
リA2に再設定される。
【0019】ステップ107からステップ104に進
み、文書画像カテゴリ決定部4は、再設定されたカテゴ
リインデクス5を参照して前述したと同様に類似度を求
め(ステップ104)、入力文書画像のカテゴリを決定
する。
【0020】上記した文字種として、例えば数字または
英字の頻度を用いると、文書画像群などの分類により効
果的である。すなわち、例えば、数字の比率が高くかつ
文字の量が多い文書画像を電話帳と分類し、数字の比率
が高くかつ文字の量が少ない文書画像を帳票と分類し、
さらに、英字の比率が高くかつ文字の量が多い文書画像
を英文書と分類する。
【0021】なお、本発明は上記したものに限定され
ず、ソフトウェアによっても実現することができる。本
発明をソフトウェアによって実現する場合には、図5に
示すように、CPU、ROM、RAM、表示装置、ハー
ドディスク、キーボード、CD−ROMドライブなどか
らなる汎用の処理装置を用意し、CD−ROMなどのコ
ンピュータ記憶媒体には、本発明の文書画像分類機能を
実現するプログラムが記録されている。
【0022】
【発明の効果】以上、説明したように、請求項1記載の
発明によれば、文書画像を分類する場合に文字種情報を
用いているので、単語辞書を使用するキーワード検索な
どに比ベて比較的簡単に該情報を得ることができ、高速
に文書画像を分類することができる。また、文字認識処
理は認識結果が必ずしも正確であるとは言えないが、本
発明では文字自体の頻度ではなく文字種を測定している
ので、多少の誤りがあっても精度に及ぼす影響が少な
く、精度を落すことなく、文書画像を自動的に分類する
ことができる。
【0023】請求項2記載の発明によれば、文字種の特
徴が類似している文書をカテゴリとすることで、文字種
の特徴をもつ文書画像群を、高速に分類することができ
る。
【0024】請求項3記載の発明によれば、カテゴリの
代表画像を選択しているので、すべての文書について類
似度を測定する必要がなくなり、より高速に文書画像を
分類することができる。
【0025】請求項4記載の発明によれば、代表画像と
適合しなかった場合にのみ、カテゴリを再設定している
ので、より高速に分類することができるとともに、代表
画像のみによる分類精度の低下も抑えることができる。
【0026】請求項5記載の発明によれば、文字種の特
徴として、数字または英字の頻度を用いているので、文
書画像群を効率的に分類することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の実施例の処理フローチャートを示す。
【図3】カテゴリインデクスの一例を示す。
【図4】画像分類のマッピング例を示す。
【図5】本発明をソフトウェアによって実現する場合の
構成例を示す。
【符号の説明】
1 画像入力部 2 文字認識処理部 3 文字種測定部 4 文書画像カテゴリ決定部 5 カテゴリインデクス 6 カテゴリインデクス作成部 7 頻度データ格納部 8 画像カテゴリ格納部 9、10、11 各カテゴリに分類された画像データ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 幸地 司 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書画像を所定のカテゴリに分類
    する文書画像分類方法であって、入力された文書画像に
    対して文字認識処理を行い、認識処理された文字種の特
    徴を基に前記入力文書画像を所定のカテゴリに分類する
    ことを特徴とする文書画像分類方法。
  2. 【請求項2】 複数の文書画像を所定のカテゴリに分類
    する文書画像分類方法であって、入力された文書画像に
    対して文字認識処理を行い、認識処理された文字種の特
    徴および総文字数を基に所定の文書画像との類似度を測
    定し、前記入力文書画像を、最も類似度の高い文書画像
    と同一のカテゴリに分類することを特徴とする文書画像
    分類方法。
  3. 【請求項3】 複数の入力文書画像を所定のカテゴリに
    分類する文書画像分類方法であって、予め用意された画
    像に対して文字認識処理を行い、認識処理された文字種
    の特徴および総文字数を測定し、前記画像を所定のカテ
    ゴリに分類し、該分類された各カテゴリの特徴を最も示
    す代表画像を選択し、入力された文書画像のカテゴリを
    決定する際に、文字認識処理を行い、認識処理された文
    字種の特徴および総文字数を測定し、前記代表画像との
    類似度を測定し、最も類似度の高い代表画像が所属する
    カテゴリに決定することを特徴とする文書画像分類方
    法。
  4. 【請求項4】 前記何れの代表画像とも類似しないと
    き、すべての原稿の文字種データを用いて前記カテゴリ
    を再設定することを特徴とする請求項3記載の文書画像
    分類方法。
  5. 【請求項5】 前記文字種の特徴として、数字または英
    字の頻度を用いることを特徴とする請求項1、2、3ま
    たは4記載の文書画像分類方法。
JP9000738A 1997-01-07 1997-01-07 文書画像分類方法 Pending JPH10198683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9000738A JPH10198683A (ja) 1997-01-07 1997-01-07 文書画像分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9000738A JPH10198683A (ja) 1997-01-07 1997-01-07 文書画像分類方法

Publications (1)

Publication Number Publication Date
JPH10198683A true JPH10198683A (ja) 1998-07-31

Family

ID=11482069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9000738A Pending JPH10198683A (ja) 1997-01-07 1997-01-07 文書画像分類方法

Country Status (1)

Country Link
JP (1) JPH10198683A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6907141B1 (en) 2000-03-14 2005-06-14 Fuji Xerox Co., Ltd. Image data sorting device and image data sorting method
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
JP2009134735A (ja) * 1999-01-27 2009-06-18 Ricoh Co Ltd 画像分類装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2020261634A1 (ja) * 2019-06-25 2020-12-30 三菱電機株式会社 境線検出装置及び水位計測装置
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009134735A (ja) * 1999-01-27 2009-06-18 Ricoh Co Ltd 画像分類装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6907141B1 (en) 2000-03-14 2005-06-14 Fuji Xerox Co., Ltd. Image data sorting device and image data sorting method
JP2008009729A (ja) * 2006-06-29 2008-01-17 Kddi Corp コンテンツ配信方法および装置
WO2020261634A1 (ja) * 2019-06-25 2020-12-30 三菱電機株式会社 境線検出装置及び水位計測装置
JP2021005158A (ja) * 2019-06-25 2021-01-14 三菱電機株式会社 境線検出装置及び水位計測装置
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
US8005300B2 (en) Image search system, image search method, and storage medium
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
US5465353A (en) Image matching and retrieval by multi-access redundant hashing
US7756871B2 (en) Article extraction
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
US7213205B1 (en) Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JPH07114572A (ja) 文書分類装置
US8510312B1 (en) Automatic metadata identification
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2002537604A (ja) ドキュメントの類似性探索
US20090276411A1 (en) Issue trend analysis system
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US8065321B2 (en) Apparatus and method of searching document data
US20010043742A1 (en) Communication document detector
JPH10198683A (ja) 文書画像分類方法
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
Marinai A survey of document image retrieval in digital libraries