JP2000231560A - 文書自動分類方式 - Google Patents

文書自動分類方式

Info

Publication number
JP2000231560A
JP2000231560A JP11032494A JP3249499A JP2000231560A JP 2000231560 A JP2000231560 A JP 2000231560A JP 11032494 A JP11032494 A JP 11032494A JP 3249499 A JP3249499 A JP 3249499A JP 2000231560 A JP2000231560 A JP 2000231560A
Authority
JP
Japan
Prior art keywords
document
keyword
documents
directory
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11032494A
Other languages
English (en)
Inventor
Yasuhiro Ii
泰洋 伊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11032494A priority Critical patent/JP2000231560A/ja
Publication of JP2000231560A publication Critical patent/JP2000231560A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 電子化文書の登録や検索の際に利用可能なツ
リー構造の分類を自動的に作成する。 【解決手段】 電子化文書に付与されたキーワードの頻
度を自動計算すると共にキーワード間の関連付けを行
う。この頻度が大きいキーワードに上位ディレクトリ
(例:プリンタ)を付与し、このキーワードに関連する
即ち同一文書に出現するキーワードを下位ディレクトリ
として作成する(例:設計書、議事録、カメラなど)。
これによって関連性を有するキーワードのツリー構造が
得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書自動方式に関
し、より詳しくは、ツリー構造をもった文書自動分類方
式に関するもので、各種文書処理システム例えば文書フ
ァイリングシステム、光学読取装置を備えたいわゆる光
ファイルシステム、文書データベースなど広く応用が可
能である。
【0002】
【従来の技術】コンピュータ関連技術の急速な発展によ
り、文書は書類や冊子体ばかりでなくコンピュータで処
理可能な文書いわゆる電子化文書が広く利用されてい
る。例えば、ワードプロセッサ等で作成された文字コー
ドからなるドキュメント、スキャナ等によるイメージデ
ータをOCR(光学文字読取装置)等で文字コード化し
たドキュメント、商用データベースなどからダウンロー
ドされたテキスト形式ドキュメントなどである。
【0003】電子化文書はコンピュータでの処理が可能
なため、文書の管理例えば登録、検索、流通、保存、大
量文書の取扱などの各段階で従来の書類よりも利便性が
向上すると期待されている。しかし、実際の利用には多
くの課題が残っている。特に後日の検索の容易性・正確
性(即ち高い適合率および再現率)のために、文書の登
録には書誌的事項の他に分類やキーワードなど内容を表
現する索引を付与することが多い。
【0004】一方、文書内容の索引技術は、大量の電子
化文書を扱う商用データベースなどの大規模データベー
スの管理システムとして発達してきた。このような大規
模データベースでは、メモ程度のキーワード付与では後
の検索時に目的とする文書が呼び出せなくなる恐れが大
きいので、単なるキーワードではなく同義語をまとめて
一つの索引語としたり、上位概念と下位概念との関係に
あるキーワードは、ツリー構造にするなど統制語として
シソーラスにされるのが一般的である。この場合、シソ
ーラスの作成は人手によるしか方法がなかった。またそ
のシソーラスに基づく索引作業も人手に頼らざるをえな
かった。
【0005】上記課題の一部を解決するために、電子化
文書に自動でキーワードや分類を付与したものは多くが
知られている(例えば、特開平5−342272号公
報、特開平8−166965号公報など)。これらは、
所期の目的は達しているが、キーワードを自動的にツリ
ー構造に分類するものは開示していない。
【0006】
【発明が解決しようとする課題】本発明は、上記問題点
を解決しようとするもので、電子化文書からキーワード
を取得し、この取得したキーワードの関連性を付与する
と共に、関連するキーワード間で、ツリー構造を自動的
に作成することにより、電子化文書の登録や管理を容易
にすることを目的としてなされたものである。
【0007】
【課題を解決するための手段】請求項1の発明は、複数
の電子化文書に対して各文書毎のキーワードを抽出し、
各キーワードに対して該キーワードが抽出された文書の
数より該キーワードの出現頻度を求め、各キーワードに
対して該キーワードを含む文書の数から該キーワードに
対する文書間の関連度を求め、前記キーワードの出現頻
度と文書間の関連度とから、前記文書をツリー構造に自
動的に分類するようにしたものである。
【0008】請求項2の発明は、請求項1の発明におい
て、文書が複数のキーワードを有しかつキーワードが複
数のツリー構造のノードに該当するときは、該当するノ
ードに登録するようにしたものである。
【0009】
【発明の実施の形態】図1は、本発明をパーソナルコン
ピュータ等の文書処理機器に適用した例を説明するため
のフローチャートで、以下、順を追って説明する。
【0010】文書入力(S11) 入力される文書は、ワードプロセッサ等で作成された文
字コードからなるドキュメント、スキャナ等によるイメ
ージデータをOCR(光学文字読取装置)等で文字コー
ド化したドキュメント、商用データベースなどからダウ
ンロードされたテキスト形式ドキュメントなどでデータ
形式は問わない。要は、コンピュータで処理可能なデー
タ形式であればよい。
【0011】キーワード抽出(S12) キーワードを抽出する方法や手段は種々知られている。
例えば、索引付与者が文書を読解して人手で付与する方
法、キーワード辞書をテーブルとして作成しておきこれ
に合致するキーワードをコンピュータ等で自動的に付与
する方法、漢字、片仮名、アルファベット文字および特
殊文字を語幹として切出し、これらをキーワードとする
方法などがある。本発明では、キーワード抽出方法に特
に限定はなく、それぞれの文書のキーワードが利用可能
であればよい。
【0012】自動分類(S13) 前記ステップS12で抽出されたキーワードを取得し
て、ツリー構造のディレクトリを作成し、自動的に分類
を付与する。勿論、書誌的事項例えば著者名、所属機
関、所属部署、著者ID番号、作成年月日なども同時に
登録してもよい。この自動分類は、本発明の要点である
ので、詳細は図2以降において説明する。
【0013】文書検索(S15) 文書登録(S14)後、必要な文書を取り出すために検
索する。本発明によって作成したツリー構造のキーワー
ドを用いて、効率のよい検索を行う。検索システムには
特に限定はなく、各種のDBMS(データベース管理シ
ステム)やパーソナルコンピュータ用のデータベースソ
フトウェア、ファイル管理ソフトウェアなどが利用可能
である。要は、ツリー構造での検索が可能であれば良
い。
【0014】表示(S16) 前記文書検索ステップで選択された文書を、表示装置で
確認する。なお、この表示装置は必ずしも必要ではな
い。
【0015】印刷(S17) 前記文書検索ステップで選択された文書を、印刷装置で
印刷して出力する。出力は、印刷に限ることなく、転送
など任意に選ぶことができる。
【0016】図2は、キーワード頻度テーブルを作成ま
たは追加する例を説明するためのフローチャートであ
る。まず、登録対象の電子化文書の数をカウントする
(S21)。登録すべき文書の有無の確認(S22)が
済んだら、第1番目の文書に付与された第1番目のキー
ワードを取得し、表2に示したキーワード頻度テーブル
にあるかどうか確認する(S23)。なお、文書に付与
されたキーワードは、例えば、表1のようになってい
る。表1の例では8つの文書にそれぞれ数個のキーワー
ドが付与されている。この付与方法は上述のごとく自動
的に付与してもよいし、索引者が付与するようにしても
よい。
【0017】
【表1】
【0018】
【表2】
【0019】キーワード頻度テーブルに、キーワードが
登録されていなければ、新たにそのキーワードを登録し
(S24)、頻度を1とする(S25)。キーワード頻
度テーブルは、表2の様に頻度が大きい順に並べて、表
示し得るようにした方が良い。
【0020】キーワード頻度テーブルにキーワードが登
録されていれば、単に、該当するキーワードの頻度を1
だけカウントアップすればよい(S26)。
【0021】該当文書に次のキーワードがあるかどうか
確認し(S27)、次のキーワードがあればステップS
23へ進み、なければステップS22に進む。
【0022】ステップS22で次の文書がなければ、こ
の処理は終了する。なお、同一キーワードが同一文書に
複数個あった場合も、その個数を数えてその頻度をカウ
ントアップしてもよい。
【0023】図3は、キーワード関連テーブルをマトリ
ックスに作成する例を説明するためのフローチャートで
ある。キーワード関連マトリックスは例えば表3のよう
に作成する。前述のキーワード頻度テーブル(表2参
照)に、登録されたキーワードを軸として表4に示すよ
うな正方行列を作る。ただし、対角成分を境として対称
な成分は数値が同一になるのでこの表では利用しない。
また、対角成分も同一キーワード同志になるので用いな
い(S31)。
【0024】
【表3】
【0025】
【表4】
【0026】マトリックス(即ち行列)が作成された
ら、文書に付与された全てのキーワードを取得する(S
32)。
【0027】前記文書から取得したキーワード間の各組
合わせがマトリックスにあるかどうか確認する(S3
3)。
【0028】キーワード間の組合せでマトリックスの位
置(成分)に一致するものがあれが、表3のマトリック
スの該当する位置(成分)の数値を1増やす(S3
4)。
【0029】一致する組合わせのキーワードがなけれ
ば、次の文書のキーワードの組合せ一致を確認するため
にステップS35へ進む。
【0030】次の文書があるかどうか確認する(S3
3)。次の文書がなければ、この処理は終了する。つぎ
の文書があればステップS32へ戻る。
【0031】図4は、ディレクトリ作成の例を説明する
フローチャートである。前記キーワード頻度テーブル
(表2参照)で、最も頻度の高いキーワードを取得し
(S41)、取得カウントを1増やす(S42)。取得
カウントがしきい値に達したかどうかをチェックする
(S43)。しきい値は手動で設定しても良いし、前記
キーワード頻度テーブルなどを参照して自動計算して設
定するなどしても良い。しきい値に達した場合は、この
処理は終了する。
【0032】取得カウントがしきい値に達していない場
合は、ステップS44へ進み、前記ステップS41で取
得した最上位のキーワードのディレクトリを作成する。
これは上位ディレクトリとなる。ディレクトリ名は任意
に選ぶことができるが、簡単のためにはキーワードと同
じ名称にする(S44)。
【0033】上位ディレクトリの作成が終了したら、下
位に関連するディレクトリを作成する。下位ディレクト
リとなるキーワードは、前記キーワード関連テーブル
(表3)を参照して作成する。表3の例では、関連が1
以上のもの、即ち、「設計書」、「議事録」、「カメ
ラ」、「設計計画」、「販売計画」、「ライブラリ」、
「テスト」が下位ディレクトリとなる(S45)。
【0034】以上の処理を、取得カウントがしきい値に
達するまで上記処理を繰り返す。また、さらに下位のデ
ィレクトリを作る場合は、別のしきい値を設定して、上
記と同様に処理すればよい。
【0035】ディレクトリは、例えば、図5で示すツリ
ー構造となる。前述の表2の例ではプリンタというキー
ワードが最上位にあるので、「プリンタ」の名称で上位
ディレクトリを作成する(S41)。
【0036】「プリンタ」というキーワードの下位に
は、図5に示すキーワードが関連する。この関連は、表
3のキーワード関連テーブルから求めることができる。
第1行のキーワード「プリンタ」に対する関連度が、頻
度として記録されているので、頻度1以上が「関連度あ
り」となる。関連度がない文書即ち頻度が0(ゼロ)の
文書や、その他「関連度あり」と判定されなかった文書
のID番号を記録できるように「分類不能」というディ
レクトリを作っておく。
【0037】表4は、ディレクトリ番号が記された各デ
イレクトリ番号と上位ディレクトリ番号を示すものであ
る。「プリンタ」ディレクトリは、上位ディレクトリが
ないので、「0(ゼロ)」と表示され、「カメラ」ディ
レクトリの上位ディレクトリは「プリンタ」ディレクト
リであるから、そのディレクトリID「1」が記されて
いる。
【0038】図6は、各ディレクトリ即ちキーワードに
対応する文書のID番号を付けて、文書を分類したもの
を概念的に示したものである。図7は、図6に示した分
類処理の例を説明するためのフローチャートで、以下、
図7に示したフローチャートに基づいて説明する。
【0039】図7において、最初の文書からキーワード
を取得し(S71)、次の文書があれば次ステップ(S
73)に進み、なければこの処理は終了する。
【0040】取得した各キーワードの名称と各ディレク
トリの名称で、一致するものがあるかどうか比較する
(S74)。一致するものがあれば、文書とディレクト
リの関連を付ける。
【0041】関連付けの方法は、表5の例で説明する。
表5は、文書ID番号とディレクトリIDの関連を示す
文書管理テーブルである。文書とディレクトリの関連付
けは、上記文書管理テーブルにディレクトリIDを記録
することにより行うことができる。表5では文書ID番
号が0001,0002,0003,0005,0007,0008である文書が、デ
ィレクトリID1に記録されていることを示している。
【0042】
【表5】
【0043】ID番号0001の文書は、次のディレクトリ
IDとして3が記されているが、これはディレクトリI
D3の「議事録」ディレクトリにも文書ID番号0001が
記録されており、さらにディレクトリID5の「設計計
画」ディレクトリにも記録されていることを示してい
る。
【0044】ID番号0004の文書は、上位ディレクトリ
ID2「設計書」に記録され、その下位ディレクトリI
D4「カメラ」にも記録されていることを示している。
【0045】ID番号0006の文書には、上位ディレクト
リID1または2に記録がないので、文書管理テーブル
には0(ゼロ)と記録されている。下位ディレクトリに
も該当がないのでその記録は0「ゼロ」となっている。
【0046】この処理をディレクトリの数の分繰り返し
たら(S76)、次の文書のキーワードを取得する(S
71)。比較・関連付け処理が全ては終了していない場
合は、ディレクトリとキーワードの比較・関連付けの処
理を繰り返す(S73−S76)。
【0047】この関連付け処理を全ての文書について行
うと、図6に示したような関係となる。図6中文書番号
0006が分類不能のディレクトリに記録されているが、こ
れはこの文書には「プリンタ」というキーワードが付与
されていないためである。
【0048】
【発明の効果】上述のように、本発明では、文書とディ
レクトリの関連付けがツリー構造で行われ、検索時に
は、上記ディレクトリのツリー構造により関連する文書
が呼び出せるので、ヒット率が向上する。
【0049】本発明は、ワードプロセッサ等で作成され
た文字コードからなるドキュメント、スキャナ等による
イメージデータをOCR(光学文字読取装置)等で文字
コード化したドキュメント、商用データベースなどから
ダウンロードされたテキスト形式ドキュメントの管理に
好適で、ドキュメントの登録、検索に便利である。
【0050】人手によることなく自動的にツリー構造の
索引が作成されるので、文書登録時の索引作業が不要に
なる。
【図面の簡単な説明】
【図1】 本発明をパーソナルコンピュータ等の文書処
理機器に適用した例を説明するフローチャートである。
【図2】 キーワード頻度テーブルを作成または追加す
る例を説明するフローチャートである。
【図3】 キーワード関連テーブルをマトリックスに作
成する例を説明するフローチャートである。
【図4】 ディレクトリ作成の例を説明するフローチャ
ートである。
【図5】 ディレクトリ構造の例を説明する図である。
【図6】 ディレクトリ構造へ文書を分類した例を説明
する図である。
【図7】 ディレクトリへの文書分類処理を説明する図
である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の電子化文書に対して各文書毎のキ
    ーワードを抽出し、 各キーワードに対して該キーワードが抽出された文書の
    数より該キーワードの出現頻度を求め、 各キーワードに対して該キーワードを含む文書の数から
    該キーワードに対する文書間の関連度を求め、 前記キーワードの出現頻度と文書間の関連度とから、前
    記文書をツリー構造に分類することを特徴とする文書自
    動分類方式。
  2. 【請求項2】 請求項1に記載された文書自動分類方式
    において、文書が複数のキーワードを有しかつキーワー
    ドが複数のツリー構造のノードに該当するときは、該当
    するノードに登録するようにしたことを特徴とする文書
    自動分類方式。
JP11032494A 1999-02-10 1999-02-10 文書自動分類方式 Pending JP2000231560A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11032494A JP2000231560A (ja) 1999-02-10 1999-02-10 文書自動分類方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11032494A JP2000231560A (ja) 1999-02-10 1999-02-10 文書自動分類方式

Publications (1)

Publication Number Publication Date
JP2000231560A true JP2000231560A (ja) 2000-08-22

Family

ID=12360559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11032494A Pending JP2000231560A (ja) 1999-02-10 1999-02-10 文書自動分類方式

Country Status (1)

Country Link
JP (1) JP2000231560A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202905A (ja) * 2000-10-27 2002-07-19 Canon Inc データ蓄積方法及び装置、並びに記憶媒体
JP2012093927A (ja) * 2010-10-27 2012-05-17 Hitachi Solutions Ltd ファイル管理装置及びファイル管理方法
JP2013101511A (ja) * 2011-11-08 2013-05-23 Fujitsu Ltd 化合物分類装置、化合物分類プログラムおよび化合物分類方法
KR102052315B1 (ko) * 2018-05-28 2019-12-04 주식회사 에이브레인 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템
CN110955784A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 电子文书处理方法及装置
US20210026874A1 (en) * 2018-07-24 2021-01-28 Ntt Docomo, Inc. Document classification device and trained model
CN112861490A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对***及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202905A (ja) * 2000-10-27 2002-07-19 Canon Inc データ蓄積方法及び装置、並びに記憶媒体
JP2012093927A (ja) * 2010-10-27 2012-05-17 Hitachi Solutions Ltd ファイル管理装置及びファイル管理方法
JP2013101511A (ja) * 2011-11-08 2013-05-23 Fujitsu Ltd 化合物分類装置、化合物分類プログラムおよび化合物分類方法
KR102052315B1 (ko) * 2018-05-28 2019-12-04 주식회사 에이브레인 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템
US20210026874A1 (en) * 2018-07-24 2021-01-28 Ntt Docomo, Inc. Document classification device and trained model
CN110955784A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 电子文书处理方法及装置
CN110955784B (zh) * 2018-09-26 2023-04-07 北京国双科技有限公司 电子文书处理方法及装置
CN112861490A (zh) * 2021-03-12 2021-05-28 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对***及方法
CN112861490B (zh) * 2021-03-12 2024-02-20 国网浙江省电力有限公司物资分公司 基于openpyxl的工程量清单目录比对***及方法

Similar Documents

Publication Publication Date Title
US8315997B1 (en) Automatic identification of document versions
US9208185B2 (en) Indexing and search query processing
US8156123B2 (en) Method and apparatus for processing metadata
JP4162711B2 (ja) Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
CN1728142B (zh) 信息检索***中的短语识别方法和设备
US20040024778A1 (en) System for indexing textual and non-textual files
US20080263033A1 (en) Indexing and searching product identifiers
US20050160115A1 (en) Document imaging and indexing system
US6061478A (en) Content-based filing and retrieval system for name cards and hankos
JP2000231560A (ja) 文書自動分類方式
US7246107B2 (en) System and method for creating a data file for use in searching a database
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2002183195A (ja) 概念検索方式
JPH11184924A (ja) スケジューリング装置
Downton et al. Computerising natural history card archives
KR20020006223A (ko) 자동 색인 로봇 시스템 및 이를 이용한 처리 방법
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JP3998201B2 (ja) 文書検索方法
JPH08249341A (ja) 文書データベースの文書格納・検索装置
KR20010056171A (ko) 정보 검색시스템에서의 정보 검색을 위한 부분검색 장치및 그 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080402

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120402

Year of fee payment: 13

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees