JPH07121552A - 文書群分析装置 - Google Patents

文書群分析装置

Info

Publication number
JPH07121552A
JPH07121552A JP5291274A JP29127493A JPH07121552A JP H07121552 A JPH07121552 A JP H07121552A JP 5291274 A JP5291274 A JP 5291274A JP 29127493 A JP29127493 A JP 29127493A JP H07121552 A JPH07121552 A JP H07121552A
Authority
JP
Japan
Prior art keywords
category
display
document
search
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5291274A
Other languages
English (en)
Other versions
JP3367174B2 (ja
Inventor
Shintaro Kojo
慎太郎 古城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP29127493A priority Critical patent/JP3367174B2/ja
Publication of JPH07121552A publication Critical patent/JPH07121552A/ja
Application granted granted Critical
Publication of JP3367174B2 publication Critical patent/JP3367174B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索のためのカテゴリーの有効な活用を図
り、かつ、即時的な分類が得られ、ある語が別のカテゴ
リーに移るといった操作にも耐える柔軟なシステム構築
をする。 【構成】 入力手段によりユーザが分析しようとする文
書群に関係ありそうな複数のカテゴリーの語の組合せを
入力すると、用語展開手段は展開情報記憶手段に記憶さ
れたカテゴリーの定義に従って、検索用のキーとなる語
を得る。検索手段は用語展開手段によって得られた検索
用のキーとなる語により、対象記憶手段に記憶された文
書を検索する。その検索によって得られた文書群は入力
手段によって入力された複数のカテゴリー(例えば、
「製品」「競合」「地域」)の範囲のすべてが網羅され
ている。集計手段は、前記検索された文書群を前記入力
された複数のカテゴリーのそれぞれの要素(「製品」カ
テゴリーに属する「複写機」「ファクシミリ」…など)
間の論理演算によって定まる組み合わせのカテゴリー群
に分類、集計する。表示手段は集計結果を指定の表示形
式で一覧表示する。

Description

【発明の詳細な説明】
【0001】
【産業上利用分野】本発明は、文書を保管管理するデー
タベースから文書群を検索し、その分析を行う文書群分
析装置に関する。
【0002】
【従来の技術】文書を自動分類する方法として、特定の
文字列を含んでいるかどうかで判断する、という方法が
あった。それに加え、複数の文字列を総称する「カテゴ
リー」を定義して、厳密な文字列照合では取りこぼして
しまう、表記のゆれや類似語に対応する方法も提案され
ている(特開平2−105973号公報)。しかし、い
ずれにしても文字列あるいはカテゴリーの扱いは固定的
である。この方法は、予め想定される分類項目に、無理
にでも仕分るための方式を取っている。こうしたやり方
は、(1)単語の頻度が今後も変化しない、(2)新た
に設けるべき分類項目はない、といった仮定に基づいて
おり、これは現実と一致しない。例え、しばらくの間
は、ある程度有効に動作していたとしても、いずれはシ
ステムの改編は免れないようになるだろう。つまり、予
め想定した分類のためにカテゴリーを利用するにとどま
っており、新しい分類項目が現れることを見逃してい
る。分類すべき文書群の性質が一定であるときは、それ
なりに有用であるかもしれないが、文書の性質は一般的
には変わりうるものであるから、分類方式も時々変化す
べき性質をもつべきである。
【0003】
【発明が解決しようとする課題】前述のように従来の技
術では固定的な分類がなされ、動的な分類ができない。
例えば、従来の技術を利用して「コンピュータ」関連の
文書と「医療」関連の文書を別々の場所に分けて置いて
おくと、医療分野にコンピュータメーカーがこぞって参
入しはじめた、といった状況に対応することができな
い。つまり、従来のやりかたでは、どちらかに入れられ
てしまうからである。こういうときには、「コンピュー
タかつ医療」についての文書を他からより分けて見たい
はずである。前もって分類項目を想定するのは、変化の
激しい状況においては、得策ではない。また、分類より
先にカテゴリーの方が来るべきであり、分類はカテゴリ
ーを適当に組み合せることで得られるべきである。分類
のためにカテゴリーを定義するのでは本末顛倒である。
本発明は、このような従来の技術の問題点を解消し、文
書群分析装置において、検索のためのカテゴリーの有効
な活用を図り、かつ、即時的な分類が得られ、ある語が
別のカテゴリーに移るといった操作にも耐える柔軟なシ
ステム構築をすることを目的とする。また、最新の情報
に対応したカテゴリーの定義の変更を容易に行うことが
できるようにすることを目的とする。
【0004】
【課題を解決するための手段】本発明の文書群分析装置
は、分析対象の複数の文書を記憶する対象記憶手段(図
1の15)と、検索用の複数のカテゴリーの語を組み合
わせて入力する入力手段(図1の11)と、カテゴリー
が定義され、カテゴリーの語を展開するために用いる展
開情報記憶手段(図1の12)と、前記入力されたカテ
ゴリーの語を、展開情報記憶手段を参照して、そのカテ
ゴリーに属する検索用のキー語に展開情報記憶手段を参
照して展開する用語展開手段(図1の13)と、展開さ
れたすべての検索用のキー語により前記対象記憶手段の
文書を検索する検索手段(図1の14)と、検索された
文書群を、前記入力されたカテゴリー間の指定された論
理演算によって定まる新たなカテゴリー群に分類、集計
する集計手段(図1の16)と、集計結果を指定の表示
形式により表示する表示手段(図1の17)とを備えた
ことを特徴とする。また、上記構成において、前記展開
情報記憶手段のカテゴリーの定義を編集するための編集
手段(図1の18)を設けることができる。
【0005】
【作用】入力手段によりユーザが分析しようとする文書
群に関係ありそうな複数のカテゴリーの語の組合せを入
力すると、用語展開手段は展開情報記憶手段に記憶され
たカテゴリーの定義に従って、検索用のキーとなる語を
得る。検索手段は用語展開手段によって得られた検索用
のキーとなる語により、対象記憶手段に記憶された文書
を検索する。その検索によって得られた文書群は入力手
段によって入力された複数のカテゴリー(例えば、「製
品」「競合」「地域」)の範囲のすべてが網羅されてい
る。集計手段は、前記検索された文書群を前記入力され
た複数のカテゴリーのそれぞれの要素(「製品」カテゴ
リーに属する「複写機」「ファクシミリ」「ワークステ
ーション」、「競合」カテゴリーに属する「P社」「Q
社」、「第二四半期」カテゴリーに属する「4月」「5
月」「6月」など)間の論理演算によって定まる組み合
わせのカテゴリー群に分類、集計する。表示手段は集計
結果を指定の表示形式(図13)で一覧表示する。本発
明によれば、入力した複数のカテゴリーを定義によって
展開し、定義された範囲の文書をすべて索出し、定義さ
れたカテゴリー要素間の論理演算によって得られるカテ
ゴリーの新たな組み合わせ対して分類集計するので、即
時的な分類が得られ、動的な分類ができる。また、細か
な分類もできる。従って、ある語が別のカテゴリーに移
るといった操作にも耐える柔軟なシステム構築をするこ
とができる。それを表示する際には、複数のキー語の分
布状態を一回のユーザ入力で調べることができる。それ
によって文書群全体からの傾向を見て取ることや、文書
群どうしの関連などが具体的にわかる。また、展開情報
記憶手段のカテゴリーの定義を編集するための編集手段
を設けた場合には、カテゴリーの定義を随時変更するこ
とができるので、最新の情報に対応したカテゴリーの定
義の変更を容易に行うことができる。
【0006】
【実施例】図1は本発明の実施例による文書群分析装置
の構成を示す図である。この文書群分析装置は、図1に
示すように、文書群分析用コマンドを含む操作指示情報
や表示用のデータ形式等を入力するための入力部11
と、文書群分析用コマンドで指定する検索の用語(カテ
ゴリー)をそれに関連するカテゴリ要素や類義語などの
検索に用いる用語群と対応させた情報を格納する用語展
開用データベース12と、文書群分析用コマンドから用
語展開用データベース12を用いて、適切な検索コマン
ドに変換する検索条件作成部13と、インデックスを有
し、文書を検索可能に保管した検索対象データベース1
5と、検索条件作成部13から与えられた検索コマンド
により検索対象データベース14をインデックス等を用
いて検索し、検索結果を集計部16に渡す問合せエンジ
ン14と、検索結果に対して集計を行う集計部16と、
集計の結果を入力部11から指示された表示形式に従っ
て表示を行う表示部17と、用語展開用データの編集を
行う用語展開用データ編集部18を備えている。
【0007】次に、以上のように構成された本実施例の
文書群分析装置の動作(処理)について説明する。図2
は本文書群分析装置による文書群の分析の処理の概要を
示すフローチャートである。入力部11においては、使
用するカテゴリーの指定を行う(ステップS21)。ま
た、表示方法の指定を行う(ステップS22)。検索条
件作成部13は入力部11から指定されたカテゴリーを
用語展開用データベース12を用いて下位の階層のカテ
ゴリー要素およびその類義語の集合へと展開する(ステ
ップS23)。問合せエンジン15は、検索条件作成部
13で得られたそれぞれの類義語を用いて検索対象デー
タベース14を全文検索により検索する(ステップS2
4)。集計部16は検索結果をカテゴリー別に集計する
(ステップS25)。表示部17は入力部11の指定す
る表示形式に従って表示を行う(ステップS26)。ユ
ーザはその表示を見て望ましい表示か否かを判断し、望
ましい表示が得られていないときには、入力部11によ
り表示方法の指定を変える。そして、ステップS23〜
26の処理が再び実行されて、新しい表示方法により表
示する。このような操作を繰り返して望ましい表示が得
られたら、ステップS28に進む。ステップS28では
さらに再分類を試みるか否かをユーザが判断する(ステ
ップS28)。望ましい結果(つまり文書群から、その
とき求められている端的な結論といったもの)が得られ
るまで、ステップS22〜ステップS28の処理を繰り
返す。このように試行錯誤をしながら、文書群を捜しま
わって文書群の分析を行う。各部の処理の詳細を以下に
説明する。
【0008】(入力部11)入力部11はカテゴリーの
組み合わせを指示することができるのならどのような方
式で入力するように構成してもよい。また、この入力部
11はどのように表示をするのかを同時に指定する。図
3の例は、X軸にカテゴリー「製品」と「競合」の組合
わせ、Y軸に「第二四半期」を置いて、全文書を分析す
る指定を行った例を示すものである。例えば、「製品」
以下の階層の「複写機」、「ファクシミリ」・・・のよ
うな「製品」の要素カテゴリーについては入力する必要
はない。その結果がどのように示されるかは表示部17
の説明において後述する。図3の例での入力データのデ
ータ構造は図4に示すような分析軸とその軸でのカテゴ
リーを対応させたものである。
【0009】(用語展開用データベース12)用語展開
用データベース12において、カテゴリーを下位の階層
あるいは末端のカテゴリー要素や類義語に展開するため
の構造はどのような構造であってもよい。一般的には図
5に示すように階層構造で表す。この場合、ルートカテ
ゴリー51をルートとしてその下の階層にサブカテゴリ
ー52がいくつかあって、末端カテゴリー53で終わっ
ている。末端カテゴリー53にいくつかの類義語54が
対応している。図6は用語展開用データ編集部18によ
り用語展開用データベース12を編集している表示画面
の例を示すものである。この画面例においては、左側に
カテゴリーが階層構造で表示され、右側に左側のハイラ
イトされた末端カテゴリーに対応する類義語が表示され
ている。図6の左側に表示されたカテゴリーの例におい
て、「競合」がルートカテゴリーであり、「製品」「地
域」…等はサブカテゴリーであり、「複写機」「ファク
シミリ」…等は末端カテゴリーである。右側の類義語に
は末端カテゴリーのハイライトされた「パーソナルコン
ピュータ」に対応する類義語が表示されている。これら
はこの表示された編集画面上において任意に編集するこ
とが可能であり、その編集の結果は直ちに用語展開用デ
ータに反映される。
【0010】(検索条件作成部13)入力条件作成部1
3は、入力部11で指定されたカテゴリーの組合せにつ
いて適合するものを求める検索条件を検索エンジンに提
示する。用語展開用データベース12の内容に従って、
カテゴリーを実際に検索する語のレベルまで展開する。
類義語が定義されている場合は、すべての類義語で検索
するので、問合せ回数がそのぶん増えることになる。こ
の作業は、結局、図7に示すようなカテゴリー要素と類
義語の対応表をつくることである。図8によりカテゴリ
ーの展開の処理を説明する。検索条件作成部13は入力
部11から入力されたカテゴリーが用語展開用データベ
ース12に登録されている語であるか否かを調べる(ス
テップS81)。登録されていなかったときは入力され
たカテゴリーの語をそのまま出力する(ステップS8
2)。入力されたカテゴリーが用語展開用データベース
12に登録されていたときには、そのカテゴリーに属す
る語をカテゴリー要素として出力する(ステップS8
3)。さらに、そのカテゴリー要素がサブカテゴリーを
持っているかを調べる(ステップS84)。その結果、
サブカテゴリーをもっていた場合には、そのサブカテゴ
リーを対象として(ステップS88)、ステップS83
の処理を繰り返す。そしてサブカテゴリーを持っていな
いカテゴリー要素に達したならば、それに対応する類義
語を出力する(ステップS85)。そして次のカテゴリ
ーを対象として、ステップS83からの処理を繰り返し
て、カテゴリー要素や類義語を出力して行く。次のカテ
ゴリーがなくなったときカテゴリーの展開を終了する。
【0011】(問合せエンジン14)問合せエンジン1
4は検索対象データベース15に全文検索を実施して返
答をする。これは、検索対象データベース15の形式に
応じたモジュールである。検索条件作成部13で得られ
たすべてのカテゴリー要素と類義語をそれぞれ検索語と
して検索し、その検索語を含む文書のID(ファイル
名、物理的アドレスなど)を検索の結果として集めてく
る。図9は、その問合せ処理のフローを示すものであ
る。カテゴリー要素をキーにして検索対象データベース
15を検索する(ステップS91)。そのカテゴリー要
素に対応する類義語を一つずつキーにして順次検索を行
い(ステップS92、ステップS94)、そのカテゴリ
ー要素に対応するすべての類義語での検索が終了する
(ステップS93でYの判定になったとき)と、次のカ
テゴリー要素を取り出して(ステップS96)、同様の
処理(ステップS91〜ステップS94)を行う。検索
条件作成部13から与えられたすべてのカテゴリー要素
とそれに対応する類義語による検索が終了するまで(ス
テップS95)上記の処理を繰り返す。
【0012】(検索対象データベース15)検索対象デ
ータベース15には、速度を気にする必要がないのな
ら、どういう方式でもかまわない。しかし、一般的に
は、速度は速いほうがよく、そのためには用語について
インデクスを持っているべきである。もっとも単純に
は、図10に示すような形式のインデクスになる。
「語」も「文書ID」もスペース効率を考えるなら圧縮
されているべきである。
【0013】(集計部16)集計部16は、検索した結
果得られた文書IDの個数を数えたり、論理演算(例え
ば、Aを含みかつBを含む文書求める)を実施して表示
に備える。作業は主に2段階に分かれる。
【0014】(作業1) 類義語についてまとめる カテゴリー要素「パソコン」の類義語として「PC」
「パーソナルコンピュータ」があったとして、 〈1〉語「パソコン」を含む文書={文書1、文書2} 〈2〉語「PC」を含む文書={文書2} 〈3〉語「パーソナルコンピュータ」を含む文書={文
書7、文書8、文書11} という検索結果が得られたとしたら、カテゴリー要素
「パソコン」を含む文書はこれらのすべての文書をマー
ジしたもの、つまり{文書1、文書2、文書7、文書
8、文書11}となる。
【0015】(作業2) カテゴリー要素をつかって分
類する 例えば、後述する表示部17で必要とされる、「パソコ
ン」かつ「A社」かつ「4月」なる文書を求めるには、 〈1〉カテゴリー要素「パソコン」を含む文書={文書
1、文書2} 〈2〉カテゴリー要素「A社」を含む文書={文書2、
文書7、文書8、文書11} 〈3〉カテゴリー要素「4月」を含む文書={文書2、
文書8} としたら、その結果は、{文書2}となる。
【0016】以上の処理の詳細について流れ図にしたの
が図11および図12である。集計部の作業1において
は、図11に示すように、空リストを作成する(ステッ
プS111)。カテゴリー要素による検索結果をマージ
する(ステップS112)。そのカテゴリーに対応する
類義語による検索結果をマージする(ステップS11
3)。最後の類義語になるまで(ステップS114で判
定)、次々と類義語をマージしてゆき、一つのカテゴリ
ー要素に対応するすべての類義語のマージが終わると次
のカテゴリー要素について、同様にステップS112な
いしステップS115の処理を繰返しマージを行い、最
後のカテゴリー要素とそれに対応する類義語による検索
結果のマージが終わると(ステップS116で判定)、
図12の作業2の処理へ移る。作業1の終了時点ではカ
テゴリー要素自身とその類義語を含む文書群のリストが
得られる。次の作業2で、表示用のデータとなる項目を
算出する。
【0017】集計部の作業2の一例として、図12に示
すのは、「製品」「競合」「第二四半期」の3つのカテ
ゴリーで分析を行った場合の処理であり、図13の表示
をするためのデータを生成する。この例では「製品」の
カテゴリーには「複写機」「ファクシミリ」「パーソナ
ルコンピュータ」「ワークステーション」等のカテゴリ
ー要素があり、「競合」のカテゴリーには「A社」「B
社」等のカテゴリー要素があり、「第二四半期」のカテ
ゴリーには「4月」「5月」「6月」等のカテゴリー要
素がある。図12の処理では、「製品」「競合」「第二
四半期」の3つのカテゴリーのカテゴリー要素の組み合
わせを順次に作って行き、各組み合わせに対して共通に
含まれる文書を出力する(ステップS123)。ステッ
プS120、S128およびS129からなるループは
「製品」のカテゴリー要素を順次選択し、ステップS1
21、S126およびS127からなるループは「競
合」のカテゴリー要素を順次選択し、ステップS12
2、S124およびS125からなるループは「第二四
半期」のカテゴリー要素を順次選択する。これらの入れ
子処理により3種のカテゴリー要素のあらゆる組合せが
生成され、それぞれの組み合わせに対して共通に含まれ
る文書が出力される。図13には「製品」のカテゴリー
要素「複写機」と、「競合」のカテゴリー要素「P社」
と、第二四半期の「4月」のカテゴリー要素の組み合わ
せに対して共通に含まれる文書がAであることが示され
ている。分析のために指定するカテゴリーを多く指定す
ればするほど、処理の入れ子は深くなって行く。また、
常にこのような計算が必要なわけではなく、結果をキャ
ッシュしておくことにより、計算回数を少なくすること
もできる。
【0018】(表示部17)表示部17は、入力部11
からの表示形式の指示に従い表示する。入力部11で例
として挙げた検索結果は図13ような表として表現でき
る。それぞれの枠の中に文書は分類されている。例え
ば、Aは「4月」かつ「複写機」かつ「P社」なる文書
であり、Bは「4月」かつ「複写機」かつ「Q社」なる
文書になる。これら該当する文書の個数をグラフとして
もよいし、それぞれの文書に直接アクセスできるように
してもよい。
【0019】(用語展開用データ編集部18)用語展開
用データ編集部18は、用語展開用データベース12に
記憶されているカテゴリーの定義を、削除、追加、貼付
け等の編集を行い、また、類義語の追加や削除等の処理
を行う。図14その処理のイベントループを示すもの
で、イベントを受け付けて、そのイベントの種類に応じ
て、開始処理(ステップS141)、終了処理(ステッ
プS142)、保存処理(ステップS143)、カテゴ
リー選択処理(ステップS144)、カテゴリー削除処
理(ステップS145)、カテゴリー追加処理(ステッ
プS146)、カテゴリー貼付処理(ステップS14
7)、類義語削除処理(ステップS148)、類義語追
加処理(ステップS149)のいずれかの処理を行う。
図6の表示画面は、編集を行うためのインタフェースの
画面であり、この画面上のアイコンや特定の位置をマウ
スによりクリックすることあるいはその他の原因によ
り、イベントが発生し、処理が行われることになる。
【0020】図15は、図14の開始処理の詳細を示す
ものである。この開始処理においては、用語展開用デー
タベースオープンの操作が行われるれる(ステップS1
51)。オープンできなれば、エラー終了し、オープン
できたときには、用語展開用データベース12の内容を
メモリへロードする(ステップS153)。メモリが不
足していないかを調べ(ステップS154)、編集用ウ
ィンドウに表示する(ステップS155)。表示用のメ
モリが不足していないを調べ(ステップS156)、不
足していなければ、開始処理を終わる。主メモリあるい
は表示用メモリが不足していたときには、用語展開用デ
ータベースをクローズする(ステップS159)。
【0021】図16は終了処理を示すフローチャートで
ある。保存後メモリに変更があるかを調べ(ステップS
161)、変更があればユーザに保存するかどうかユー
ザに問い合わせる(ステップS162)ユーザが保存す
ることを選択したときには、保存処理を行う(ステップ
S164)。ステップS161でメモりに変更がなかっ
たとき、あるいはステップS163でユーザがOKを選
択しなかったときには、用語展開用データベースの編集
処理用のファイルをクローズする(ステップS16
4)。そしてウィンドウおよびメモリのリリースをする
(ステップS166〜167)。
【0022】図17は、保存処理を示すもので、用語展
開用データベースへの書き込みを行う。
【0023】図18は、カテゴリ選択処理のフローを示
すものである。新規に選択されたカテゴリー(=Cn)
を取得する(ステップS181)。選択されているカテ
ゴリー(=Cs)が新規に選択されたカテゴリーCnが
一致するか否かを判定し、もし一致していれば選択を解
除する。そしてCiにnilを設定する。CsとCnが
一致しなかった場合には、新規カテゴリーを選択しCs
にCnを入れる。
【0024】図19は、カテゴリー削除処理の処理フロ
ー図である。カテゴリー削除処理においては、まず、選
択されているカテゴリー(=Cs)が空か否かを調べ
(ステップS191)、空でなければカテゴリーのカッ
トバッファ(=Cb))をクリアする(ステップS19
2)。選択されているカテゴリーCsとそのサブカテゴ
リーをカットバッファCbにコピーする(ステップS1
93)。選択されているカテゴリーCsを抹消する(ス
テップS194)。そして選択を解除し、Csをnil
に設定する。
【0025】図20は、カテゴリー追加処理の処理フロ
ー図である。カテゴリー追加処理においては、ユーザに
カテゴリー名を入力させる(ステップS201)。入力
がキャンセル、または空文字列が入力されるされたかを
判定し(ステップS202)、Yesであれば追加処理
は行わないで終了する。入力のキャンセルまたは文字列
が入力されたときには、新規にカテゴリCnを生成する
(ステップS203)。選択カテゴリー(Cs)が空で
あるか否かを判定し(ステップS204)、空であれば
Cnをルートカテゴリに入れる。空でないときにはカテ
ゴリーCnを選択カテゴリーCsのサブカテゴリーとし
て挿入する。
【0026】図21は、カテゴリー貼付け処理の処理フ
ロー図である。カテゴリのカットバッファCbが空かい
なかを調べる(ステップS211)。空であれば張り付
けるものがないので直ちに終了する。空であれば選択カ
テゴリーCsが空か否かを調べ(ステップS212)、
空であれば、カッとバッファCb以下のサブカテゴリー
をルートカテゴリーに挿入する。空でない場合にはカッ
とバッファCb以下のサブカテゴリーを選択カテゴリー
Csのサブカテゴリーとして挿入する(ステップS20
6)。
【0027】図22は、類義語削除処理の処理フローを
示す図である。類義語削除処理においては、選択されて
いる類義語(=Rs)が空かを調べ(ステップS22
1)、空であれば削除処理は終了し、空でなければ類義
語Rsの内容を抹消して(ステップS222)、終了す
る。
【0028】以上のような処理を組み合わせることによ
って、カテゴリー(用語体系)の編集を行うことができ
る。例えば、あるカテゴリーを今までと別のサブカテゴ
リーに移動する場合についてて説明する。今まで「A水
産」は「遠洋漁業船の経営をしている会社」とのみの認
識しかなく、「漁業」というカテゴリーにしていいたの
を、「食品メーカー」に入れ直すという場合には、次の
ような操作を行う。カテゴリー「A水産」の選択→カテ
ゴリーの削除→カテゴリー「食品メーカー」の選択→カ
テゴリーの張り付け。
【0029】また、他の例として、類義語を追加して新
規な呼称に対応する場合について説明する。カテゴリー
「紙詰まり」にカテゴリー「ジャム」という言葉が一般
的に使われるようになったので、類義語として登録す
る。その場合の操作は、カテゴリー「紙詰まり」の選択
→類義語「ジャム」の追加
【0030】これらの操作の結果は即座に文書群の分析
結果に反映されるので、試行錯誤しながら文書群の性質
や、設定した用語の体系の妥当性などを調べることがで
きる。
【0031】
【発明の効果】本発明によれば、次のような効果を奏す
ることができる。 (1) 動的に分類ができる 本発明によれば、入力した複数のカテゴリーを定義によ
って展開し、定義された範囲の文書をすべて索出し、定
義されたカテゴリー要素間の論理演算によって得られる
カテゴリーの新たな組み合わせ対して分類集計するの
で、即時的な分類が得られ、動的な分類ができる。形骸
化した分類法に頼って無意味な仕分作業をするのではな
く、つねに最新の分類を最新のデータに基づいて実施で
きる。
【0032】(2) カテゴリーの組合せによる細かな
分類 本発明によれば分類をしたうえで、それを更に細分して
いくことができる。これは、定義したカテゴリーの組合
せを編集手段により変更することにより実現できる。例
えば、陸上競技というジャンルにしぼった上で、まった
くこのジャンルに関係のないカテゴリー「薬物」を利用
して、ドーピングの問題を取り上げることができる。
【0033】(3) 用語の体系の自在な変更 本発明によれば、編集手段を設けた場合、カテゴリーの
定義の変更がいつでも可能である。つまり、認識モデル
の更新が簡単になるわけである。例えば、今まで「A水
産」は「遠洋漁船の経営をしている会社」とのみの認識
しかなく、「漁業」というカテゴリーにしていたのが、
「食品メーカー」に入れたほうがよい、といった処理が
できる。
【0034】(4) 試行錯誤による発見 キーワードを含んだ文書をリトリーブするだけでなく、
それを表示する際には、複数のキーワードの分布状態
を、一回のユーザー入力で調べることができる。それに
よって、文書群全体からの傾向を見て取ることや、文書
群どうしの関連などが具体的に分かる。また、用語展開
用データベースの内容を変更することによる表示の変化
を観察することで、文書中から有為な情報を抽出でき
る。
【図面の簡単な説明】
【図1】本発明の実施例の文書群分析装置の構成を示す
ブロック図
【図2】実施例による文書群の分析処理の全体の流れを
示す図
【図3】入力部11の入力画面の一例を示す図
【図4】入力データのデータ構造の例を示す図
【図5】用語展開用データベースの内容を説明するため
の図
【図6】用語展開用データベースを編集している画面の
例を示す図
【図7】検索条件作成部で作成された検索条件の例を示
す図
【図8】カテゴリーの展開の処理フロー図
【図9】問合せエンジンによる対象データベースの検索
の処理フロー図
【図10】検索の結果を示す図
【図11】集計部の作業1の処理フロー図
【図12】集計部の作業1の処理フロー図
【図13】表示部による分析結果の表示の例を示す図。
【図14】用語展開用データ編集部の処理フロー図
【図15】用語展開用データ編集部の処理における開始
処理のフロー図
【図16】用語展開用データ編集部の処理における終了
処理のフロー図
【図17】用語展開用データ編集部の処理における保存
処理のフロー図
【図18】用語展開用データ編集部の処理におけるカテ
ゴリー選択処理のフロー図
【図19】用語展開用データ編集部の処理におけるカテ
ゴリー削除処理のフロー図
【図20】用語展開用データ編集部の処理における追加
処理のフロー図
【図21】用語展開用データ編集部の処理における張付
処理のフロー図
【図22】用語展開用データ編集部の処理における類義
語削除処理のフロー図
【図23】用語展開用データ編集部の処理における類義
語追加処理のフロー図
【符号の説明】
11…入力部、12…用語展開用データベース、13…
検索条件作成部、14…問合せエンジン、15…検索用
データベース、16…集計部、17…表示部、18…用
語展開用データ編集部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 分析対象の複数の文書を記憶する対象記
    憶手段と、 検索用の複数のカテゴリーの語を組み合わせて入力する
    入力手段と、 カテゴリーが定義され、カテゴリーの語を展開するため
    に用いる展開情報記憶手段と、 前記入力されたカテゴリーの語をそのカテゴリーに属す
    る検索用のキー語に展開情報記憶手段を参照して展開す
    る用語展開手段と、 展開されたすべての検索用のキー語により前記対象記憶
    手段の文書を検索する検索手段と、 検索された文書群を、前記入力されたカテゴリー間の指
    定された論理演算によって定まる新たなカテゴリー群に
    分類、集計する集計手段と、 集計結果を指定の表示形式により表示する表示手段とを
    備えたことを特徴とする文書群分析装置。
  2. 【請求項2】 前記展開情報記憶手段のカテゴリーの定
    義を編集するための編集手段を設けたことを特徴とする
    請求項1記載の文書群分析装置。
JP29127493A 1993-10-27 1993-10-27 文書群分析装置および方法 Expired - Fee Related JP3367174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29127493A JP3367174B2 (ja) 1993-10-27 1993-10-27 文書群分析装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29127493A JP3367174B2 (ja) 1993-10-27 1993-10-27 文書群分析装置および方法

Publications (2)

Publication Number Publication Date
JPH07121552A true JPH07121552A (ja) 1995-05-12
JP3367174B2 JP3367174B2 (ja) 2003-01-14

Family

ID=17766761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29127493A Expired - Fee Related JP3367174B2 (ja) 1993-10-27 1993-10-27 文書群分析装置および方法

Country Status (1)

Country Link
JP (1) JP3367174B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190454A (ja) * 1996-01-10 1997-07-22 Hitachi Ltd アンケート集計システム
JPH09265482A (ja) * 1996-01-26 1997-10-07 Mitsubishi Electric Corp データベース検索装置及びデータベース検索方法
JPH10154150A (ja) * 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法及びその装置
WO2000055765A1 (en) * 1999-03-05 2000-09-21 Cai Co., Ltd. Method for sorting/searching/abstracting documents
JP2002056010A (ja) * 2000-06-09 2002-02-20 Trw Inc 語彙探索及び分類システム及び方法
JP2009169965A (ja) * 1996-04-30 2009-07-30 Seiko Epson Corp サーバ及び通信端末装置
JP2013101597A (ja) * 2011-09-30 2013-05-23 Boeing Co:The 連想メモリ視覚的評価ツール

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6167128A (ja) * 1984-09-07 1986-04-07 Nec Corp 分類構造に基づく多段テ−ブル表示方式
JPS63157229A (ja) * 1986-12-22 1988-06-30 Nec Corp 多次元ブラウジング方式
JPS63157228A (ja) * 1986-12-22 1988-06-30 Nec Corp 階層形ブラウジング方式
JPH01237878A (ja) * 1988-03-18 1989-09-22 Fujitsu Ltd クロス帳票の統計値集計方式
JPH04106664A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH0589173A (ja) * 1991-09-27 1993-04-09 Fuji Xerox Co Ltd 構造化文書分類装置
JPH05120358A (ja) * 1991-10-29 1993-05-18 Hitachi Ltd 画像情報処理システム
JPH0696136A (ja) * 1991-01-25 1994-04-08 Teremateiiku Kokusai Kenkyusho:Kk レビュー処理装置
JPH06282578A (ja) * 1993-03-26 1994-10-07 Fujitsu Ltd 情報の抽出方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6167128A (ja) * 1984-09-07 1986-04-07 Nec Corp 分類構造に基づく多段テ−ブル表示方式
JPS63157229A (ja) * 1986-12-22 1988-06-30 Nec Corp 多次元ブラウジング方式
JPS63157228A (ja) * 1986-12-22 1988-06-30 Nec Corp 階層形ブラウジング方式
JPH01237878A (ja) * 1988-03-18 1989-09-22 Fujitsu Ltd クロス帳票の統計値集計方式
JPH04106664A (ja) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd 文書分類装置
JPH0696136A (ja) * 1991-01-25 1994-04-08 Teremateiiku Kokusai Kenkyusho:Kk レビュー処理装置
JPH0589173A (ja) * 1991-09-27 1993-04-09 Fuji Xerox Co Ltd 構造化文書分類装置
JPH05120358A (ja) * 1991-10-29 1993-05-18 Hitachi Ltd 画像情報処理システム
JPH06282578A (ja) * 1993-03-26 1994-10-07 Fujitsu Ltd 情報の抽出方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190454A (ja) * 1996-01-10 1997-07-22 Hitachi Ltd アンケート集計システム
JPH09265482A (ja) * 1996-01-26 1997-10-07 Mitsubishi Electric Corp データベース検索装置及びデータベース検索方法
JP2009169965A (ja) * 1996-04-30 2009-07-30 Seiko Epson Corp サーバ及び通信端末装置
JP4687803B2 (ja) * 1996-04-30 2011-05-25 セイコーエプソン株式会社 通信端末装置
JPH10154150A (ja) * 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法及びその装置
WO2000055765A1 (en) * 1999-03-05 2000-09-21 Cai Co., Ltd. Method for sorting/searching/abstracting documents
JP2002056010A (ja) * 2000-06-09 2002-02-20 Trw Inc 語彙探索及び分類システム及び方法
JP2013101597A (ja) * 2011-09-30 2013-05-23 Boeing Co:The 連想メモリ視覚的評価ツール

Also Published As

Publication number Publication date
JP3367174B2 (ja) 2003-01-14

Similar Documents

Publication Publication Date Title
US6912550B2 (en) File classification management system and method used in operating systems
US7464096B2 (en) Method and apparatus for information mining and filtering
JP3669016B2 (ja) 文書情報分類装置
US6735583B1 (en) Method and system for classifying and locating media content
JP3303926B2 (ja) 構造化文書分類装置及び方法
JP4776894B2 (ja) 情報検索方法
JP3870666B2 (ja) 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US20020103809A1 (en) Combinatorial query generating system and method
US20030088715A1 (en) System for keyword based searching over relational databases
US8930822B2 (en) Method for human-centric information access and presentation
CN110633264B (zh) 应用专利数据库的研发辅助***及其方法
JPH09265482A (ja) データベース検索装置及びデータベース検索方法
JP3356519B2 (ja) 文書情報検索装置
JP3367174B2 (ja) 文書群分析装置および方法
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10283366A (ja) 情報分類装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3772401B2 (ja) 文書分類装置
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
CA2396459A1 (en) Method and system for collecting topically related resources
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
JP2000163439A (ja) 電子ファイル検索装置および電子ファイル検索方法
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP3558376B2 (ja) 電子ファイリング装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071108

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081108

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091108

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101108

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111108

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees