JP3722672B2 - 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置 - Google Patents

指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置 Download PDF

Info

Publication number
JP3722672B2
JP3722672B2 JP2000198997A JP2000198997A JP3722672B2 JP 3722672 B2 JP3722672 B2 JP 3722672B2 JP 2000198997 A JP2000198997 A JP 2000198997A JP 2000198997 A JP2000198997 A JP 2000198997A JP 3722672 B2 JP3722672 B2 JP 3722672B2
Authority
JP
Japan
Prior art keywords
word
related person
frequency
designated
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000198997A
Other languages
English (en)
Other versions
JP2002014971A (ja
Inventor
昌史 沖上
明 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000198997A priority Critical patent/JP3722672B2/ja
Publication of JP2002014971A publication Critical patent/JP2002014971A/ja
Application granted granted Critical
Publication of JP3722672B2 publication Critical patent/JP3722672B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,文書に含まれる単語から,ある知識や情報に詳しい人物を抽出する指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムに関するものである。
【0002】
【従来の技術】
多人数で共同して作業を行っていれば,全体としてはそこに多くの知識や情報が蓄積されているはずである。ところが,それらの知識や情報が,集約的に管理されることは少なく,個人又は小さなグループが断片的に保持していることが多い。特に知識や情報の専門性が増すと,すぐ近くで作業していながら,その知識や情報が蓄積されていることすら,周辺の人にわからない場合も生じてくる。その場合には,折角近くに知識や情報に詳しい人がいる場合でも,その人から効率的に知識や情報を得たり,その人に合った作業を任せたりすることも難しくなってしまう。
このような状況は,コンピュータネットワークが活用されるようになって,少なくなりつつある。各個人が作成した文書ファイルをデータベース化しておき,知識や情報に関係する特定の用語でもって,これらの文書ファイルを検索し得るように構成しておけば,所望する知識や情報が蓄積されているか否かなどを比較的簡単に把握することができるようになった。文書ファイルの所有者や作成・編集者を確認すれば,当該知識や情報に詳しい人の情報も得ることができるかもしれない。
【0003】
【発明が解決しようとする課題】
しかしながら,多数の文書ファイルが蓄積されるようになると,知識や情報に関係する特定の用語でもって,当該知識や情報を記載した文書ファイルを検索しようとしても,ノイズが多くなり,適切な文書ファイル,さらにはその文書ファイルの所有者や作成・編集者を見つけることが難しくなる。
また,特定の用語が記載された文書ファイルが検索されても,その検索結果から,所望の知識や情報に対する見識の深い人物を判断することは,実際には難しい場合が多かった。
本発明は,このような従来の技術における課題を鑑みてなされたものであり,単語や分野を指定することによって,所望の知識や情報に詳しい人物をその詳しさが判断し得るように検索することができる指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0004】
【課題を解決するための手段】
上述の目的を達成するために,本発明は,予め設定した設定単語を文書から抽出する設定単語抽出手段と,前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,前記設定単語を分類する設定単語分類と前記設定単語との対応関係を記憶した設定単語分類記憶手段と,を具備し,前記度数集計手段が,前記設定単語分類記憶手段に記憶された前記対応関係と各設定単語の前記単語関係者別の度数を用いて,前記単語関係者が各設定単語分類に属する設定単語と関係付けられた分類計度数と前記単語関係者が各設定単語に関係付けられた総計度数との比率を各設定単語分類について前記単語関係者別に求めて,前記度数記憶手段に記憶し,前記設定単語に代わって前記設定単語分類が指定された場合に,前記指定単語関係者抽出手段が,前記指定された前記設定単語分類と前記比率とに基づいて前記度数記憶手段を検索して,前記指定された前記設定単語分類に関係がある前記単語関係者を抽出し,前記指定単語関係者出力手段が,前記指定された前記設定単語分類に関係がある前記単語関係者と前記比率とを出力してなる指定単語関係者情報抽出装置として構成されている。
本発明では,まず予め設定した設定単語が文書から抽出される。この際,抽出した設定単語に関係がある単語関係者が,前記文書から特定される。その結果,様々な設定単語と単語関係者とが関係付けられる。次に,各設定単語が各単語関係者に関係付けられた度数が集計される。この状態で,ある設定単語を指定した上で検索が指示されると,前記集計の結果を用いて,指定された前記設定単語に関係付けられた前記単語関係者と前記度数とが抽出される。前記度数は指定された前記設定単語が前記単語関係者の関係した文書でどれだけ多く用いられたかを表しており,前記単語関係者の前記設定単語に係る知識や情報の詳しさにほぼ対応する。このため,複数の前記単語関係者が検索結果として出力されたとしても,利用者は,前記度数を指標として前記設定単語に係る知識や情報に詳しい前記単語関係者を容易に判断することができる。
また,前記指定単語関係者出力手段により,前記指定された前記設定単語分類に関係がある前記単語関係者と前記比率とが出力されるため,前記設定単語を分類する設定単語分類を指定して検索が行われた場合にも,前記設定単語分類に関係の深い単語関係者を容易に検索することができる。前記設定単語分類は,前記設定単語よりも広い範囲の概念を含むものであり,前記設定単語ほど流動的でないから,前記設定単語を知らなかったり,指定した単語が前記設定単語に含まれていない場合でも,前記比率を基準にして利用者が求めるのに近い知識や情報に詳しい人物を容易に抽出することができる。
【0005】
また,本発明は,予め設定した設定単語を当該指定単語関係者情報抽出装置の属するネットワークに接続されたクライアントの文書から抽出する設定単語抽出手段と,前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する前記ネットワークに接続された度数記憶手段,及び前記ネットワークに中継接続された他のネットワークに属する他の指定単語関係者情報抽出装置において予め集計され該他のネットワークに接続された他の度数記憶手段の双方を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,を具備してなる指定単語関係者情報抽出装置として構成されている。
さらに,前記指定単語関係者情報抽出装置において,前記設定単語を抽出した文書を指し示す文書指示情報を,各設定単語と各単語関係者とに対応付けて記憶する文書指示情報記憶手段を具備し,前記指定単語関係者抽出手段が,前記指定された前記設定単語に関係付けられた前記単語関係者を抽出してから,前記指定された前記設定単語と前記抽出した前記単語関係者とを用いて,前記文書指示情報記憶手段を検索して,前記抽出した前記単語関係者が関係付けられた前記指定された前記設定単語を抽出した文書を指し示す前記文書指示情報も抽出し,前記指定単語関係者出力手段が,前記指定単語関係者抽出手段により抽出された前記文書指示情報も出力すれば,指定した設定単語に詳しい単語関係者を容易に判断できるだけでなく,当該単語関係者が当該設定単語を用いた様々な文書を指し示す文書指示情報を得ることができる。このため,利用者は,検索された単語関係者に直接尋ねなくても,前記文書指示情報に従って,必要な知識や情報を得ることができる可能性の高い文書を特定することができる。
【0006】
さらに,前記指定単語関係者情報抽出装置において,前記設定単語を分類する設定単語分類と前記設定単語との対応関係を記憶した設定単語分類記憶手段を具備し,前記度数抽出手段が,前記設定単語分類記憶手段に記憶された前記対応関係と各設定単語の前記単語関係者別の度数を用いて,前記単語関係者が各設定単語分類に属する設定単語と関係付けられた分類計度数と前記単語関係者が各設定単語に関係付けられた総計度数との比率を各設定単語分類について前記単語関係者別に求めて,前記度数記憶手段に記憶し,前記設定単語に代わって前記設定単語分類が指定された場合に,前記指定単語関係者抽出手段が,前記指定された前記設定単語分類と前記比率とに基づいて前記度数記憶手段を検索して,前記指定された前記設定単語分類に関係がある前記単語関係者を抽出し,前記指定単語関係者出力手段が,前記指定された前記設定単語分類に関係がある前記単語関係者と前記比率とを出力すれば,前記設定単語を分類する設定単語分類を指定して検索が行われた場合にも,前記設定単語分類に関係の深い単語関係者を容易に検索することができる。前記設定単語分類は,前記設定単語よりも広い範囲の概念を含むものであり,前記設定単語ほど流動的でないから,前記設定単語を知らなかったり,指定した単語が前記設定単語に含まれていない場合でも,前記比率を基準にして利用者が求めるのに近い知識や情報に詳しい人物を容易に抽出することができる。
【0007】
さらに,前記指定単語関係者情報抽出装置において,前記設定単語抽出手段が,文書から切り出した単語を,前記設定単語を格納した設定単語辞書と前記設定単語以外の予め知られた一般単語を格納した一般単語辞書とを参照しながら,前記一般単語か前記設定単語かに分類して,前記設定単語を抽出するものであって,前記一般単語にも前記設定単語にも分類されない未知の単語が前記文書から切り出された場合には,当該単語を前記設定単語辞書に格納すれば,新たに生まれてくる単語を設定単語として登録する作業負担が軽減される。
さらに,前記指定単語関係者情報抽出装置において,前記設定単語辞書に新たに前記未知の単語が格納された場合に,前記度数記憶手段に各設定単語の前記単語関係者別の度数を記憶するのにこれまで用いた文書について,前記設定単語抽出手段が,前記未知の単語を抽出し,前記単語関係者特定手段が,前記未知の単語に関係がある単語関係者を特定し,前記度数集計手段が,前記未知の単語が各単語関係者に関係付けられた度数を集計すれば,新たに登録された設定単語についても,それまでに登録されている設定単語と同様に,単語関係者を抽出することができる。
さらに,前記指定単語関係者情報抽出装置において,画像データ中から文字を認識する文字認識手段を備え,前記文書を,前記文字認識手段により認識された文字から構成し得るようにすることによって,単語関係者を抽出するための資源をより豊かにすることができる。
【0008】
さらに,前記指定単語関係者情報抽出装置において,ネットワーク上で通信されている文書を取得するネットワーク上文書取得手段を具備すれば,意図的に文書を与える必要性が軽減される。
さらに,前記ネットワーク上文書取得手段を具備する場合において,前記ネットワーク上文書取得手段が,前記文書がクラアイントから送信された場合にのみ,当該文書の取得を行えば,クライアントからサーバに送られた後,サーバから他のホストに転送されるような場合でも,同じ文書について前記集計を重複して行うことが防止される。
さらに,前記指定単語関係者抽出手段が,ネットワークに接続された複数の前記度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出すれば,比較的身近い単語関係者だけでなく,より多くの単語関係者の中から所望の知識や情報に詳しいと予想される単語関係者を抽出することができる。
さらに,前記ネットワーク上文書取得手段が,前記文書を発信した発信元を取得し,取得した前記発信元が定められたグループ内に属している場合にのみ,当該文書の取得を行えば,複数の前記指定単語関係者情報抽出装置がネットワークに接続されている場合に,各指定単語関係者情報抽出装置の集計処理が重複してしまう恐れがなく,また複数の前記度数記憶手段を検索したときも,単語関係者の所在を容易に把握することができる。
また,本発明を,予め設定した設定単語を当該指定単語関係者情報抽出装置の属するネットワークに中継接続された他のネットワークに接続されたクライアントの文書から抽出し,該抽出された前記設定単語に関係がある単語関係者を前記文書から特定して,上記抽出された各設定単語が上記特定された各単語関係者に関係付けられた度数を集計し,その集計された各設定単語の前記単語関係者別の度数の記憶された度数記憶手段が上記他のネットワークに接続されてなる場合に,上記度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,を具備してなる指定単語関係者情報抽出装置と捉えてもよい。
また,指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体を用いれば,上述のような各装置をコンピュータを用いて実現することができる。
また,本発明は,予め設定した設定単語を当該設定単語関係者度数集計装置の属するネットワークに接続されたクライアントの文書から抽出する設定単語抽出手段と,前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する度数記憶手段と,を備え,上記度数記憶手段を前記ネットワークに中継接続された他のネットワークから検索可能に提供してなる設定単語関係者度数集計装置として捉えることもできる。
【0009】
【発明の実施の形態】
以下,添付図面を参照して,本発明の実施の形態につき説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明の好適な具体例であって,本発明の技術的範囲を限定する性格のものではない。ここに,図1は本発明の実施の形態に係る指定単語関係者情報抽出装置,及びそれに用いるコンピュータの概略構成を示す図,図2は前記指定単語関係者情報抽出装置が接続されるネットワークの接続構成を示す図である。
本発明の実施の形態に係る指定単語関係者情報抽出装置は,例えばユーザI/F装置1,演算処理部2,記憶部3,通信部4などの一般的な構成を有するコンピュータ5を用いて具体化される。
コンピュータ5における前記演算処理部2は,プログラムの制御に従って,専門語抽出部(設定単語抽出手段に対応)21,使用者特定部(単語関係者特定手段に対応)22,集計部(度数集計手段に対応)23,検索部(指定単語関係者抽出手段に対応)24,文字認識部(文字認識手段に対応)25,ネットワークモニタ(ネットワーク上文書取得手段)26などとして動作する。
また,コンピュータ5における前記記憶部3には,使用者別単語データベース(度数記憶手段に対応)31,専門分野データベース(設定単語分類記憶手段に対応)32,文書データベース(文書指示情報記憶手段に対応)33などが構築される。
そして,前記演算処理部2を制御し,前記記憶部3に各データベースを構築しそれらを管理するプログラムが,本発明に係る使用単語関係者情報抽出プログラムに対応する。
前記コンピュータ5の各構成について説明すると,前記ユーザI/F装置1は,例えばキーボード,マウス,ディスプレイなど,利用者が,前記コンピュータ5を操作したり,前記コンピュータ5の処理結果を確認するのに用いるものである。前記ユーザI/F装置1のうち,前記コンピュータ5の処理結果を確認するための,ディスプレイや,プリンタなどの出力装置は,本発明に係る指定単語関係者出力手段として用いられる。
【0010】
前記演算処理部2は,例えば前記コンピュータ5のCPUとして動作するマイクロプロセッサである。前記マイクロプロセッサには,各種演算処理の際に用いられるメモリが接続される。前記プログラムの待機時,動作時には,前記プログラムは,前記メモリに読み込まれ,前記マイクロプセッサを制御する。前記コンピュータ5は,ある知識や情報に詳しい人物を専門語から検索するサービスを提供するサーバとして動作し,前記プログラムは,通常前記コンピュータ5の起動時に動作するよう設定される。前記プログラムが,前記メモリに読み込まれる前に格納されているのは,ハードディスクドライブなどの記憶装置である。この記憶装置には,前記各種データベースが構築される前記記憶部3と同じハードウェアを用いてもよいし,別個にしてもよい。前記ハードディスクに前記プログラムを導入するために,CD−ROMや,DVD−ROMなどのコンピュータ読み取り可能な記録媒体が用いられる。例えば圧縮された状態で前記CD−ROMに格納されている前記プログラムを,前記CD−ROMに実行可能な状態で格納されているセットアッププログラムを動作させることによって,前記ハードディスクに前記プログラムが実行可能な状態で導入するのである。このCD−ROMなどのコンピュータ読み取り可能な記録媒体が,本発明に係る指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体の具体例である。
前記記憶部3は,ハードディスクドライブなどの記憶装置である。前記記憶部3上に,前記使用者別単語データベース31,専門分野データベース32,文書データベース33を構築することができれば,特にハードディスクドライブに限られるものではないが,比較的大容量で高速動作が可能なものが好ましい。
前記通信部4は,他のコンピュータと通信するために用いるNICなどである。前記コンピュータ5が接続されるネットワークの接続構成例を図2に示す。
【0011】
図2に示すネットワークでは,第1部門のLAN,第2部門のLAN,管理部門のLANが,互いにルータ6を介して接続されている。
前記コンピュータ5は,例えば前記第1部門のLANや,前記第2部門のLANなどに,前記通信部4を用いてそれぞれ接続される。
前記第1部門のLANや,前記第2部門のLANには,前記コンピュータ5の他,前記コンピュータ5をサーバとしたときにそのクライアントとなるコンピュータ7や,メールサーバ8,ネットワークプリンタ9,ネットワークスキャナ10などが接続される。
前記第1部門のLANや,前記第2部門のLANに接続されるコンピュータ5では,文書を管理する文書管理サーバ27も動作している。前記第1部門のLANや,前記第2部門のLANにそれぞれ接続された前記コンピュータ7などから入力された文書ファイルは,前記コンピュータ5の前記記憶部3内に蓄積され,前記文書管理サーバ27によって管理される。
また,前記管理部門のLANにも,前記コンピュータ5上で動作するサーバと類似のサーバとして動作するコンピュータ5’が設置されている。前記管理部門のLANには,前記コンピュータ5’の他,前記コンピュータ5’をサーバとしたときにそのクライアントとなるコンピュータ7や,ネットワークプリンタ9,ファックスサーバ11,外部のネットワークに対するファイアウォールとなるサーバ12などが接続されている。
【0012】
以下,前記指定単語関係者情報抽出装置の詳細,及び動作について,前記第1部門のLANに接続された前記コンピュータ5を例にして説明する。
まず説明するのが,前記コンピュータ5の前記記憶部3に前記使用者別データベース31や前記専門分野データベース32を構築するまでの詳細,及び動作である。
前記コンピュータ5では,前記通信部4を介して,前記第1部門のLANに接続された前記コンピュータ7にある文書ファイルや,前記第1部門のLANに流れる文書ファイル,或いは文書のイメージファイルなどが取り込まれる。
前記ネットワークモニタ26は,前記通信部4が接続されるネットワークを流れる文書ファイルや,文書のイメージファイルなどを取得するためのものである。
前記通信部4が取得したものが文書ファイルに関するパケットであれば,前記ネットワークモニタ26は,前記文書ファイルに関する各パケットのデータロード部から文字コードを抽出して,文書ファイル(文書データ自体や当該ファイルの作成・編集者などを表す情報を含む前記文書データの付随情報)を再構成する。
再構成された文書ファイルは,専門語抽出部21や,使用者特定部22,文書管理サーバ27などに出力される。
前記文書ファイルに関するパケットは,例えば前記コンピュータ7で作成された文書ファイルを前記コンピュータ5の前記記憶部3に格納しようとする場合や,前記コンピュータ7で作成されたメールを前記メールサーバ8にスプールしようとする場合などに,前記第1部門のLANに流れたパケットである。
前記通信部4が取得したものが文書のイメージファイルに関するパケットであれば,前記ネットワークモニタ26は,前記イメージファイルに関する各パケットのデータロード部からイメージデータを抽出して,前記イメージファイル(イメージデータ自体や当該イメージデータの作成・編集者を表す情報などの付随情報)を再構成する。再構成された前記イメージファイルは,前記文字認識部25,及び使用者特定部22に出力される。
【0013】
前記イメージファイルに関するパケットは,例えば前記コンピュータ7で作成されたイメージファイルを前記コンピュータ5の前記記憶部3に格納しようとする場合や,前記コンピュータ7で作成されたイメージファイルを前記ネットワークプリンタ9を用いて印刷しようとした場合や,ネットワークスキャナ10により読み込まれたイメージファイルを前記コンピュータ5の前記記憶部3に格納しようとする場合などに,前記第1部門のLANに流れたパケットである。
前記文字認識部25には,文字切出モジュール251,文字認識エンジン252,文字認識用辞書253などが備えられており,前記文字認識部25に前記イメージファイルが供給されると,前記文字切出モジュール251によって前記イメージファイルのうち文字と想定される部分が切り出される。前記文字認識エンジン252は,前記文字切出モジュール251によって切り出された部分に対して,前記文字認識用辞書253を用いながら,文字認識を行い,イメージデータを文字コードに変換する。これによって,イメージファイルから文書ファイルが構築される。構築された文書ファイルは,専門語抽出部22や,文書管理サーバ27に供給される。
なお,前記文字認識部25に供給されるイメージファイルは,前記ネットワークモニタ26を経由したものに限られるわけではなく,前記コンピュータ5にローカルに接続されたスキャナ51などを用いて取り込まれたものでもよい。
前記専門語抽出部21は,前記ネットワークモニタ26や前記文字認識部25から供給された文書ファイルから専門語を,前記記憶部3に格納されている一般単語辞書34や専門語辞書35を用いながら抽出する。
【0014】
一般単語辞書34,専門語辞書35の辞書構成の具体例を,それぞれ図3(a),図3(b)に示す。
図3(a),図3(b)に示す如く,前記一般単語辞書34や,前記専門語辞書35では,見出し語や,その品詞などが,各単語を識別するためのキー毎に格納されている。
前記一般単語辞書34には,例えば図3(a)のように,「さらに」,「ディスク」,「家電」,「漢字」,「表現」などといった日常的に用いられる単語が格納される。これらの単語は,社会生活上必要な知識があればそれほど理解に困難性がない単語などであり,専門語でない単語の集まりとなる。また,文章を構成する上で必要となる接続詞なども含まれる。
一方,前記専門語辞書35には,例えば図3(b)のように,「EUC」,「SED/sed」,「ディスクアレイ」,「ユニコード」,「情報家電」,「正規表現」,「第3水準」などといった専門語が格納される。これらの専門語は,コンピュータや半導体など技術に関わる専門語であったり,絵画や音楽など芸術に関わる専門語であったり,日常的に用いられることが少ない専門的な知識として要求される単語である。この専門語は,利用者が所望する専門知識を考慮して予め設定される。
前記専門語抽出部21は,前記一般単語辞書34や前記専門語辞書35を用い,形態素解析などを行いながら,前記文書ファイルから前記専門語辞書35に格納されている専門語,又は前記一般単語辞書34,及び前記専門語辞書35のいずれにも格納されていない未知語を抽出する。
本実施の形態においては,前記未知語が抽出されると,当該未知語は前記専門語辞書35に格納される。すなわち,前記未知語は,自動的に専門語であるとみなされる。これによって,新たに生まれてくる単語を専門語として登録する作業負担が軽減される。
前記使用者特定部22は,前記専門語抽出部21により専門語が抽出されている文書ファイル,或いはその元になったイメージファイルから当該ファイルの作成・編集者や所有者など,当該ファイル,すなわち前記専門語抽出部21により抽出されている専門語に関係がある使用者(単語関係者に対応)を特定する。
前記専門語抽出部21により抽出された前記専門語と,前記使用者特定部22により特定された使用者は対応付けられた状態で,前記記憶部3に格納される。
【0015】
前記集計部23は,前記記憶部3に格納された前記専門語と前記使用者との対応関係を参照しながら,前記専門語抽出部21により抽出された各専門語が,前記使用者特定部22により特定された各使用者に関係付けられた度数を集計して,前記記憶部3に使用者別単語データベース31を構築する。
前記集計部23により前記記憶部3に構築される前記使用者別単語データベース31の具体例を,図4に示す。
図4に示す如く,前記使用者別単語データベース31のキーは,専門語或いはそれに代わるものによって与えられる。各専門語に対して,「田中」,「高橋」,「中村」といった各使用者毎に,各専門語と各使用者とが文書ファイルやイメージファイルによって対応付けられた度数が集計されている。例えば図4の例では,「ミラーディスク」という専門語は,「田中」によって180回,「高橋」によって18回,「中村」によって8回用いられていることが表されている。また,「EUC」という専門語は,「田中」によって8回,「高橋」によって149回,「中村」によって100回用いられていることが表されている。さらに,「正規表現」という専門語は,「田中」によって6回,「高橋」によって18回,「中村」によって116回用いられていることが表されている。
前記使用者別単語データベース31を構築するにあたって,前記記憶部3に格納される前記専門語と前記使用者との対応関係は,例えば使用者が「田中」である文書ファイルにおいて,「ミラーディスク」という専門語が4回,「RAID」という専門語が5回抽出されたというようなものである。
前記集計部23は,このような前記対応関係をもとに,「ミラーディスク」という専門語に対して,使用者「田中」の度数を4増加させ,「RAID」という専門語に対して,使用者「田中」の度数を5増加させるなどして,前記使用者別単語データベース31を構築する。
また,前記専門語抽出部21,及び使用者特定部22によって,ある文書ファイルについて,前記専門語と前記使用者との対応関係が定められたとき,前記文書管理サーバ27は,前記文書ファイルやイメージファイルのデータや付随情報に含まれる前記文書ファイルやイメージファイルを指し示す原典ポインタ(文書指示情報に対応)を抽出すると共に,前記ネットワークモニタ26から各パケットが発生したLANを識別する部門IDを抽出し,例えば図5に示すような,文書データベース33を構築する。
【0016】
前記文書データベース33では,前記専門語に,部門IDや,使用者,原典ポインタが対応付けられた状態で格納される。例えば「ディスクアレイ」という専門語については,第1部門,使用者「田中」,原典ポインタ「週報1999/02/18」という対応関係が格納される。
前記文書データベース33には,このような構造のデータベースの他,前記文書ファイル自体が格納されることもある。
前記記憶部3に構築されるデータベースのうち,残りの専門分野データベース32は,例えば図6に示すような専門語と専門分野とについて予め定められた対応関係が登録されたものである。
図6の例では,「HDD分散多重化」という専門分野(設定単語分類)には,「RAID」,「ディスクアレイ」,「ミラーディスク」といった専門語が分類されている。また,「文字コード標準化」という専門分野には,「EUC」,「シフトJIS」,「ユニコード」,「第3水準」,「補助漢字」といった専門語が分類される。
前記集計部23は,前記専門分野データベース32が存在している場合には,各専門語についてだけでなく,各専門分野についても集計を行って,前記使用者別単語データベースを構築する。
前記専門分野データベース32では,既述の通り,「RAID」,「ディスクアレイ」などといった専門語が「HDD分散多重化」という専門分野に分類されている。「RAID」,「ディスクアレイ」などといった各専門語について各使用者別に度数が定まっていれば,前記専門分野に分類される前記専門語の度数を足し合わせることにより,前記専門分野に対する度数(分類計度数に対応)を定めることができる。
【0017】
また,各使用者について度数を総計すれば,各使用者が各専門語に関係付けられた総計度数が求められる。前記集計部23は,前記分類計度数と前記総計度数とを求めた後,前記分類計度数の前記総計度数に対する比率,すなわち(分類計度数)/(総計度数)を各専門分野に対して各使用者別に求める。各専門分野に対して各使用者別に求めた前記比率の具体例を図7に示す。
例えば図7に示す如く,「HDD分散多重化」という専門分野に対して,使用者「田中」の前記比率は,「0.392」である。使用者「田中」が専門語に関係付けられた全体の度数のうち,約4割が「HDD分散多重化」に関するものである。また,「文字列処理」という専門分野に対して,使用者「中村」の前記比率は,「0.384」である。使用者「中村」が専門語に関係付けられた全体の度数のうち,これも4割弱が「文字列処理」に関するものである。
このようにして,前記記憶部3の各データベース31,32,33は構築される。前記使用者別単語データベース31や,文書データベース33は,随時更新されることが好ましい。前記度数の大きさが増すと,それだけ専門知識の深さや経験の多さと前記度数との対応関係が明確になるし,新たな人物が加わったり,未知語が増えても対応が可能となるからである。これに比べると,前記専門語データベース32を更新する頻度は少なくてよい。前記専門分野と前記専門語との対応関係はある程度安定しており,未知語が現れたり,用法が変わった場合に更新するようにすればよい。
なお,ある文書ファイルにおいて未知語が抽出された場合には,前記文書データベース33などに格納されている,前記使用者別単語データベース31を構築するのにこれまで用いた文書ファイルについても,専門語抽出部21により当該未知語を抽出し,前記使用者特定部22により使用者を特定して,当該未知語と使用者との対応関係を定め,前記集計部23により集計処理を行うことが好ましい。
例えば「情報家電」という単語は,最近生まれたものであるが,この単語を構成する「情報」,及び「家電」という単語は,前記一般単語辞書34に格納されているものである。このため,「情報家電」という単語が含まれているにも関わらず,専門語や未知語であると認識されていない場合があることも考えられる。このような場合には,「情報家電」を専門語として登録した後,再度これまでの文書ファイルについて集計処理を行うことで,前記度数と専門知識の深さや経験の多さとの対応関係をより明確にすることができる。
【0018】
次に,利用者が,専門語や専門分野を指定して検索を行う場合の前記コンピュータ5の動作について説明する。
利用者は,前記ユーザI/F装置1のキーボードやマウスなどを用いながら,利用者が所望する専門知識や経験に関する情報に対応した専門語を入力する。
利用者によって入力された専門語は,前記検索部24に供給される。専門語が供給されると,前記検索部24は,前記使用者別単語データベース31の検索を行う。
前記使用者別単語データベース31に対して,供給された専門語と一致する,又は類似する専門語を探索し,専門語と一致する,又は類似する専門語が探索されたら,それに関係付けられた使用者を抽出するのである。
例えば利用者によって「PERL」という専門語が指定された場合には,前記検索部24は,…,使用者「田中」0回,…,使用者「高橋」15回,使用者「中村」163回,…という検索結果を得る(図4参照)。
前記検索結果が得られると,例えば図8に示すように,前記度数の多い順に前記検索結果をソートしてから,前記ユーザI/F装置1のディスプレイにその結果を表示させる。この場合,前記ユーザI/F装置1のディスプレイに表示されるのは,使用者「中村」163回,…使用者「高橋」15回,…,使用者「田中」0回,…という結果である。
この結果を参照すれば,専門知識が深かったり経験が多いのは,使用者「中村」である可能性が高いことを,利用者は容易に理解することができる。利用者は,使用者「中村」に直接尋ねるなどすれば,高い確率で所望の知識や情報などを得ることができる。
【0019】
ただし,特定した使用者の都合などによって直接尋ねることができない場合も考えられるし,使用者だけでなく,使用者が専門語を使用した文書ファイル自体の所在を知りたい場合もある。
この場合には,利用者は,専門語を指定する際に,前記ユーザI/F装置1を用いて,文書ファイル自体の所在が知りたいことを予め指定しておく。文書ファイル自体の所在が知りたいか否かを選択する二者択一が可能なオブジェクトを検索画面などに表示するようにしておけばよい。
専門語を指定する際に,利用者によって文書ファイル自体の所在が知りたいということが指定されている場合には,専門語によって特定された使用者と,専門語とを用いて,前記検索部24により,前記文書データベース33が検索される。前記文書データベース33には,既に図5を用いて示した通り,専門語に対応付けられて,使用者や原典ポインタが記憶されているから,特定された使用者と,専門語とを用いれば,それにあった原典ポインタを抽出することができる。
そして,例えば使用者「田中」が「ディスクアレイ」という専門語を使用した文書ファイルの原典が「週報1999/02/18」であることが,前記ユーザI/F装置1のディスプレイに表示される。
利用者は,この原典ポインタを参考にして,前記文書ファイル自体の所在を容易に把握することができ,特定した使用者に直接知識や情報を尋ねる必要性も少なくなる。
また,利用者がそれほど専門語を知らない場合には,専門分野を用いて検索を行うことも可能である。専門分野の概念は,各専門語よりも広く,専門語の数よりも専門分野の数の方がかなり少なくなるため,「HDD分散多重化」といった専門分野を利用者に入力させるのではなく,複数の専門分野を選択肢として表示し,利用者にいずれかを選択させるようにすることも容易である。この場合,専門分野を規定する特定の用語を知らなくても,言葉の意味から所望の知識や情報に近い専門分野を指定することが可能となる。
この場合,利用者は,前記ユーザI/F装置1のキーボードやマウスなどを用いながら,利用者が所望する専門知識や経験に関する情報に対応した専門分野を入力又は選択する。
【0020】
利用者によって指定された専門分野は,前記検索部24に供給される。専門分野が供給されると,前記検索部24は,前記使用者別単語データベース31の検索を行う。
前記使用者別単語データベース31に対して,供給された専門分野と一致する,又は類似する専門分野を探索し,専門分野と一致する,又は類似する専門分野が探索されたら,それに関係付けられた使用者を抽出するのである。
例えば利用者によって「文字コード標準化」という専門分野が指定された場合には,前記検索部24は,…,使用者「田中」比率0.009,…,使用者「高橋」比率0.209,使用者「中村」比率0.122,…という検索結果を得る(図7参照)。
前記検索結果が得られると,例えば図9に示すように,前記比率の高い順に前記検索結果をソートしてから,前記ユーザI/F装置1のディスプレイにその結果を表示させる。この場合,前記ユーザI/F装置1のディスプレイに表示されるのは,使用者「高橋」比率0.209,…使用者「中村」比率0.122,…,使用者「田中」比率0.009,…という結果である。
この結果を参照すれば,指定した専門分野に対して,専門知識が深かったり経験が多いのは,使用者「高橋」である可能性が高いことを,利用者は容易に理解することができる。利用者は,使用者「高橋」に直接尋ねるなどすれば,高い確率で所望の知識や情報などを得ることができる。
【0021】
なお,ネットワーク上では,同じ文書が何回も通信されることがある。このような文書についてまで,専門語の集計処理を行っていると,使用者が実際に専門語を使用した回数と集計処理した回数との間に乖離が生じてしまい,深い見識を持つ人物の判断をってしまう可能性が高くなってしまう。例えば,あるコンピュータ7からメールを送信してメールサーバ8にスプールし,スプールされた同じメールを他のコンピュータ7が受信するような場合である。
そこで,前記ネットワークモニタ26によって,前記文書ファイルやイメージファイルの発信元を取得させ,その発信元がメールサーバ8などのサーバである場合には,文書ファイルとして取得しない。文書ファイルがクライアントから送信されている場合にのみ,前記文書ファイルの取得を行えば,同じ文書について集計を重複して行うことが防止され,検索結果の信頼性をより高めることができる。
また,図2に示したように,接続されたネットワーク内に複数のコンピュータ5,5’が配置されている場合には,あるコンピュータ5,5’の検索部24を用いて,当該コンピュータ5,5’のデータベースに加えて,他のコンピュータ5,5’のデータベースを検索するようにしてもよい。このようにすれば,利用者と比較的身近い使用者だけでなく,より多くの使用者の中から所望の知識や情報に詳しいと予想される使用者を抽出することができる。
【0022】
ただし,この場合,例えば第1部門のLANに配置されているコンピュータ5が第2部門のLANで発生した文書ファイルに対しても集計処理を行うと,第2部門のLANに配置されているコンピュータ5も同じ文書に対して集計処理を行うので,集計処理が重複して行われてしまう。集計処理が重複して行われると,複数のコンピュータ5,5’に対して検索を行った場合に,検索結果として出力される度数と,使用者の知識や情報との相関関係が歪んでしまう。
そこで,図で示したように,ネットワークモニタ26によって,文書ファイルを発信した発信元を取得し,取得した前記発信元が定められたグループ内に属している場合にのみ,当該文書取得をコンピュータ5,5’が行うようにしてもよい。
の例では,発信元は,部門毎に識別されるようになっており,発信元になったコンピュータ7などがある部門内の文書のみが当該部門のコンピュータ5,5’によって取得されることになる。
このようにすれば,複数のコンピュータ5,5’が重複して集計処理を行うことを防止することができる。また,部門IDを取得し,これを検索結果として,前記ユーザI/F装置1により出力するようにしておけば,特定した使用者の所在を利用者が容易に把握することができる。
なお,前記コンピュータ5’の構成は,前記コンピュータ5と同様の構成でもよいが,例えば管理部門において,専門知識となる文書がそれほど発生しないなどの事情があれば,前記文書管理サーバ27や,前記文書データベース33を設けなくともよい。
また,この実施の形態では,専門語や専門分野を用いて検索を行ったが,検索に用いる用語は,利用者のニーズにあわせて予め設定するようにしておけばよく,実際の専門語や専門分野に限られるものではない。
さらに,前記コンピュータ5,5’がネットワークを用いて接続されている例を示したが,これに限られるものではない。前記コンピュータ5,5’がネットワークに接続されていなくても,前記データベースの構築は可能である。
【0023】
【発明の効果】
以上説明した通り,本発明では,各設定単語が各単語関係者に関係付けられた度数が集計される。この状態で,ある設定単語を指定した上で検索が指示されると,前記集計の結果を用いて,指定された前記設定単語に関係付けられた前記単語関係者と前記度数とが抽出される。前記度数は指定された前記設定単語が前記単語関係者の関係した文書でどれだけ多く用いられたかを表しており,前記単語関係者の前記設定単語に係る知識や情報の詳しさにほぼ対応する。このため,複数の前記単語関係者が検索結果として出力されたとしても,利用者は,前記度数を指標として前記設定単語に係る知識や情報に詳しい前記単語関係者を容易に判断することができる。
さらに,前記設定単語を抽出した文書を指し示す文書指示情報を,各設定単語と各単語関係者とに対応付けて記憶する文書指示情報記憶手段を具備し,前記指定単語関係者抽出手段が,前記指定された前記設定単語に関係付けられた前記単語関係者を抽出してから,前記指定された前記設定単語と前記抽出した前記単語関係者とを用いて,前記文書指示情報記憶手段を検索して,前記抽出した前記単語関係者が関係付けられた前記指定された前記設定単語を抽出した文書を指し示す前記文書指示情報も抽出し,前記指定単語関係者出力手段が,前記指定単語関係者抽出手段により抽出された前記文書指示情報も出力すれば,指定した設定単語に詳しい単語関係者を容易に判断できるだけでなく,当該単語関係者が当該設定単語を用いた様々な文書を指し示す文書指示情報を得ることができる。このため,利用者は,検索された単語関係者に直接尋ねなくても,前記文書指示情報に従って,必要な知識や情報を得ることができる可能性の高い文書を特定することができる。
【0024】
さらに,前記設定単語を分類する設定単語分類と前記設定単語との対応関係を記憶した設定単語分類記憶手段を具備し,前記度数抽出手段が,前記設定単語分類記憶手段に記憶された前記対応関係と各設定単語の前記単語関係者別の度数を用いて,前記単語関係者が各設定単語分類に属する設定単語と関係付けられた分類計度数と前記単語関係者が各設定単語に関係付けられた総計度数との比率を各設定単語分類について前記単語関係者別に求めて,前記度数記憶手段に記憶し,前記設定単語に代わって前記設定単語分類が指定された場合に,前記指定単語関係者抽出手段が,前記指定された前記設定単語分類と前記比率とに基づいて前記度数記憶手段を検索して,前記指定された前記設定単語分類に関係がある前記単語関係者を抽出すれば,前記設定単語を分類する設定単語分類を指定して検索が行われた場合にも,前記設定単語分類に関係の深い単語関係者を容易に検索することができる。前記設定単語分類は,前記設定単語よりも広い範囲の概念を含むものであり,前記設定単語ほど流動的でないから,前記設定単語を知らなかったり,指定した単語が前記設定単語に含まれていない場合でも,利用者が求めるのに近い知識や情報に詳しい人物を容易に抽出することができる。
【0025】
さらに,前記設定単語抽出手段が,文書から切り出した単語を,前記設定単語を格納した設定単語辞書と前記設定単語以外の予め知られた一般単語を格納した一般単語辞書とを参照しながら,前記一般単語か前記設定単語かに分類して,前記設定単語を抽出するものであって,前記一般単語にも前記設定単語にも分類されない未知の単語が前記文書から切り出された場合には,当該単語を前記設定単語辞書に格納すれば,新たに生まれてくる単語を設定単語として登録する作業負担が軽減される。
さらに,前記設定単語辞書に新たに前記未知の単語が格納された場合に,前記度数記憶手段に各設定単語の前記単語関係者別の度数を記憶するのにこれまで用いた文書について,前記設定単語抽出手段が,前記未知の単語を抽出し,前記単語関係者特定手段が,前記未知の単語に関係がある単語関係者を特定し,前記度数集計手段が,前記未知の単語が各単語関係者に関係付けられた度数を集計すれば,新たに登録された設定単語についても,それまでに登録されている設定単語と同様に,単語関係者を抽出することができる。
さらに,画像データ中から文字を認識する文字認識手段を備え,前記文書を,前記文字認識手段により認識された文字から構成し得るようにすることによって,単語関係者を抽出するための資源をより豊かにすることができる。
さらに,ネットワーク上で通信されている文書を取得するネットワーク上文書取得手段を具備すれば,意図的に文書を与える必要性が軽減される。
【0026】
さらに,前記ネットワーク上文書取得手段を具備する場合において,前記ネットワーク上文書取得手段が,前記文書がクラアイントから送信された場合にのみ,当該文書の取得を行えば,クライアントからサーバに送られた後,サーバから他のホストに転送されるような場合でも,同じ文書について前記集計を重複して行うことが防止される。
さらに,前記指定単語関係者抽出手段が,ネットワークに接続された複数の前記度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出すれば,比較的身近い単語関係者だけでなく,より多くの単語関係者の中から所望の知識や情報に詳しいと予想される単語関係者を抽出することができる。
さらに,前記ネットワーク上文書取得手段が,前記文書を発信した発信元を取得し,取得した前記発信元が定められたグループ内に属している場合にのみ,当該文書の取得を行えば,複数の前記指定単語関係者情報抽出装置がネットワークに接続されている場合に,各指定単語関係者情報抽出装置の集計処理が重複してしまう恐れがなく,また複数の前記度数記憶手段を検索したときも,単語関係者の所在を容易に把握することができる。
また,指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体を用いれば,上述のような各装置をコンピュータを用いて実現することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る指定単語関係者情報抽出装置の概略構成,及びそれに用いるコンピュータの構成を示す図。
【図2】 前記指定単語関係者情報抽出装置が接続されるネットワークの接続構成例を示す図。
【図3】 前記指定単語関係者情報抽出装置において用いられる一般単語辞書及び専門語辞書の構成の具体例を示す図。
【図4】 前記指定単語関係者情報抽出装置において構築される使用者別単語データベースの構成の具体例を示す図。
【図5】 専門語と使用者と原典ポインタとの対応関係を説明するための図。
【図6】 専門分野と専門語の対応関係を説明するための図。
【図7】 各専門分野に対して各使用者別に求めた比率の具体例を示す図。
【図8】 前記指定単語関係者情報抽出装置に対して専門語を指定して検索を行ったときの検索結果の一例を示す図。
【図9】 前記指定単語関係者情報抽出装置に対して専門分野を指定して検索を行ったときの検索結果の一例を示す図。
【符号の説明】
1…ユーザI/F装置
21…専門語抽出部
22…使用者特定部
23…集計部
24…検索部
25…文字認識部
26…ネットワークモニタ
31…使用者別単語データベース
32…専門分野データベース
33…文書データベース
34…一般単語辞書
35…専門語辞書

Claims (13)

  1. 予め設定した設定単語を文書から抽出する設定単語抽出手段と,
    前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,
    前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,
    前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,
    前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,
    前記設定単語を分類する設定単語分類と前記設定単語との対応関係を記憶した設定単語分類記憶手段と,を具備し,
    前記度数集計手段が,前記設定単語分類記憶手段に記憶された前記対応関係と各設定単語の前記単語関係者別の度数を用いて,前記単語関係者が各設定単語分類に属する設定単語と関係付けられた分類計度数と前記単語関係者が各設定単語に関係付けられた総計度数との比率を各設定単語分類について前記単語関係者別に求めて,前記度数記憶手段に記憶し,
    前記設定単語に代わって前記設定単語分類が指定された場合に,前記指定単語関係者抽出手段が,前記指定された前記設定単語分類と前記比率とに基づいて前記度数記憶手段を検索して,前記指定された前記設定単語分類に関係がある前記単語関係者を抽出し,
    前記指定単語関係者出力手段が,前記指定された前記設定単語分類に関係がある前記単語関係者と前記比率とを出力してなる指定単語関係者情報抽出装置。
  2. 予め設定した設定単語を当該指定単語関係者情報抽出装置の属するネットワークに接続されたクライアントの文書から抽出する設定単語抽出手段と,
    前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,
    前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,
    前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する前記ネットワークに接続された度数記憶手段,及び前記ネットワークに中継接続された他のネットワークに属する他の指定単語関係者情報抽出装置において予め集計され該他のネットワークに接続された他の度数記憶手段の双方を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,
    前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,
    を具備してなる指定単語関係者情報抽出装置。
  3. 前記設定単語を抽出した文書を指し示す文書指示情報を,各設定単語と各単語関係者とに対応付けて記憶する文書指示情報記憶手段を具備し,
    前記指定単語関係者抽出手段が,前記指定された前記設定単語に関係付けられた前記単語関係者を抽出してから,前記指定された前記設定単語と前記抽出した前記単語関係者とを用いて,前記文書指示情報記憶手段を検索して,前記抽出した前記単語関係者が関係付けられた前記指定された前記設定単語を抽出した文書を指し示す前記文書指示情報も抽出し,
    前記指定単語関係者出力手段が,前記指定単語関係者抽出手段により抽出された前記文書指示情報も出力してなる請求項2記載の指定単語関係者情報抽出装置。
  4. 前記設定単語を分類する設定単語分類と前記設定単語との対応関係を記憶した設定単語分類記憶手段を具備し,
    前記度数集計手段が,前記設定単語分類記憶手段に記憶された前記対応関係と各設定単語の前記単語関係者別の度数を用いて,前記単語関係者が各設定単語分類に属する設定単語と関係付けられた分類計度数と前記単語関係者が各設定単語に関係付けられた総計度数との比率を各設定単語分類について前記単語関係者別に求めて,前記度数記憶手段に記憶し,
    前記設定単語に代わって前記設定単語分類が指定された場合に,前記指定単語関係者抽出手段が,前記指定された前記設定単語分類と前記比率とに基づいて前記度数記憶手段を検索して,前記指定された前記設定単語分類に関係がある前記単語関係者を抽出し,
    前記指定単語関係者出力手段が,前記指定された前記設定単語分類に関係がある前記単語関係者と前記比率とを出力してなる請求項2記載の指定単語関係者情報抽出装置。
  5. 前記設定単語抽出手段が,文書から切り出した単語を,前記設定単語を格納した設定単語辞書と前記設定単語以外の予め知られた一般単語を格納した一般単語辞書とを参照しながら,前記一般単語か前記設定単語かに分類して,前記設定単語を抽出するものであって,
    前記一般単語にも前記設定単語にも分類されない未知の単語が前記文書から切り出された場合には,当該単語を前記設定単語辞書に格納させてなる請求項2記載の指定単語関係者情報抽出装置。
  6. 前記設定単語辞書に新たに前記未知の単語が格納された場合に,前記度数記憶手段に各設定単語の前記単語関係者別の度数を記憶するのにこれまで用いた文書について,前記設定単語抽出手段が,前記未知の単語を抽出し,前記単語関係者特定手段が,前記未知の単語に関係がある単語関係者を特定し,前記度数集計手段が,前記未知の単語が各単語関係者に関係付けられた度数を集計してなる請求項5記載の指定単語関係者情報抽出装置。
  7. 画像データ中から文字を認識する文字認識手段を備え,前記文書を,前記文字認識手段により認識された文字から構成し得るようにした請求項2記載の指定単語関係者情報抽出装置。
  8. 前記ネットワーク上で通信されている文書を取得するネットワーク上文書取得手段を具備してなる請求項2記載の指定単語関係者情報抽出装置。
  9. 前記ネットワーク上文書取得手段が,前記文書が前記クラアイントから送信された場合にのみ,当該文書の取得を行う請求項8記載の指定単語関係者情報抽出装置。
  10. 前記ネットワーク上文書取得手段が,前記文書を発信した発信元を取得し,取得した前記発信元が定められたグループ内に属している場合にのみ,当該文書の取得を行う請求項8記載の指定単語関係者情報抽出装置。
  11. 予め設定した設定単語を当該指定単語関係者情報抽出装置の属するネットワークに中継接続された他のネットワークに接続されたクライアントの文書から抽出し,該抽出された前記設定単語に関係がある単語関係者を前記文書から特定して,上記抽出された各設定単語が上記特定された各単語関係者に関係付けられた度数を集計し,その集計された各設定単語の前記単語関係者別の度数の記憶された度数記憶手段が上記他のネットワークに接続されてなる場合に,上記度数記憶手段を検索して,指定された前記設定単語に関係付けられた前記単語関係者と前記度数を抽出する指定単語関係者抽出手段と,
    前記指定単語関係者抽出手段により抽出された前記単語関係者と前記度数とを出力する指定単語関係者出力手段と,
    を具備してなる指定単語関係者情報抽出装置。
  12. コンピュータを請求項1〜11のいずれか1項に記載の指定単語関係者情報抽出装置として機能させるための指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  13. 予め設定した設定単語を当該設定単語関係者度数集計装置の属するネットワークに接続されたクライアントの文書から抽出する設定単語抽出手段と,
    前記設定単語抽出手段により抽出された前記設定単語に関係がある単語関係者を前記文書から特定する単語関係者特定手段と,
    前記設定単語抽出手段により抽出された各設定単語が,前記単語関係者特定手段により特定された各単語関係者に関係付けられた度数を集計する度数集計手段と,
    前記度数集計手段により集計された各設定単語の前記単語関係者別の度数を記憶する度数記憶手段と,を備え,
    上記度数記憶手段を前記ネットワークに中継接続された他のネットワークから検索可能に提供してなる設定単語関係者度数集計装置。
JP2000198997A 2000-06-30 2000-06-30 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置 Expired - Fee Related JP3722672B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000198997A JP3722672B2 (ja) 2000-06-30 2000-06-30 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000198997A JP3722672B2 (ja) 2000-06-30 2000-06-30 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置

Publications (2)

Publication Number Publication Date
JP2002014971A JP2002014971A (ja) 2002-01-18
JP3722672B2 true JP3722672B2 (ja) 2005-11-30

Family

ID=18697080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000198997A Expired - Fee Related JP3722672B2 (ja) 2000-06-30 2000-06-30 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置

Country Status (1)

Country Link
JP (1) JP3722672B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5233518B2 (ja) * 2008-08-29 2013-07-10 沖電気工業株式会社 検索分析サーバ装置及び検索分析方法
JP5585433B2 (ja) * 2010-12-17 2014-09-10 コニカミノルタ株式会社 画像処理装置、有識者情報蓄積方法および有識者情報蓄積プログラム
JP6140835B2 (ja) * 2013-10-30 2017-05-31 株式会社日立製作所 情報検索システムおよび情報検索方法
JP6056829B2 (ja) * 2014-09-30 2017-01-11 ダイキン工業株式会社 レコメンド作成装置
JP6149836B2 (ja) * 2014-09-30 2017-06-21 ダイキン工業株式会社 人材検索装置
JP6972935B2 (ja) * 2017-11-06 2021-11-24 日本電気株式会社 関連スコア算出システム、方法およびプログラム
JP7369920B2 (ja) * 2019-08-28 2023-10-27 株式会社野村総合研究所 サーバおよびコンピュータプログラム
JP7436012B2 (ja) 2019-09-24 2024-02-21 Necソリューションイノベータ株式会社 知識共有支援装置、知識共有支援方法、プログラム、および記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991311A (ja) * 1995-09-26 1997-04-04 Canon Inc 情報蓄積検索装置およびその制御方法

Also Published As

Publication number Publication date
JP2002014971A (ja) 2002-01-18

Similar Documents

Publication Publication Date Title
JP3936862B2 (ja) 推薦システム及び推薦方法
US8407781B2 (en) Information providing support device and information providing support method
US8380012B2 (en) Document imaging and indexing system
US8306933B2 (en) Information providing system, method of providing information and program for providing information
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP5095281B2 (ja) 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
US7792945B2 (en) Method and apparatus for managing the disposition of data in systems when data is on legal hold
US20020059227A1 (en) Document management apparatus, related document extracting method, and document processing assist method
JP3722672B2 (ja) 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置
US20060085181A1 (en) Keyword extraction apparatus and keyword extraction program
JP2006331001A (ja) 専門家抽出装置および辞書提供装置
US20090287654A1 (en) Device for identifying electronic file based on assigned identifier
JPH07239854A (ja) 画像ファイルシステム
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP5217513B2 (ja) 情報解析処理方法、情報解析処理プログラム、情報解析処理装置、情報登録処理方法、情報登録処理プログラム、情報登録処理装置、情報登録解析処理方法、および情報登録解析処理プログラム。
JPH09245046A (ja) 情報検索装置
KR102183815B1 (ko) 데이터 관리 시스템 및 데이터 관리 방법
KR102639880B1 (ko) 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
JP2006338114A (ja) データ管理装置およびデータ管理方法
Grasso et al. Who can claim complete abstinence from peeking at print jobs?
JP2006302146A (ja) 情報管理システム、情報管理方法、プログラム及び記録媒体
WO2004097678A1 (ja) 文書の自動分類プログラム、その方法、及び装置
JP2008152487A (ja) 情報検索システム、情報検索方法および情報検索プログラム
KR20200062057A (ko) 데이터 관리 시스템 및 데이터 관리 방법
JP2023057658A (ja) 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050602

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050913

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3722672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130922

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees