JP2001167124A - 文書分類装置及び文書分類プログラムを記録した記録媒体 - Google Patents

文書分類装置及び文書分類プログラムを記録した記録媒体

Info

Publication number
JP2001167124A
JP2001167124A JP35355699A JP35355699A JP2001167124A JP 2001167124 A JP2001167124 A JP 2001167124A JP 35355699 A JP35355699 A JP 35355699A JP 35355699 A JP35355699 A JP 35355699A JP 2001167124 A JP2001167124 A JP 2001167124A
Authority
JP
Japan
Prior art keywords
document
keyword
weight
classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP35355699A
Other languages
English (en)
Inventor
Nobuyuki Iwata
展幸 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP35355699A priority Critical patent/JP2001167124A/ja
Publication of JP2001167124A publication Critical patent/JP2001167124A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザが意識的に分類のためのカテゴリを決
定することなく、話題性、又はユーザの嗜好に合ったカ
テゴリヘ大量の文書を自動分類する。 【解決手段】 本発明の文書分類装置は、分類対象文書
11及び履歴情報12の文書を記憶する記憶部(図示せ
ず)と、記憶部に記憶されている文書からキーワードを
抽出するキーワード抽出部1と、キーワード抽出部1に
より抽出されるキーワードの重要度、該キーワードを含
む文書の保存日時又は保存場所の少なくとも一つに基づ
いて、該キーワードを上記文書の分類先にする重みを算
出する解析部10と、解析部10により算出される各重
みに基づいて、文書を分類する分類部13と、を備え
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書分類装置に関
し、特に、情報を蓄積するシステムにおいて文書のグル
ープから文書を分類する文書分類装置及び文書分類プロ
グラムを記録した記録媒体に関する。
【0002】
【従来の技術】インターネット等の情報通信網の普及に
伴い、情報提供者等から必要に応じて取得した文書情報
を分類する機会が増えている。
【0003】本発明に関連する公知技術として、特開平
6−348755号公報、及び特開平11−15848
号公報に開示されている文書分類方法がある。上記各公
報に記載されている文書分類方法は、分類済みの文書群
から各分野に固有の単語(キーワード)を抽出し、分類
対象の文書におけるキーワードの出現頻度に基づいて、
分類対象文書の分類先を決定するものである。
【0004】また、特開平7−114572号公報に開
示されている文書分類方法は、分類対象文書に含まれる
単語の特徴を表現する特徴ベクトルから文書の特徴を表
現する文書ベクトルを生成し、文書ベクトル間の類似度
を利用して分類するものである。
【0005】
【発明が解決しようとする課題】上記各公報にみられる
ように、従来の文書分類システムでは、分類対象文書の
分類先を決定する要素として、キーワードの文書構造又
はキーワードの出現頻度等、文書自身が有する情報を利
用しており、話題性のあるカテゴリや、ユーザの嗜好に
合ったカテゴリに分類対象の文書を自動分類するもので
はない。
【0006】本発明の目的は、話題性又はユーザの嗜好
に適したカテゴリに分類対象の文書を自動的に分類する
ことができる文書分類装置、及び文書分類プログラムを
記録した記録媒体を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に本発明の文書分類装置は、文書を記憶する記憶手段
と、前記記憶手段に記憶されている前記文書からキーワ
ードを抽出する抽出手段と、前記抽出手段により抽出さ
れるキーワードの重要度、前記キーワードを含む文書の
保存日時又は保存場所の少なくとも一つに基づいて、前
記キーワードを前記文書の分類先にする重みを算出する
重み算出手段と、前記重み算出手段により算出される前
記重みに基づいて、前記文書を分類する分類手段と、を
備えるものである。
【0008】また、前記重み算出手段は、前記キーワー
ドが前記文書の見出し、表題、図題、ハイパーリンク又
は強調表示、又は固有名詞の少なくとも一つに使用され
ている場合に前記重みを変えるものであることで、キー
ワードの重要度を重視して文書を分類できる。
【0009】また、前記重み算出手段は、前記キーワー
ドを含む前記文書の前記保存日時から前記キーワードが
出現する日時を算出し、該算出日時と所定の基準日時と
の比較に基づいて前記重みを算出するものであること
で、キーワードの出現日時等が時間情報として付与さ
れ、話題性のあるカテゴリを検出することが可能にな
る。
【0010】また、前記重み算出手段は、前記キーワー
ドを含む前記文書が所定のブラウザのキャッシュ、該ブ
ラウザのお気に入りファイル又はブックマークのリンク
先、検索時の文字入力列、ユーザが行った階層分類構
造、又は自動分類された階層構造の少なくとも一つであ
る場合に前記重みを変えるものであることで、操作履歴
情報等が付与され、嗜好性のあるカテゴリを検出するこ
とが可能になる。
【0011】また、さらに、前記重み算出手段により算
出される前記重みに対する比重を制御する制御手段を更
に備え、前記分類手段は、前記制御手段からの比重と前
記算出手段により算出される前記重みとに基づいて、前
記文書を分類することにより、ユーザニーズをより考慮
して文書を分類できる。
【0012】他の観点において本発明は、コンピュータ
を、文書を記憶する記憶手段と、前記記憶手段に記憶さ
れている前記文書からキーワードを抽出する抽出手段
と、前記抽出手段により抽出されるキーワードの重要
度、前記キーワードを含む文書の保存日時又は保存場所
の少なくとも一つに基づいて、前記キーワードを前記文
書の分類先にする重みを算出する重み算出手段と、前記
重み算出手段により算出される前記重みに基づいて、前
記文書を分類する分類手段と、を備える文書分類装置と
して機能させるためのプログラムを記録したことを特徴
とするコンピュータ読み取り可能な記録媒体である。
【0013】
【発明の実施の形態】本発明の実施の形態を添付図面と
対応して以下に詳細に説明する。図1は、本発明の実施
の形態による文書分類装置の構成を示すブロック図であ
る。本文書分類装置は、キーワード抽出部(抽出手段)
1、制御部(制御手段)5、解析部(重み算出手段)1
0、分類部(分類手段)13及びCD−ROMドライブ
14を備える。
【0014】また、解析部10は、文書構造解析部2、
時間情報解析部3及び履歴解析部4を有し、分類部13
は、カテゴリ度算出部6、カテゴリキーワード登録部
7、カテゴライズ部8及び格納部9を有する。また、C
D−ROMドライブ14は、制御部5の指示に基づいて
CD−ROM15に格納されているプログラムを読み出
す。
【0015】上記文書構造解析部2、時間情報解析部3
及び履歴解析部4は、全体として、キーワードの重要
度、該キーワードを含む文書の保存日時又は保存場所に
基づいて該キーワードを文書の分類先にする重みを算出
する解析部10を構成している。
【0016】分類対象文書11は、本文書分類装置にお
いて分類の対象となる文書である。分類対象文書11
は、例えばインターネット等からダウンロードされ一時
的にHDD等の記録装置に格納されている文書でも良い
し、履歴情報12である文書の集合における要素であっ
ても良い。分類対象文書11及び履歴情報12は、各文
書の保存日時、保存場所等の情報が認識できる状態で、
HDD等の記録装置(記憶手段)に格納されている。
【0017】履歴情報12は、本文書分類装置により管
理される文書の集合である。履歴情報12は、例えばWo
rld Wide Webブラウザ(以下、Webブラウザと呼ぶ)
のキャッシュの文書、Webブラウザのお気に入りファイ
ル又はブックマークのリンク先の文書、検索操作時の入
力文字列、または、既にユーザが行った階層分類構造又
は自動分類された階層構造等である。
【0018】キーワード抽出部1は、分類対象文書11
及び履歴情報12の文書からキーワードを抽出する。分
類対象文書11及び履歴情報12の文書におけるある文
字列が、カテゴリキーワード登録部7のキーワード辞書
(図示せず)に予め登録されているカテゴリキーワード
と一致する場合に、該文字列をキーワードとして抽出す
る。
【0019】解析部10において、文書構造解析部2
は、キーワード抽出部1により抽出されたキーワードの
文書構造上の重みを構造重みとして算出する。該キーワ
ードの構造重みが大きいほど、文書中で重要なキーワー
ドとなる。
【0020】例えば、構造重みが大きくなるのは、分類
対象文書11又は履歴情報12の文書における見出し、
表題、図題に使用されているキーワード、及びハイパー
リンク等で使用されているキーワードである。また、強
調表示されているキーワード、他のキーワードと比較し
て大きなフォントで表示されているキーワード、及び固
有名詞で用いられているキーワードの構造重みも大きく
なる。この構造重みは、制御部5からの指示で変化させ
る。
【0021】また、時間情報解析部3は、キーワード抽
出部1により抽出されたキーワードの時間軸上の重みを
時間重みとして算出する。分類対象文書11から抽出さ
れたキーワードを含む履歴情報12の文書が有する更新
日時、保存日時等の情報から該キーワードの出現頻度の
最も高い日時を算出する。この場合、該キーワードの出
現頻度が所定の頻度を超える日時をキーワード出現日時
として算出するようにしても良い。
【0022】例えば、算出日時が基準日時に近いキーワ
ードほど時間重みは大きくなり、算出日時が基準日時に
遠いキーワードほど時間重みは小さくなる。この時間重
みは、制御部5からの指示で変化させる。また、履歴解
析部4は、キーワード抽出部1により抽出されたキーワ
ードが履歴情報12の文書の中で出現する頻度を履歴重
みとして算出する。
【0023】例えば、Webブラウザで最近閲覧してキャ
ッシュ中に記憶されているページに使用されている場
合、又は検索操作した際に使用された文字列等に使用さ
れている場合に履歴重みは大きくなる。この履歴重み
は、制御部5からの指示で変化させる。
【0024】このように、本実施の形態では、文書構造
解析部2、時間情報解析部3及び履歴解析部4が設けら
れており、分類対象文書11から抽出したキーワードが
該分類対象文書11の分類先として適切であるか否かを
示す指標として、文書構造解析部2により重要性のある
カテゴリを検出することが可能になり、時間情報解析部
3によりキーワードの出現日時を時間情報として付与し
て話題性のあるカテゴリを検出することが可能となると
ともに、履歴解析部4により嗜好性のあるカテゴリを検
出することが可能となる。
【0025】制御部5は、以下に示す4つの制御を主に
行う。第1の制御として、文書構造解析部2、時間情報
解析部3、履歴解析部4にて算出される重みの基準値を
設定する。文書構造解析における基準値には、見出し、
表題、図題、ハイパーリンク、強調表示、及びフォント
を要素とする基準ベクトルを設定する。この基準ベクト
ルに対してどの要素に比重を置いて重みを算出するのか
を決定する。また、時間情報解析における基準値には、
時間軸上の値を設定する。設定した基準値に近いキーワ
ードの時間重みは大きくなる。
【0026】また、履歴情報解析における基準値には、
履歴情報12の文書を要素とする基準ベクトルを設定す
る。この基準ベクトルに対してどの要素に比重を置いて
重みを算出するのかを決定する。例えば「検索操作時の
入力文字列」という要素を大きくした基準ベクトルを基
準値として設定した場合には、「検索操作時の入力文字
列」に使用されているキーワードに大きな比重が置か
れ、履歴重みが算出される。
【0027】第2の制御として、文書構造解析部2、時
間情報解析部3、履歴解析部4で算出した重みから、カ
テゴリ度算出部6においてカテゴリ度を導く際にそれぞ
れの重みの比重を制御する。
【0028】第3の制御として、カテゴリキーワードの
数を制御する。分類対象文書11の数が多い場合にはカ
テゴリキーワードとして登録するキーワード数を増加さ
せ、逆に分類対象文書11の数が少ない場合にはカテゴ
リキーワードとして登録するキーワード数を減少させ
る。
【0029】第4の制御として、分類先の文書数の最大
値及び最小値を制御する。分類先の文書数が最大値を超
えた場合には、新たにカテゴリキーワードを登録して再
分類する。また、分類先の文書数が最小値に満たない場
合には、そのカテゴリを分類先とせず他のカテゴリに分
類する。
【0030】カテゴリ度算出部6は、文書構造解析部
2、時間情報解析部3及び履歴解析部4からキーワード
毎にカテゴリベクトルを導き、カテゴリベクトルの大き
さからカテゴリ度を算出する。カテゴリベクトルは、構
造重み、時間重み及び履歴重みの3要素からなり、各重
みに対する比重は制御部5により与えられる。
【0031】上述のように、カテゴリベクトルを導出す
る際には、各重みに対する比重を変更できる。文書構造
上の重みの比重を大きくした場合には、キーワードの重
要性を重視したカテゴリベクトルが導出される。文書の
保存日時の情報に基づく話題的要素である時間重みの比
重を大きくした場合には、話題性を重視したカテゴリベ
クトルが導出される。文書の格納場所の情報を利用して
ユーザの操作履歴の情報による嗜好的要素である履歴重
みの比重を大きくした場合には、ユーザの嗜好を重視し
たカテゴリベクトルが導出される。
【0032】カテゴリキーワード登録部7は、カテゴリ
度算出部6で算出されたカテゴリ度に基づいて、カテゴ
リキーワードを登録する。例えば、分類対象文書11及
び履歴情報12の文書から抽出したキーワードをカテゴ
リ度の高いものから順に、制御部5から与えされたカテ
ゴリキーワード数の上限まで登録する。
【0033】カテゴライズ部8は、カテゴリキーワード
登録部7により登録されたカテゴリキーワードの中か
ら、カテゴリ度が最も高いカテゴリキーワードを分類対
象文書11の分類先としてカテゴライズする。格納部9
は、カテゴライズ部8からの分類先の指示に基づいて分
類対象文書11を格納する。
【0034】次に、図2から図6に示すフローチャート
を参照して、本実施の形態による文書分類装置の動作を
説明する。図2は、本実施の形態による文書分類装置の
文書分類処理を説明するフローチャートである。はじめ
に、ステップS11では、分類対象文書11から抽出し
たキーワードの中からカテゴリキーワードを登録し、次
いで、ステップS12で、分類対象文書11をカテゴラ
イズする。
【0035】ステップS13では、分類先の文書数が、
設定されている基準最小値以下であるか否かを判別す
る。ここで、分類先の文書数が基準最小値以下である場
合には、分類先として設定されているカテゴリキーワー
ドはカテゴリとして相応しくないと判断して削除し、ス
テップS12に戻りカテゴライズ処理を再度実行する。
また、分類先の文書数が基準最小値より大きい場合に
は、ステップS14に進む。
【0036】ステップS14では、分類先の文書数が設
定されている基準最大値以上であるか否かを判別する。
ここで、分類先の文書数が基準最大値以上である場合に
は、より小さい単位のカテゴリに分類可能であると判断
してカテゴリキーワードを新しく追加登録し、ステップ
S12に戻りカテゴライズ処理を再度実行する。また、
分類先の文書数が基準最大値より小さい場合には、ステ
ップS15に進み分類対象文書11を分類先に各々格納
する。
【0037】図3は、本実施の形態による文書分類装置
のカテゴリキーワード登録処理を説明するフローチャー
トであり、図2のステップS11の処理に対応する。は
じめに、ステップS21では、分類対象文書11及び履
歴情報12の文書からキーワードを抽出し、次いで、ス
テップS22で、抽出されたキーワード毎にカテゴリ度
を算出する。
【0038】次いで、ステップS23で、算出されたカ
テゴリ度と基準値とを比較する。ここで、算出されたカ
テゴリ度が基準値以上の場合には、ステップS24に進
みカテゴリキーワードとして登録する。また、算出され
たカテゴリ度が基準値以下の場合にはステップS25に
進む。
【0039】ステップS25では、全てのキーワードを
検索したか否かを判別し、全てのキーワードが検索され
たと判断された場合には、カテゴリキーワードの登録処
理を完了する。また、全てのキーワードが検索されてい
ない場合には、ステップS21に戻り次のキーワードの
処理に移る。
【0040】図4は、本実施の形態による文書分類装置
のカテゴリ度算出処理を説明するフローチャートであ
り、図3のステップS22の処理に対応する。はじめ
に、ステップS31では、文書構造に基づく構造重みを
算出する。文書構造解析部2は、キーワード抽出部1で
抽出されたキーワードのうち、分類対象文書11に含ま
れるキーワードの文書構造を調べ、キーワード毎に時間
重みを算出する。上述のように文書構造は、分類対象文
書11と履歴情報12の文書において、該キーワードが
使用されている場所又は文字サイズ等を示す。
【0041】構造重みの基準値には、見出し、表題、図
題、ハイパーリンク、強調表示、及びフォントを要素と
する基準ベクトルが設定される。基準ベクトルに基づい
た配分で重み付けを行う。例えば、ハイパーリンクに比
重を置いた基準ベクトルに基づいた重み付けでは、ハイ
パーリンクに使用されているキーワードの構造重みは大
きくなる。この基準ベクトルは予め設定されているが、
ユーザが適宜変更することができる。
【0042】次いで、ステップS32で、日時情報に基
づく時間重みを算出する。時間情報解析部3は、キーワ
ード抽出部1で抽出されたキーワードのうち、分類対象
文書11に含まれるキーワードを含む文書が有する日時
情報を調べ、キーワード毎に時間重みを算出する。上述
のように日時情報は、該キーワードが出現した日時を示
す。ただし、複数の文書で該キーワードが出現した場合
には、各文書内での出現回数と各文書の保存日時から算
出した値を日時情報とする。時間重み算出における基準
値には、時間紬上の値を設定する。設定された基準値に
近いキーワードの時間重みは大きくなる。
【0043】ステップS33では、履歴情報12に基づ
く履歴重みを算出する。履歴解析部4は、キーワード抽
出部1で抽出されたキーワードのうち、分類対象文書1
1に含まれるキーワードを含む文書の保存場所を調べ、
キーワード毎に履歴重みを算出する。
【0044】履歴重みの基準値には、履歴情報12の文
書を要素とする基準ベクトルを設定する。基準ベクトル
に基づいてどの要素に比重を置いて重みを算出するのか
を決定する。例えば、「検索操作時の入力文字列」とい
う要素を大きくしたベクトルを基準値として設定する
と、「検索操作時の入力文字列」に使用されているキー
ワードに大きな比重をおかれ、履歴重みが算出される。
【0045】ステップS34では、キーワード毎に算出
された構造重み、時間重み及び履歴重みを要素とするカ
テゴリベクトルを導出する。導出されたカテゴリベクト
ルは、制御部5からの各重みに対する比重を考慮して各
重みの大きさが変更される。次いで、ステップS35
で、導出されたカテゴリベクトルの大きさからカテゴリ
度を算出する。
【0046】図5は、本実施の形態による文書分類装置
のカテゴライズ処理を示すフローチャートであり、図2
のステップS12の処理に対応する。はじめに、ステッ
プS41では、分類対象文書11に対して登録されてい
るカテゴリキーワードを検索し、次いで、ステップS4
2で、分類対象文書11からカテゴリキーワードが見つ
かったか否かを判断する。
【0047】ステップS42において、分類対象文書1
1からカテゴリキーワードが見つかった場合には、ステ
ップS43に進む。ステップS43では、カテゴリキー
ワードの中で最もカテゴリ度の高いものを検索し、最も
カテゴリ度が高いカテゴリキーワードをカテゴリに分類
する。
【0048】また、該分類対象文書11からカテゴリキ
ーワードが見つからなかった場合には、ステップS44
に進み類似カテゴリ検索を行う。ステップS44では、
該分類対象文書11が最も類似するカテゴリキーワード
を分類先とする。
【0049】図6は、本実施の形態による文書分類装置
の類似カテゴリ検索処理を示すフローチャートであり、
図5のステップS44の処理に対応する。分類対象文書
11中にカテゴリキーワードとなるキーワードが存在し
ないので、まずステップS51で、該分類対象文書11
から抽出された各キーワードに対応するカテゴリベクト
ルの平均を算出し、算出した平均を該分類対象文書自身
のカテゴリベクトルとする。
【0050】次いで、ステップS52で、ステップS5
1で算出した文書のカテゴリベクトルと、カテゴリキー
ワードのカテゴリベクトルとの類似度を算出する。次い
で、ステップS53で、算出された類似度が最大値を超
えたか否かを判別する。
【0051】ステップS53において、算出された類似
度が最大値を超える場合には、ステップS54及びステ
ップS55で、類似度の最大値及び類似カテゴリを更新
する。また、算出された類似度が最大値を超えない場合
には、ステップS56に移る。
【0052】ステップS56では、文書のカテゴリベク
トルと、全てのカテゴリキーワードのカテゴリベクトル
との比較が終了したか否かを判別する。ここで、全ての
カテゴリキーワードのカテゴリベクトルとの比較が終了
した場合には類似カテゴリ検索処理を終了する。また、
全てのカテゴリキーワードのカテゴリベクトルとの比較
が終了していないと判断された場合には、ステップS5
2の処理に戻り、次のカテゴリキーワードの類似カテゴ
リ検索を行う。以上により、最も類似度が大きいカテゴ
リキーワードが該分類対象文書11の分類先となる。
【0053】以上説明したように、本実施の形態の文書
分類装置は、管理可能な文書の集合からキーワードを抽
出するキーワード抽出部1と、分類対象文書11から抽
出したキーワードに対して、文書中の構造に基づく構造
重みを算出する文書構造解析部2と、文書の作成日時情
報からキーワード出現の時間的な位置付けを時間重みと
して算出する時間情報解析部3と、ユーザの操作履歴情
報を履歴重みとして算出する履歴解析部4と、上記構造
重みと、時間重み及び履歴重みとからキーワードのカテ
ゴリベクトルを導出し、該ベクトルの大きさをカテゴリ
度とするカテゴリ度算出部6と、該カテゴリ度を有する
キーワードからカテゴリとなるカテゴリキーワードを選
出し登録するカテゴリキーワード登録部7と、分類対象
文書11の分類先を判別するカテゴライズ部8と、該分
類先に分類対象文書11を格納する格納部9と、分類先
集合内の文書数により分類を制御する制御部5を備え、
分類対象文書11から抽出したキーワードのみでなく、
文書作成日時等の時間情報や蓄積しているユーザの操作
履歴情報を利用して文書分類先を決定するように構成し
たので、話題性を加味したカテゴライズとユーザの嗜好
に合ったカテゴライズを実現することができる。
【0054】なお、本実施の形態では、解析部10によ
り構造重み、時間重み及び履歴重みを各々算出し、分類
部13により制御部5からの重みの比重の指示に基づい
て各重みを要素とするカテゴリベクトルを導出してい
る。本発明は上記実施の形態に限定されず、制御部5の
比重の指示による特別なケースとして、キーワードの重
要度(構造重み)、話題性(時間重み)又はユーザの嗜
好(履歴重み)の少なくとも一つを重視し、重視した重
みのみを要素とするカテゴリベクトルを導出して文書分
類処理を行う構成であれば良い。
【0055】また、本実施の形態では、分類部13をカ
テゴリ度算出部6、カテゴリキーワード登録部7、カテ
ゴライズ部8及び格納部9に分けて示しているが本発明
を限定するものではなく、解析部10により算出される
各重みに基づいて、分類対象文書11を自動的に分類す
る構成であれば良い。
【0056】上述したように、本発明の文書分類装置
は、本文書分類装置を機能させるためのプログラムでも
実現される。このプログラムはコンピュータで読み取り
可能な記録媒体に格納されている。本発明では、この記
録媒体としてROM(図示せず)そのものがプログラム
メディアであっても良いし、また、外部記憶装置として
CD−ROMドライブ14等のプログラム読み取り装置
が設けられ、そこに記録媒体を挿入することで読み取り
可能なCD−ROM15等のプログラムメディアであっ
ても良い。いずれの場合においても、格納されているプ
ログラムは制御部5がアクセスして実行させる構成であ
っても良いし、プログラムを読み出し、読み出されたプ
ログラムは、図示されていないプログラム記憶エリアに
ダウンロードされて、そのプログラムが実行される方式
であっても良い。このダウンロード用のプログラムは予
め本体装置に格納されているものとする。
【0057】ここで上記プログラムメディアは、本体と
分離可能に構成される記録媒体であり、磁気テープやカ
セットテープ等のテープ系、フロッピーディスクやハー
ドディスク等の磁気ディスクやCD−ROM/MO/M
D/DVD等の光ディスクのディスク系、ICカード
(メモリカードを含む)/光カード等のカード系、ある
いはマスクROM、EPROM、EEPROM、フラッ
シュROM等による半導体メモリを含めた固定的にプロ
グラムを担持する媒体であっても良い。
【0058】さらに、送受信手段(図示せず)を介して
通信ネットワーク(図示せず)からプログラムをダウン
ロードするように、流動的にプログラムを担持する媒体
であっても良い。なお、このように通信ネットワークか
らプログラムをダウンロードする場合には、そのダウン
ロード用プログラムは予め装置本体に格納しておくか、
あるいは別な記録媒体からインストールされるものであ
っても良い。なお、記録媒体に格納されている内容とし
てはプログラムに限定されず、データであっても良い。
【0059】
【発明の効果】本発明によれば、キーワード自身の重要
度、話題性又はユーザの嗜好に合ったカテゴリを抽出し
て、分類対象文書を自動的に分類できる。また、キーワ
ード自身の重要度、話題性及びユーザの嗜好の各々に対
応する重みの比重を自由に変更することにより、ユーザ
ニーズに適したシステムを実現できる。
【図面の簡単な説明】
【図1】本発明の実施の形態による文書分類装置の構成
を説明するブロック図である。
【図2】本発明の実施の形態による文書分類装置の文書
分類処理を説明するフローチャートである。
【図3】本発明の実施の形態による文書分類装置のカテ
ゴリキーワード登録処理を説明するフローチャートであ
る。
【図4】本発明の実施の形態による文書分類装置のカテ
ゴリ度算出処理を説明するフローチャートである。
【図5】本発明の実施の形態による文書分類装置の文書
のカテゴライズ処理を説明するフローチャートである。
【図6】本発明の実施の形態による文書分類装置の類似
カテゴリ検索処理を説明するフローチャートである。
【符号の説明】
1:キーワード抽出部(抽出手段) 2:文書構造解析部 3:時間情報解析部 4:履歴解析部 5:制御部(制御手段) 6:カテゴリ度算出部 7:カテゴリキーワード登録部 8:カテゴライズ部 9:格納部 10:解析部(重み算出手段) 11:分類対象文書 12:履歴情報 13:分類部(分類手段) 14:CD−ROMドライブ 15:CD−ROM(記録媒体)

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書を記憶する記憶手段と、前記記憶手
    段に記憶されている前記文書からキーワードを抽出する
    抽出手段と、前記抽出手段により抽出されるキーワード
    の重要度、前記キーワードを含む文書の保存日時又は保
    存場所の少なくとも一つに基づいて、前記キーワードを
    前記文書の分類先にする重みを算出する重み算出手段
    と、前記重み算出手段により算出される前記重みに基づ
    いて、前記文書を分類する分類手段と、を備えることを
    特徴とする文書分類装置。
  2. 【請求項2】 前記重み算出手段は、前記キーワードが
    前記文書の見出し、表題、図題、ハイパーリンク又は強
    調表示、又は固有名詞の少なくとも一つに使用されてい
    る場合に前記重みを変える、ことを特徴とする請求項1
    記載の文書分類装置。
  3. 【請求項3】 前記重み算出手段は、前記キーワードを
    含む前記文書の前記保存日時から前記キーワードが出現
    する日時を算出し、該算出日時と所定の基準日時との比
    較に基づいて前記重みを算出する、ことを特徴とする請
    求項1記載の文書分類装置。
  4. 【請求項4】 前記重み算出手段は、前記キーワードを
    含む前記文書が所定のブラウザのキャッシュ、該ブラウ
    ザのお気に入りファイル又はブックマークのリンク先、
    検索時の文字入力列、ユーザが行った階層分類構造、又
    は自動分類された階層構造の少なくとも一つである場合
    に前記重みを変える、ことを特徴とする請求項1記載の
    文書分類装置。
  5. 【請求項5】 前記重み算出手段により算出される前記
    重みに対する比重を制御する制御手段を更に備え、前記
    分類手段は、前記制御手段からの比重と前記算出手段に
    より算出される前記重みとに基づいて、前記文書を分類
    する、ことを特徴とする請求項1記載の文書分類装置。
  6. 【請求項6】 コンピュータを、文書を記憶する記憶手
    段と、前記記憶手段に記憶されている前記文書からキー
    ワードを抽出する抽出手段と、前記抽出手段により抽出
    されるキーワードの重要度、前記キーワードを含む文書
    の保存日時又は保存場所の少なくとも一つに基づいて、
    前記キーワードを前記文書の分類先にする重みを算出す
    る重み算出手段と、前記重み算出手段により算出される
    前記重みに基づいて、前記文書を分類する分類手段と、
    を備える文書分類装置として機能させるためのプログラ
    ムを記録したことを特徴とするコンピュータ読み取り可
    能な記録媒体。
JP35355699A 1999-12-13 1999-12-13 文書分類装置及び文書分類プログラムを記録した記録媒体 Pending JP2001167124A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35355699A JP2001167124A (ja) 1999-12-13 1999-12-13 文書分類装置及び文書分類プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35355699A JP2001167124A (ja) 1999-12-13 1999-12-13 文書分類装置及び文書分類プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001167124A true JP2001167124A (ja) 2001-06-22

Family

ID=18431649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35355699A Pending JP2001167124A (ja) 1999-12-13 1999-12-13 文書分類装置及び文書分類プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001167124A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
JP2005085285A (ja) * 2003-09-10 2005-03-31 Microsoft Corp ペンベースのコンピューティングシステムでの注釈の管理
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2008077227A (ja) * 2006-09-19 2008-04-03 Access Co Ltd リンク生成装置、ブラウザプログラム、リンク生成システム
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法
US10191940B2 (en) 2007-09-04 2019-01-29 Microsoft Technology Licensing, Llc Gesture-based searching

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221243A (ja) * 1995-02-16 1996-08-30 Sony Corp 情報表示方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221243A (ja) * 1995-02-16 1996-08-30 Sony Corp 情報表示方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
JP2005085285A (ja) * 2003-09-10 2005-03-31 Microsoft Corp ペンベースのコンピューティングシステムでの注釈の管理
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
US7693683B2 (en) 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2008077227A (ja) * 2006-09-19 2008-04-03 Access Co Ltd リンク生成装置、ブラウザプログラム、リンク生成システム
JP2008268985A (ja) * 2007-04-16 2008-11-06 Yahoo Japan Corp タグを付与する方法
US10191940B2 (en) 2007-09-04 2019-01-29 Microsoft Technology Licensing, Llc Gesture-based searching

Similar Documents

Publication Publication Date Title
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
CN106202124B (zh) 网页分类方法及装置
US7912868B2 (en) Advertisement placement method and system using semantic analysis
JP4633803B2 (ja) 曖昧な地理的参照の分類
JP3665480B2 (ja) 文書整理装置および方法
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
US7676745B2 (en) Document segmentation based on visual gaps
US7769771B2 (en) Searching a document using relevance feedback
JP4437500B2 (ja) データをタグ情報に対応付けて管理する技術
JP2005316996A (ja) テキスト分類及びフィルタリングを行うサポートベクタマシンのモデル閾値を調整する方法ならびに装置
JP2004126840A (ja) 文書検索方法、プログラムおよびシステム
JP3997412B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
KR20060042296A (ko) 사전 업데이트 방법 및 그 장치
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
US10915797B2 (en) Method and system for classifying content using scoring
KR20080024712A (ko) 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템
CN110532450B (zh) 一种基于改进鲨鱼搜索的主题爬虫方法
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
US8533150B2 (en) Search index generation apparatus
JP2001167124A (ja) 文書分類装置及び文書分類プログラムを記録した記録媒体
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2003167907A (ja) 情報提供方法およびシステム
KR100672278B1 (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
Wang et al. UCrawler: a learning-based web crawler using a URL knowledge base
JP2003108569A (ja) 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051115