JPH11161671A - 情報分類方法、装置及びシステム - Google Patents

情報分類方法、装置及びシステム

Info

Publication number
JPH11161671A
JPH11161671A JP9329934A JP32993497A JPH11161671A JP H11161671 A JPH11161671 A JP H11161671A JP 9329934 A JP9329934 A JP 9329934A JP 32993497 A JP32993497 A JP 32993497A JP H11161671 A JPH11161671 A JP H11161671A
Authority
JP
Japan
Prior art keywords
information
category
classification
vector
correlation matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9329934A
Other languages
English (en)
Other versions
JP3497713B2 (ja
Inventor
Tsutomu Matsunaga
務 松永
Hiromi Kida
博巳 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP32993497A priority Critical patent/JP3497713B2/ja
Publication of JPH11161671A publication Critical patent/JPH11161671A/ja
Application granted granted Critical
Publication of JP3497713B2 publication Critical patent/JP3497713B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 自動的且つ高精度の分類が可能な情報分類装
置を提供する。 【解決手段】 相関行列処理部15において、学習用テ
キストの特徴を表す特徴ベクトル集合からカテゴリ毎の
相関行列を作成し、参照プロファイルを得る。類似度処
理部18では、分類対象となる新規テキストの特徴ベク
トル集合とカテゴリ毎の参照プロファイルまたは共用参
照プロファイルとの射影を算出して新規テキストの分類
を行う。分類体系が変更された場合には、対応するテキ
スト群の特徴ベクトル集合からカテゴリ毎に相関行列を
再作成し、変更されたカテゴリに関わる参照プロファイ
ルを更新する。共用カテゴリ処理部17では、相互に関
係ある複数の参照プロファイルを合成して共有カテゴリ
及び共用参照プロファイルを作成するとともに、参照プ
ロファイルが作成または更新された場合には、対応する
共有カテゴリの更新を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書処理や自然言
語処理等に用いられる情報分類手法に係り、特に、部分
空間法(部分空間類別法とも呼ばれる)を適用して、電
子化情報、例えば電子文書データを既定の分類体系に即
したカテゴリに分類する手法に関する。
【0002】
【従来の技術】従来のこの種の情報分類手法として、電
子文書データ(以下、テキスト)の文書構造、すなわち
テキストのデータ構造(型)や見出し中におけるキーワ
ード(以下、単語)の配列特徴等に関わらず、テキスト
を一つの特徴ベクトル集合で表現して情報分類を行うベ
クトル空間モデル法が知られている。従来のベクトル空
間モデル法では、まず、既定の分類体系に即したカテゴ
リが予め判っている多数の学習用テキストを用意し、各
学習用テキストからそれぞれ複数の単語と各単語の特徴
ベクトルとを抽出してカテゴリ毎のベクトル空間モデル
を求める。そして、各カテゴリに対応するベクトル空間
モデルの平均特徴を表すベクトルを当該カテゴリを代表
する参照ベクトルとして保存し、これを分類対象となる
新規テキストに対するカテゴリ決定の基準として利用す
る。
【0003】情報分類に際しては、新規テキストに対し
てその特徴を表すベクトル(以下、分類対象ベクトル)
を生成する。そして、この分類対象ベクトルとカテゴリ
毎に保存されてい参照ベクトルとの特徴差、つまりテキ
スト間の類似度を、両ベクトルがなす角の余弦によって
求め、より適合する参照ベクトルに対応するカテゴリを
その新規テキストに付与する。
【0004】
【発明が解決しようとする課題】従来のベクトル空間モ
デル法では、テキストを構成する単語はすべて同等に扱
われており、同一テキスト中に出現する単語間の共起関
係、例えば、単語「大統領」が単語「米国」と密接な関
係でテキスト中に現れる場合の相互の関係は考慮されて
いない。そのため、テキストの種類によっては、十分な
分類精度が得られないという問題があった。また、ある
分類体系にもとでの学習によって参照ベクトルを作成し
た場合、その後に分類体系を変更しようとすると、変更
後の分類体系のもとで最初から再学習させなければなら
ず、迅速且つ容易な対処ができないという問題もあっ
た。さらに、ある既定の分類体系のもとで複数のカテゴ
リに属するような情報をもつテキストを分類する場合
は、このカテゴリの重複に対応できないという問題もあ
った。
【0005】一方、上記ベクトル空間モデル法によら
ず、文書構造に依存した手法で情報分類を行えば、上記
問題点の一部は解消される余地がある。しかし、このよ
うな手法では、分類の際に、新規テキストをカテゴリ毎
に逐次キーワードで記述しなければならず、適用範囲が
限定されてしまう。
【0006】そこで本発明の課題は、分類精度を一定値
以上に維持することができ、分類体系の変更にも柔軟に
対応することができる、改良された情報分類方法を提供
することにある。本発明の他の課題は、上記情報分類方
法の実施に適した情報分類装置、及び情報分類システム
を提供することにある。
【0007】
【課題を解決するための手段】本発明が提供する情報分
類方法は、属すべきカテゴリが既知の学習用電子化情報
を、次元を削減したベクトル空間モデルとして表現し、
カテゴリが不明な新規電子化情報が入力されたときに、
当該新規電子化情報の特徴を表す分類対象ベクトルを生
成するとともに、前記学習用電子化情報のベクトル空間
に対する前記分類対象ベクトルの射影に基づいて前記学
習用電子化情報と前記新規電子化情報との類似度を判定
し、この判定結果に基づいて前記新規電子化情報が属す
べきカテゴリを決定することを特徴とする。
【0008】この情報分類方法において、既定のカテゴ
リの分類体系が変更された場合は、変更後の分類体系に
関わるカテゴリに属するすべての電子化情報から前記ベ
クトル空間モデルの形成に用いる相関行列を作成し、こ
の相関行列を前記変更後の分類体系に関わるカテゴリの
ベクトル空間モデルに反映させる。
【0009】相互に関連ある複数のベクトル空間がある
場合は、これを所定のグループ化基準に従ってをグルー
プ化して各ベクトル空間モデルと共用関係をなす共用ベ
クトル空間モデルとその共用ベクトル空間モデルに対応
する共用カテゴリとを形成し、この共用ベクトル空間モ
デルに対する前記分類対象ベクトルの射影から前記新規
電子化情報が前記共用カテゴリに属するかどうかの類似
度判定を行うようにする。
【0010】また、上記他の課題を解決する本発明の情
報分類装置は、属すべきカテゴリが既知の学習用電子化
情報の分類体系に即して、カテゴリが不明な新規電子化
情報の分類を行う装置であって、入力された電子化情報
の特徴をベクトル化するベクトル処理手段と、前記ベク
トル処理手段で抽出された、前記学習用電子化情報から
次元が削除された特徴ベクトルの集合を取得して、この
特徴ベクトルの集合をもとにベクトル空間モデルの形成
に用いる相関行列を作成する相関行列処理手段と、前記
ベクトル処理手段で抽出された、前記新規電子化情報の
特徴を表す分類対象ベクトルを取得し、前記相関行列に
基づいて形成される部分空間への前記取得した分類対象
ベクトルの射影に基づいて前記学習用電子化情報と前記
新規電子化情報との類似度を判定し、判定結果に基づい
て前記新規電子化情報が属すべきカテゴリを決定する手
段と、を有することを特徴とする。
【0011】上記情報分類装置において、好ましくは、
相互に関連する複数のカテゴリについての前記相関行列
を統合して統合前の前記相関行列と共用関係をなす共用
相関行列、及びその共用相関行列に対応する共用カテゴ
リを作成する手段を設け、前記作成された共用相関行列
が前記特徴ベクトルと照合されるように構成する。ま
た、この共用カテゴリに関連する少なくとも一つの相関
行列が再作成されたときに、前記共用相関行列の自動更
新を行う手段をさらに設ける。
【0012】本発明の他の情報分類装置は、既定の分類
体系に従って電子化情報を分類して保持する装置であっ
て、入力された電子化情報の特徴をベクトル化するベク
トル処理手段と、前記ベクトル処理手段で抽出された、
属すべきカテゴリが既知の学習用電子化情報から冗長な
次元が削除された特徴ベクトルの集合を取得し、この特
徴ベクトルの集合をもとにベクトル空間モデルの形成に
用いる相関行列を作成する相関行列処理手段と、前記ベ
クトル処理手段で抽出された、新規電子化情報の特徴を
表す分類対象ベクトルを取得するとともに、前記相関行
列に基づいて形成される部分空間への前記取得した分類
対象ベクトルの射影に基づいて前記学習用電子化情報と
前記新規電子化情報との類似度を判定し、判定結果に基
づいて前記新規電子化情報が属すべきカテゴリを決定す
る手段と、前記既定の分類体系が変更された場合に既に
分類されているすべての電子化情報に対して、前記相関
行列と同一形式の更新相関行列を前記変更に関わるカテ
ゴリ毎に生成し、生成した更新相関行列を用いて対応カ
テゴリの相関行列を自動更新する手段と、を有すること
を特徴とする。
【0013】なお、前記ベクトル処理手段は、例えば、
入力された電子化情報の特徴を表す複数の特徴ベクトル
に対し、正規直交変換によるKL解析(カルーネン・レ
ーベ(Karhunen-Loeve)変換によるKL解析)を施すこ
とで冗長な次元を削減するように構成する。これによ
り、単語間の共起関係を考慮したベクトル空間モデルを
作成することができる。
【0014】本発明の他の課題を解決する本発明の情報
分類システムは、上記いずれかの構成に係る情報分類装
置を電子化情報が流通する通信回線に接続し、前記通信
回線を通じて取り込まれた前記電子化情報の情報分類を
行うようにしたものである。この場合、前記情報分類装
置は、エージェント手段を通じて取り込まれた前記電子
化情報の情報分類を行うように構成することが望まし
い。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。 (第1実施形態)図1は、本発明を適用した情報分類装
置の機能ブロック図である。なお、図中、実線は処理の
流れ、破線はデータ類の流れを表す。本実施形態の情報
分類装置1は、コンピュータ装置の内部あるいは外部の
記憶装置に構築される文書データベース19と、上記コ
ンピュータ装置が所定のプログラムを読み込んで実行す
ることにより形成される、テキスト入力部11、特徴ベ
クトル抽出部12、次元処理部13、処理選択部14、
相関行列処理部15、参照プロファイル格納部16、共
用カテゴリ処理部17、類似度処理部18、を備えて構
成される。このプログラムは、通常、コンピュータ装置
の内部記憶装置あるいは外部記憶装置に格納され、随時
読み取られて実行されるようになっているが、コンピュ
ータ装置とは分離可能な記録媒体、例えばCD−ROM
やFD等の可搬性記録媒体、あるいは当該コンピュータ
装置と構内ネットワークに接続されたプログラムサーバ
等に格納され、使用時に上記内部記憶装置または外部記
憶装置にインストールされて随時実行に供されるもので
あってもよい。
【0016】情報分類装置1が備える各機能ブロックの
内容は下記のとおりである。文書データベース19は、
予め既定の分類体系により分類された1または複数の学
習用テキストの蓄積及び新規テキストの追加蓄積を行う
ものである。
【0017】また、図示しない分類体系変更手段によ
り、文書データベース19に蓄積されたテキスト群の分
類体系が変更された場合に、該当するカテゴリに属する
すべてのテキスト(以下、分類体系変更テキスト)を、
テキスト入力部11に入力する機能をも有する。
【0018】テキスト入力部11は、学習用テキスト、
新規テキスト、及び分類体系変更テキストの入力を受け
付けて、特徴ベクトル抽出部12に出力するものであ
る。
【0019】特徴ベクトル抽出部12は、入力されたテ
キストに対応した特徴ベクトル、すなわち個々のテキス
トに出現する単語の種類を次元数とし、各単語の出現頻
度に重みをかけることでそのテキストの特徴を表すよう
にした特徴ベクトルを抽出する。この場合の単語の重み
付けには、公知の「TF・IDF法」を利用することが
できる。抽出された特徴ベクトルは、次元処理部13に
入力される。
【0020】次元処理部13は、特徴ベクトル抽出部1
2で抽出したカテゴリ毎の特徴ベクトル集合に対し、量
子化アルゴリズムの一種である「KL解析」、すなわち
正規直交変換による主成分分析を施し、単語間の関連度
が相対的に低い冗長な次元の削減(次元圧縮とも呼ばれ
る)を行うものである。次元削減された特徴ベクトル
は、処理選択部14に入力される。
【0021】処理選択部14は、次元処理部13で次元
削減された特徴ベクトルの種類に応じて後続処理を自動
的に選択するものである。具体的には、処理された特徴
ベクトルが学習用テキストの場合には初期学習モード、
新規テキストの場合には分類モード、分類体系変更テキ
ストの場合には適応学習モードが選択されるようにす
る。各モードの内容については後述する。
【0022】相関行列処理部15は、初期学習モード及
び適応学習モードの場合に、次元処理部13を経た特徴
ベクトルに対応した相関行列を所定の部分空間類別基準
に基づいて作成する。この場合の部分空間類別基準は、
ベクトル空間モデルのパターン認識を行う場合に用いら
れる部分空間法に基づく基準であり、例えば、「パター
ン認識と部分空間法」(エルッキ・オヤ著、産業図書)
等の記載を参考にすることができる。この相関行列は、
テキストに出現する単語間の共起関係を考慮した部分空
間の形成に用いられる。相関行列処理部15は、また、
初期学習モードの場合に、学習用テキストを再構成して
文書データベース19に入力する。
【0023】参照プロファイル格納部16は、相関行列
処理部15で作成された相関行列を情報分類の基準とな
る参照プロファイルとして図示しないメモリ手段に格納
するものである。この参照プロファイルは従来の参照ベ
クトルと同様の用途、つまり分類対象ベクトルとの照合
の基準として使用されるものである。
【0024】共用カテゴリ処理部17は、予め設定され
たグループ化基準に基づいて、既に格納されている該当
カテゴリの参照プロファイルを統合(結合あるいは合
成)して、当該グループ内で共用関係をなす共用カテゴ
リと、この共用カテゴリについての共用参照プロファイ
ルを作成する。また、相関行列処理部15で再作成され
た相関行列(参照プロファイル)が、共用カテゴリに関
連する場合に、その再作成された相関行列によって対応
する共用参照プロファイルの自動更新を行う。この場合
のグループ化基準は、例えば、統合の対象となる複数の
カテゴリをシステムパラメータ等を用いて予め設定すれ
ば良い。作成ないし更新された共用参照プロファイル
は、参照プロファイル格納部16においてメモリ手段に
格納される。
【0025】類似度処理部18は、処理選択部14で選
択されたモードが分類モードの場合に、次元処理部13
で次元削除された新規テキストについての特徴ベクトル
(分類対象ベクトル)と、参照プロファイル格納部16
に格納された参照プロファイルまたは共用参照プロファ
イルとの特徴差比較を行うとともに、その特徴差に基づ
いて、新規テキストに対して付与すべきカテゴリを決定
するものである。カテゴリが決定された新規テキスト
は、文書データベース19に追加蓄積される。
【0026】次に、上記処理選択部14で選択される各
モードの処理内容をより詳しく説明する。図2は、初期
学習モードにおける処理手順図である。ここでは、学習
用テキストに、既定の分類体系に即した各カテゴリの識
別情報が予め付与されているものとする。処理選択部1
4における処理選択に先立ち、学習用テキストに出現す
る単語の種類及びその出現頻度に基づく特徴ベクトルの
抽出と、この特徴ベクトルに対する次元削減が行われる
(ステップS101〜S103)。
【0027】処理選択部14は、上記処理が学習用テキ
ストに対して行われていることを認識して相関行列処理
部15に学習用テキストに対する相関行列を作成させる
(ステップS104)。これにより、学習用テキストに
出現する単語間の共起関係を考慮した分類が可能になる
ため、上記共起関係を考慮しない従来手法に比べて分類
精度を高めることができる。この相関行列は、当該学習
用テキストが属すべきカテゴリを表す参照プロファイル
として参照プロファイル格納部16に保存される(ステ
ップS105)。
【0028】図3は、分類モードおける処理手順図であ
る。ここでは、新規テキストの入力を契機にその新規テ
キストに出現する単語の種類及びその出現頻度に基づく
特徴ベクトルの抽出と、この特徴ベクトルに対する次元
削減が行われる(ステップS201〜S203)。処理
選択部14は、上述の処理が新規テキストに対して行わ
れていることを認識し、予め図2の処理手順で作成・保
存されている複数の参照プロファイルに上述のKL解析
を施してそれぞれ固有値及び固有ベクトルを算出し(ス
テップS204)、分類の際の参照基準となる部分空間
を求める。そして、各部分空間と分類対象ベクトルとを
照合することで新規テキストと最も類似する学習用テキ
ストのカテゴリを特定する。この場合の照合も図2と同
様の部分空間類別基準を用いることができる。本実施形
態では、参照プロファイルをもとに形成される複数の部
分空間に対する分類対象ベクトルの射影をそれぞれ算出
し、この算出値が最も大きい部分空間に対するカテゴリ
を新規テキストに付与する(ステップS205)。
【0029】図4は、適応学習モードにおける処理手順
図である。ここで「適応学習」とは、分類後のテキスト
群に対して、分類体系の変更が行われた場合に既存の参
照プロファイルを更新することをいう。この場合に用い
る分類体系変更テキストも上記学習用テキストと同様
に、変更された分類体系に即した各カテゴリ等の識別情
報がテキスト毎に付与されているものとする。この適応
学習モードの場合も、分類体系変更テキストの入力を契
機にその分類体系変更テキストに出現する単語の種類及
びその出現頻度に基づく特徴ベクトルの抽出と、この特
徴ベクトルに対する次元削減が行われる(ステップS3
01〜S303)
【0030】処理選択部14は、上述の処理が、分類体
系変更テキストに対して行われていることを認識し、相
関行列処理部15に、次元削減が施された特徴ベクトル
集合に基づく相関行列を再作成させる(ステップS30
4)。この場合の再作成は、例えば、ALSM(Averag
ed Learning Sub-space Method:平均的学習部分空間
法)の適応的な学習条件に基づいて行われる。
【0031】さらに、分類変更に関わる相関行列を再作
成された相関行列で更新するとともに(ステップS30
5)、更新された相関行列を参照プロファイル格納部1
6で再保存する(ステップS306)。このように、ス
テップS304で再作成される相関行列を用いて関連す
るカテゴリについての相関行列を更新することにより、
既存の分類表現や分類機構を変えることなく分類体系の
変更に迅速に対処できるようになる。
【0032】次に、前述の共用カテゴリについてより詳
細に説明する。共用カテゴリにおける分類及び更新も図
3及び図4の手順により行われる。共用カテゴリは、対
応する相関行列の各々の総和から適宜形成することがで
きる。この共用カテゴリの概念の導入により、カテゴリ
が新規に増える。
【0033】例えば、共用カテゴリ「政治」がカテゴリ
「選挙」及びカテゴリ「国会」の合成により設定されて
いる場合、まず、カテゴリ「選挙」及びカテゴリ「国
会」で新規テキストが各々分類される。一方、共用カテ
ゴリ「政治」には、カテゴリ「選挙」及びカテゴリ「国
会」の双方に分類されたテキスト群が重複して分類され
る。これらの分類結果は、それぞれ個別に文書データベ
ース19に蓄積される。共用カテゴリは、例えば、複数
のカテゴリについて検索することができるので、より効
率的な検索結果が得られるようになる。
【0034】次に、上記情報分類装置1における情報分
類方法を図5及び図6を参照して説明する。テキスト入
力部11を通じて入力された学習用テキスト、新規テキ
スト、または分類体系変更テキストから特徴ベクトル集
合を抽出し、その特徴ベクトル集合から次元削減の処理
を行う点については、前述のとおりである(ステップS
401〜S403)。
【0035】また、処理選択部14が選択したモードが
初期学習モードの場合に、学習用テキストに対応したカ
テゴリ毎の参照プロファイルが保存される点(ステップ
S405〜S406)、分類モードの場合に、部分空間
の射影を用いて新規テキストの分類が行われ、その結果
が文書データベース19に反映される点(ステップS4
12〜S413)、適応学習モードの場合に、分類体系
変更に関わるカテゴリについての相関行列を再作成する
ことで、既に保存されている参照プロファイルの自動更
新が行われる点(ステップS414〜S415)も既に
説明したとおりである。
【0036】情報分類装置1は、上記初期学習モード及
び適応学習モードにおける処理の終了後、分類条件とし
て共用カテゴリが設定されているかどうかを判定する
(ステップS407)。共用カテゴリが設定されている
場合は(ステップS407:Yes)、その共用カテゴリ
が既に存在しているかどうかを判定する。共用カテゴリ
が存在しない場合には(ステップS408:No)、共用
カテゴリ処理部17により、対応する共用カテゴリ及び
共用参照プロファイルを作成する(ステップS40
9)。一方、その共用カテゴリが既に存在している場合
には(ステップS408:Yes)、その共用カテゴリ及
び共用参照プロファイルを、作成または更新された参照
プロファイルの情報で自動更新する(ステップS41
0)。
【0037】さらに、上記ステップS407〜S410
の共用カテゴリに関する処理、及びステップS412〜
413の分類処理の終了後、入力すべき他のテキストが
あるか否かを判定し、テキストがある場合はステップS
401に戻り、同様の処理を繰り返す(ステップS41
1:Yes)。テキストが無い場合には(ステップS41
1:No)処理を終了する。
【0038】なお、本実施形態では、電子化情報の一例
としてテキスト(電子文書データ)を例に挙げて説明し
たが、他の種類の電子化情報でも同様にして情報分類が
可能である。
【0039】(第2実施形態)本発明は、通信回線とし
てインタネット等の公衆網を介して流通する大量の電子
化情報に対して自動的な情報分類を行うシステム、例え
ば、上記情報分類装置として機能する情報分類サーバ、
テキスト等を取得する情報取得装置として機能するクラ
イアントを配備した情報分類システムの形態で実施する
ことも可能である。
【0040】この場合の情報分類サーバは、例えば、イ
ンタネット環境上における複数の大規模なデータベース
を具備した各種情報提供サーバに対するサーチエンジン
として位置付けられる。その構成例としては、コンピュ
ータ装置の内部あるいは外部記憶装置に、上記文書デー
タベース19と同種のデータベースを構築し、公衆網を
介してクライアント及び上記各種情報提供サーバとの通
信を行う通信制御部を具備する。さらに上記情報分類装
置1と同様の機能ブロック、すなわち、テキスト入力部
11、特徴ベクトル抽出部12、次元処理部13、処理
選択部14、相関行列処理部15、参照プロファイル格
納部16、共用カテゴリ処理部17、類似度処理部1
8、を具備して構成する。
【0041】この情報分類サーバが上記情報分類装置1
と相違する点は、通信制御を行う公知の通信制御部を具
備する点であり、この通信制御部を介して流通する電子
化情報群をテキスト入力部11に入力するとともに、ク
ライアントからの分類要求を受け付けるように構成す
る。この分類要求には、例えば、分類対象となる新規電
子化情報を識別するための情報を用いれば良い。一方、
分類結果も同様に、通信制御部を介してクライアントに
送信できるように構成する。この場合の分類結果として
は、例えば、新規電子化情報の属するカテゴリ、あるい
は分類結果に係るすべて情報等を用いれば良い。
【0042】さらに、情報分類サーバは、例えば、イン
タネット環境におけるサーバのエージェント技術と融合
することにより、流通する大量の電子化情報群に対して
自動的な情報分類を行えるシステムの構築が可能にな
る。
【0043】このように、本実施形態では、電子化情報
に含まれる単語間の関連度が相対的に低い冗長な次元を
削除した特徴ベクトルに基づいて作成した相関行列を、
従来の参照ベクトルに代わる参照プロファイルとして使
用することにより、単語間の共起関係を考慮した分類が
可能になり、分類精度を従来手法に比べて格段に高める
ことができる。
【0044】また、分類体系であるカテゴリの概念的な
広がりを部分空間における次元数から把握することがで
き、さらに、既定の分類体系に変更が生じた場合でも、
適応的な学習機能により、該変更に対して迅速且つ容易
に対処できるようになる。
【0045】また、情報内容が複数のカテゴリに包含さ
れるような電子化情報、すなわちカテゴリの重複や統合
の余地がある電子化情報に対しても、相関行列の総和等
に基づいて共用カテゴリを形成して分類対象ベクトルと
の照合に用いることにより、特定のカテゴリに係る制約
に限定されることなく、カテゴリ間の関係を考慮した情
報分類が可能になる。
【0046】さらに、既存の複数の情報提供サービスシ
ステム等と独立して動作するシステムの構築や、既存シ
ステムへの組み込みも容易になる。
【0047】
【発明の効果】以上の説明から明らかなように、本発明
によれば、既定の分類体系に即した電子化情報の自動的
且つ柔軟な分類が可能になるとともに、分類精度を一定
値以上に維持できるという、優れた効果を奏することが
できる。また、本発明をネットワーク環境下で適用させ
ることにより、継続的に流入する大量の電子化情報群に
対して容易に目的の情報を特定することができるように
なり、利用者側の負荷及びコストの削減と、情報の有効
活用が促進される。このことから、アクセス効率及び実
用性が格段に向上するシステムの提供が可能になる、と
いう特有の効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報分類装置の機能
ブロック図。
【図2】初期学習モードにおける処理手順図。
【図3】分類モードにおける処理手順図。
【図4】適応学習モードにおける処理手順図。
【図5】本実施形態の情報分類装置による情報分類方法
の手順説明図。
【図6】本実施形態の情報分類装置による情報分類方法
の手順説明図。
【符号の説明】
1 情報分類装置 11 テキスト入力部 12 特徴ベクトル抽出部 13 次元処理部 14 処理選択部 15 相関行列処理部 16 参照プロファイル格納部 17 共用カテゴリ処理部 18 類似度処理部 19 文書データベース

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 属すべきカテゴリが既知の学習用電子化
    情報を、冗長な次元を削減したベクトル空間モデルとし
    て表現し、 カテゴリが不明な新規電子化情報が入力されたときに、
    当該新規電子化情報の特徴を表す分類対象ベクトルを生
    成するとともに、前記学習用電子化情報のベクトル空間
    に対する前記分類対象ベクトルの射影に基づいて前記学
    習用電子化情報と前記新規電子化情報との類似度を判定
    し、 この判定結果に基づいて前記新規電子化情報が属すべき
    カテゴリを決定することを特徴とする情報分類方法。
  2. 【請求項2】 既定のカテゴリの分類体系が変更された
    場合に、変更後の分類体系に関わるカテゴリに属するす
    べての電子化情報から前記ベクトル空間モデルの形成に
    用いる相関行列を作成し、この相関行列を前記変更後の
    分類体系に関わるカテゴリのベクトル空間モデルに反映
    させることを特徴とする請求項1記載の情報分類方法。
  3. 【請求項3】 相互に関連ある複数のベクトル空間モデ
    ルをグループ化して各ベクトル空間モデルと共用関係を
    なす共用ベクトル空間モデルとその共用ベクトル空間モ
    デルに対応する共用カテゴリとを形成し、前記共用ベク
    トル空間モデルに対する前記分類対象ベクトルの射影か
    ら前記新規電子化情報が前記共用カテゴリに属するかど
    うかの類似度判定を行うことを特徴とする請求項1記載
    の情報分類方法。
  4. 【請求項4】 属すべきカテゴリが既知の学習用電子化
    情報の分類体系に即して、カテゴリが不明な新規電子化
    情報の分類を行う装置であって、 入力された電子化情報の特徴をベクトル化するベクトル
    処理手段と、 前記ベクトル処理手段で抽出された、前記学習用電子化
    情報から次元が削除された特徴ベクトルの集合を取得し
    て、この特徴ベクトルの集合をもとにベクトル空間モデ
    ルの形成に用いる相関行列を作成する相関行列処理手段
    と、 前記ベクトル処理手段で抽出された、前記新規電子化情
    報の特徴を表す分類対象ベクトルを取得し、前記相関行
    列に基づいて形成される部分空間への前記取得した分類
    対象ベクトルの射影に基づいて前記学習用電子化情報と
    前記新規電子化情報との類似度を判定し、判定結果に基
    づいて前記新規電子化情報が属すべきカテゴリを決定す
    る手段と、 を有することを特徴とする情報分類装置。
  5. 【請求項5】 相互に関連する複数のカテゴリについて
    の前記相関行列を統合して統合前の前記相関行列と共用
    関係をなす共用相関行列、及びその共用相関行列に対応
    する共用カテゴリを作成する手段を有し、前記作成され
    た共用相関行列が前記特徴ベクトルと照合されるように
    構成されていることを特徴とする請求項4または5記載
    の情報分類装置。
  6. 【請求項6】 前記共用カテゴリに関連する少なくとも
    一つの相関行列が再作成されたときに、前記共用相関行
    列の自動更新を行う手段を有することを特徴とする請求
    項5記載の情報分類装置。
  7. 【請求項7】 既定の分類体系に従って電子化情報を分
    類して保持する装置であって、 入力された電子化情報の特徴をベクトル化するベクトル
    処理手段と、 前記ベクトル処理手段で抽出された、属すべきカテゴリ
    が既知の学習用電子化情報から冗長な次元が削除された
    特徴ベクトルの集合を取得し、この特徴ベクトルの集合
    をもとにベクトル空間モデルの形成に用いる相関行列を
    作成する相関行列処理手段と、 前記ベクトル処理手段で抽出された、新規電子化情報の
    特徴を表す分類対象ベクトルを取得するとともに、前記
    相関行列に基づいて形成される部分空間への前記取得し
    た分類対象ベクトルの射影に基づいて前記学習用電子化
    情報と前記新規電子化情報との類似度を判定し、判定結
    果に基づいて前記新規電子化情報が属すべきカテゴリを
    決定する手段と、 前記既定の分類体系が変更された場合に既に分類されて
    いるすべての電子化情報に対して、前記相関行列と同一
    形式の更新相関行列を前記変更に関わるカテゴリ毎に生
    成し、生成した更新相関行列を用いて対応カテゴリの相
    関行列を自動更新する手段と、 を有することを特徴とする情報分類装置。
  8. 【請求項8】 前記ベクトル処理手段は、入力された電
    子化情報の特徴を表す複数の特徴ベクトルに対して正規
    直交変換によるKL解析を施すことで前記冗長な次元を
    削減するように構成されていることを特徴とする請求項
    4または7記載の情報分類装置。
  9. 【請求項9】 請求項4ないし8のいずれかの項に記載
    された情報分類装置を電子化情報が流通する通信回線に
    接続し、前記通信回線を通じて取り込まれた前記電子化
    情報の情報分類を行うように構成された情報分類システ
    ム。
  10. 【請求項10】 前記情報分類装置は、エージェント手
    段を通じて取り込まれた前記電子化情報の情報分類を行
    うように構成されていることを特徴とする請求項9記載
    の情報分類システム。
JP32993497A 1997-12-01 1997-12-01 情報分類方法、装置及びシステム Expired - Fee Related JP3497713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32993497A JP3497713B2 (ja) 1997-12-01 1997-12-01 情報分類方法、装置及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32993497A JP3497713B2 (ja) 1997-12-01 1997-12-01 情報分類方法、装置及びシステム

Publications (2)

Publication Number Publication Date
JPH11161671A true JPH11161671A (ja) 1999-06-18
JP3497713B2 JP3497713B2 (ja) 2004-02-16

Family

ID=18226917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32993497A Expired - Fee Related JP3497713B2 (ja) 1997-12-01 1997-12-01 情報分類方法、装置及びシステム

Country Status (1)

Country Link
JP (1) JP3497713B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
WO2005033976A1 (en) * 2003-09-02 2005-04-14 Infoglide Software Corporation System and method for classification of documents
CN1327334C (zh) * 2001-11-08 2007-07-18 住友电气工业株式会社 文件分组装置
US7584157B2 (en) 2001-04-18 2009-09-01 Nec Corporation Method, device and computer program product for learning correlation matrix
KR20190102905A (ko) * 2018-02-27 2019-09-04 울산과학기술원 콘텐츠 평점 산출 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153063A (ja) * 1995-11-30 1997-06-10 Toshiba Corp 情報フィルタリング装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153063A (ja) * 1995-11-30 1997-06-10 Toshiba Corp 情報フィルタリング装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US7584157B2 (en) 2001-04-18 2009-09-01 Nec Corporation Method, device and computer program product for learning correlation matrix
CN1327334C (zh) * 2001-11-08 2007-07-18 住友电气工业株式会社 文件分组装置
US7283998B2 (en) 2002-09-03 2007-10-16 Infoglide Software Corporation System and method for classification of documents
WO2005033976A1 (en) * 2003-09-02 2005-04-14 Infoglide Software Corporation System and method for classification of documents
KR20190102905A (ko) * 2018-02-27 2019-09-04 울산과학기술원 콘텐츠 평점 산출 방법

Also Published As

Publication number Publication date
JP3497713B2 (ja) 2004-02-16

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
JP5037627B2 (ja) 顔認識を用いた画像の識別
WO1997049046A1 (en) Method and system for revealing information structures in collections of data items
Borra et al. Improving nonparametric regression methods by bagging and boosting
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
CN109214004B (zh) 基于机器学习的大数据处理方法
CN112035620B (zh) 医疗查询***的问答管理方法、装置、设备及存储介质
Gabryel et al. The image classification with different types of image features
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
CN109241298B (zh) 语义数据存储调度方法
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
JPH11161670A (ja) 情報フィルタリング方法、装置及びシステム
Eghbali et al. Online nearest neighbor search using hamming weight trees
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
JP3497713B2 (ja) 情報分類方法、装置及びシステム
Rashedi et al. Information fusion between short term learning and long term learning in content based image retrieval systems
US20230259761A1 (en) Transfer learning system and method for deep neural network
US20230071102A1 (en) Machine Learned Chart Recommendation System
Kiranyaz et al. Multi-dimensional evolutionary feature synthesis for content-based image retrieval
Sun Adaptation for multiple cue integration
Villegas-Cortez et al. Interest points reduction using evolutionary algorithms and CBIR for face recognition
KR20230140849A (ko) 영상 컨텐츠 추천 장치 및 방법
Al-Mofareji et al. WeDoCWT: A new method for web document clustering using discrete wavelet transforms
JP2005025465A (ja) 文書検索方法及び文書検索装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101128

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees