JPH11167581A - 情報分類方法、装置及びシステム - Google Patents

情報分類方法、装置及びシステム

Info

Publication number
JPH11167581A
JPH11167581A JP9334309A JP33430997A JPH11167581A JP H11167581 A JPH11167581 A JP H11167581A JP 9334309 A JP9334309 A JP 9334309A JP 33430997 A JP33430997 A JP 33430997A JP H11167581 A JPH11167581 A JP H11167581A
Authority
JP
Japan
Prior art keywords
category
text
word
learning
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9334309A
Other languages
English (en)
Other versions
JP3488063B2 (ja
Inventor
Masami Hara
正巳 原
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP33430997A priority Critical patent/JP3488063B2/ja
Publication of JPH11167581A publication Critical patent/JPH11167581A/ja
Application granted granted Critical
Publication of JP3488063B2 publication Critical patent/JP3488063B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 高精度なテキスト分類が可能な情報分類装置
を提供する。 【解決手段】 テキスト入力部11、単語処理部12、
ベクトル処理部13、学習特徴ベクトル集合ファイル1
4、類似度処理部15、カテゴリ決定部16を備え、外
部または内部に文書データベース17を具備して情報分
類装置1を構成する。単語処理部12では、学習テキス
トから抽出された各単語のカテゴリに対する重要度を単
語の出現件数及びカテゴリ頻度に基づいて算出する。類
似度処理部15では、当該重要度に基づいて算出された
学習特徴ベクトル及び学習特徴ベクトル集合と分類対象
テキストの特徴ベクトルとに基づいて類似度を算出す
る。カテゴリ決定部15では、算出値が最大となる類似
度から所定数の対応カテゴリを分類対象テキストのカテ
ゴリとして決定し、このカテゴリによって分類された分
類対象テキストが文書データベース17に蓄積されるよ
うにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語処理や情
報検索技術分野において、電子化されたテキスト群を効
率的に分類する情報分類手法に関する。
【0002】
【従来の技術】電子化情報の分類手法として、ベクトル
表現したカテゴリの特徴と未分類の電子化情報とを比較
することによりカテゴリを決定する手法が知られてい
る。以下、この手法の概要を説明する。前提条件とし
て、カテゴリの特徴を抽出するために利用する学習用電
子化情報(以下、学習テキスト)群には、予めN種類の
カテゴリC1,C2,…、CNが各々付与されているも
のとする。
【0003】まず、カテゴリCi(1≦i≦N)の特徴
を表す特徴ベクトルpiを作成するために、カテゴリC
iが付与されている学習テキスト群から単語を抽出す
る。そして、学習テキストにおける各単語の重要度をカ
テゴリ毎に決定する。重要度の決定方法としては、情報
検索の分野で提案されたTF・IDF法が広く知られて
いる(「Introduction to Modern Information Retriev
al:G.Salton著、McGraw-Hill」参照)。このTF・I
DF法における単語の重要度は、出現頻度tfと、出現
件数dfの逆数idfとを用いて定義される。具体的に
は、カテゴリCiにおける単語tkの重要度W(tk,
Ci)は、以下に示す式(1)で算出される。 W(tk,Ci)=tf(tk,Ci)log(Li/df(tk,Ci)+1) ・・・(1) ここでtf(tk,Ci)は、カテゴリCiにおける単
語tkの出現頻度を表し、またdf(tk,Ci)は、
カテゴリCiにおける単語tkの出現件数を表してい
る。一方、Liは、カテゴリCiにおける総テキスト件
数を表している。
【0004】次に、学習テキスト集合に出現するすべて
の単語t1,t2,〜,tMについて上記式(1)によ
りカテゴリCiにおける重要度を各々算出し、算出され
た各重要度を要素としたベクトルをカテゴリCiの特徴
ベクトルpiとする。未分類テキストTについても同様
に、特徴ベクトルqを算出する。この場合の特徴ベクト
ルの要素となる単語の重要度には、主に出現頻度tfが
用いられる。未分類テキストTにおけるカテゴリの決定
には、各カテゴリの特徴ベクトルpi(1≦i≦N)と
未分類テキストTの特徴ベクトルqとの類似度d(p
i,q)が用いられる。この類似度計算の代表的な例に
は、両ベクトルの内積を算出する方法や集合論的測度を
利用する方法等が知られており、「情報検索:伊藤哲朗
著、昭晃堂」に詳しく記述されている。
【0005】このように、カテゴリ毎に上述の類似度d
(pi,q)を算出して利用することにより、未分類テ
キストTと類似の度合いが近いカテゴリを複数選択して
分類先となるカテゴリを決定する。
【0006】
【発明が解決しようとする課題】上述のように、TF・
IDF法は、例えば検索語と検索データベース内のテキ
ストとを比較するためのベクトル作成に利用される手法
であり、出現頻度tfが大きいほど出現件数の逆数id
fが大きい、即ち出現件数dfが小さいほど重要度が高
くなるものである。
【0007】しかし、テキストの分類では、ベクトル作
成の対象となるテキスト群は、通常、同一カテゴリに属
しており、カテゴリを考慮しない情報検索とはテキスト
の特徴が異なったものとなる。そのため、カテゴリの特
徴となるような重要な単語(以下、特徴語)は、同一カ
テゴリに属するテキストに着目した場合には、多くのテ
キストに出現する、即ち出現件数dfが大きいことが考
えられる。このことは、出現件数dfの逆数を用いたi
dfを利用するTF・IDF法では、特徴語に低い重要
度を付与してしまう可能性があることを意味する。この
結果、TF・IDF法を利用して単語の重要度を決定す
ると、カテゴリの特徴を明確に表現した特徴ベクトルの
作成が困難となり、また、分類精度も低下してしまうと
いう問題があった。
【0008】一方、出現件数dfを利用する場合でも、
出現件数dfの多い単語群にはカテゴリに依存すること
なく出現する一般的な語(以下、一般語)も含まれてお
り、出現件数dfが多い語が必ずしも特徴語であるとは
いえない。このため、特徴語の重要度に出現件数df自
体が利用されることは殆どなかった。
【0009】そこで、本発明の課題は、学習テキストに
おけるカテゴリの特徴語となる単語の重要度を考慮する
ことにより、高精度の分類を可能にする新規な情報分類
方法を提供することにある。また、本発明の他の課題
は、上記情報分類方法の実施に適した情報分類装置、及
び情報分類システムを提供することにある。
【0010】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、属すべきカテゴリが既知の学習用テキス
トから単語を抽出し、抽出した単語毎に、その出現件数
及び出現するカテゴリ数に基づく重要度を算出するとと
もに、算出された重要度を要素としてカテゴリ毎の特徴
を表す学習特徴ベクトルを生成する過程と、カテゴリが
不明な分類対象テキストに対して当該分類対象テキスト
中の単語毎の出現頻度に基づく重要度を算出し、算出さ
れた重要度を要素としてテキスト毎の特徴を表す分類対
象特徴ベクトルを生成する過程と、分類対象特徴ベクト
ルと前記カテゴリ毎の学習特徴ベクトルとの類似度を判
定する過程とを含み、前記分類対象テキストとの類似度
が所定範囲内の学習特徴ベクトル、または類似度の高い
順に並べたときに上位から予め定めた件数以上の学習特
徴ベクトルに対応するカテゴリを当該分類対象テキスト
に付与すべきカテゴリ候補とする、情報分類方法を提供
する。
【0011】この情報分類方法において、前記学習特徴
ベクトルを生成する過程は、例えば、前記学習用テキス
ト中の単語の出現傾向に着目してカテゴリの特徴を表す
指標となる特徴語及びカテゴリに依存しない一般語を判
別し、前記単語の出現するカテゴリ数に基づいて前記一
般語の重要度を低減させることで前記特徴語の重要度が
相対的に高く反映された学習特徴ベクトルを生成するこ
とを特徴とする。
【0012】上記他の課題を解決する本発明の情報分類
装置は、1または複数のカテゴリが付与された学習用テ
キストの分類体系に即してカテゴリが不明な分類対象テ
キストに付与すべきカテゴリを決定して分類処理を行う
装置であって、以下の要素を備えて構成される。 (1)前記学習用テキスト及び分類対象テキストの各々
から単語を抽出するとともに抽出した単語毎の重要度を
算出する単語処理手段。この単語処理手段は、例えば、
前記学習用テキスト中の総カテゴリ数を特定の単語が出
現するカテゴリ数による除算に基づくカテゴリ頻度係数
を算出する手段を有し、特定のカテゴリに出現する単語
の出現件数と前記カテゴリ頻度係数との乗算により前記
学習用テキスト中の単語毎の重要度を算出するととも
に、出現件数が相対的に多く且つカテゴリへの依存が相
対的に少ない単語の重要度を低減させるように構成され
る。また、特定のカテゴリに出現する単語の出現件数と
前記カテゴリ頻度係数との乗算による算出値に、さらに
当該単語の出現頻度を乗算することにより前記学習用テ
キスト中の単語毎の重要度を算出するように構成され
る。あるいは、前記分類対象テキスト中の単語の出現頻
度を計測する手段を有し、出現頻度が低い単語ほど当該
分類対象テキスト中の重要度が高くするように構成され
る。 (2)前記単語毎の重要度を要素として、前記学習用テ
キストの特徴をカテゴリ毎に表現した学習特徴ベクト
ル、及び分類対象テキストの特徴をテキスト毎に表現し
た分類対象特徴ベクトルを生成するベクトル処理手段。 (3)個々の分類対象特徴ベクトルと前記学習特徴ベク
トルとの特徴差に基づいてカテゴリ毎の学習特徴ベクト
ルに対する前記分類対象特徴ベクトルの類似度を判定す
る類似度処理手段。この類似度処理手段は、例えば、個
々の学習特徴ベクトル及び分類対象特徴ベクトル間の内
積に基づいて両ベクトルの余弦を算出するとともに、こ
の余弦の算出値を所定順に整列して両ベクトルの特徴差
を定量化するように構成される。 (4)前記類似度処理手段による判定結果に基づいて、
前記分類対象テキストに付与すべきカテゴリを決定する
カテゴリ決定手段。
【0013】好ましくは、前記分類対象テキストに対す
る類似度が所定範囲内となる1または複数の学習特徴ベ
クトルに対応するカテゴリを視認可能にして提示する提
示手段をさらに備える。この場合、前記カテゴリ決定手
段は、前記提示手段による提示に対応して特定されたカ
テゴリを当該分類対象テキストに付与すべきカテゴリと
して決定するように構成する。
【0014】上記他の課題を解決する本発明の情報分類
システムは、上記本発明の情報分類装置と、通信回線を
介して流通する前記分類対象テキストを前記情報分類装
置に取り込むテキスト入力手段とを備えたことを特徴と
する。前記テキスト入力手段は、前記分類対象テキスト
をエージェント機能を通じて前記情報分類装置に入力す
るように構成することが望ましい。
【0015】
【発明の実施の形態】以下、図面を参照して本発明にお
ける実施の形態を詳細に説明する。 (第1実施形態)図1は、本実施形態による情報分類装
置の一実施形態を示す機能ブロック図である。本実施形
態の情報分類装置1は、スタンドアロン型コンピュータ
装置の内部あるいは外部記憶装置に構築される文書デー
タベース17と、上記コンピュータ装置が所定のプログ
ラムを読み込んで実行することにより形成される、テキ
スト入力部11、単語処理部12、ベクトル処理部1
3、学習特徴ベクトル集合ファイル14、類似度処理部
15、カテゴリ決定部16、を備えて構成される。
【0016】なお、上記プログラムは、通常、コンピュ
ータ装置の内部記憶装置あるいは外部記憶装置に格納さ
れ、随時読み取られて実行されるようになっているが、
コンピュータ装置とは分離可能な記録媒体、例えばCD
−ROMやFD等の可搬性記録媒体、あるいは当該コン
ピュータ装置と構内ネットワークに接続されたプログラ
ムサーバ等に格納され、使用時に上記内部記憶装置また
は外部記憶装置にインストールされて随時実行に供され
るものであってもよい。
【0017】文書データベース17は、電子化された複
数の文書データ(以下、テキスト)が蓄積されるもので
ある。このテキスト群は、予め蓄積された学習用のテキ
スト群(以下、学習テキスト)と、当該学習テキストに
対して新規に分類対象となる1または複数のテキスト
(以下、分類対象テキスト)の分類結果とが蓄積される
ように構成されている。
【0018】また、この学習テキストには、予めN種類
のカテゴリC1、C2、…、CNのいずれかがテキスト
毎に1または複数付与されているものとしている。カテ
ゴリが付与された学習テキストは単語処理部12に入力
される。
【0019】テキスト入力部11は、図示しない入力手
段により、分類対象テキストの入力を受け付けて単語処
理部12への入力を行うものである。単語処理部12
は、入力されたテキストに対して所定の形態素解析を施
して単語の抽出を行うとともに、抽出された複数の単語
に対して、各々、重要度を付与するものである。重要度
が付与された単語群は、特徴ベクトル処理部13に入力
される。なお、重要度の付与の仕方については後述す
る。
【0020】ベクトル処理部13は、単語処理部12で
付与された重要度を要素としてカテゴリ毎の特徴ベクト
ルまたは特徴ベクトル集合を抽出するものである。学習
テキストから抽出された場合の特徴ベクトル集合(以
下、学習特徴ベクトル集合)は、学習特徴ベクトル集合
ファイル14に入力されて保持され、分類対象テキスト
から抽出された特徴ベクトルは類似度処理部15に入力
されるようになっている。
【0021】類似度処理部15は、分類対象テキストに
対応する特徴ベクトルと、学習特徴ベクトル集合ファイ
ル14に対応する特徴ベクトル集合とに基づいて、分類
対象テキストの学習テキストに対する類似度をカテゴリ
毎に算出するものである。算出された類似度は、カテゴ
リ決定部16に入力される。なお、類似度算出処理につ
いては後述する。
【0022】カテゴリ決定部16は、算出されたカテゴ
リ毎の類似度に基づいて分類対象テキストに付与すべき
カテゴリを決定するものである。このカテゴリ決定部1
6は、例えば類似度が最大となるものから順次図示しな
いディスプレイ装置等を通じて利用者に提示し、この提
示に基づいて利用者から特定されたカテゴリを分類対象
テキストに付与すべきカテゴリとして決定するように構
成される。このようにすれば、利用者等が必要とする情
報に対して漠然としたイメージしか有していない場合で
あっても、類似度が高い方から低い方へ順に探索するこ
とで、必要な情報を容易に取得することが可能となる。
カテゴリ決定部16は、また、決定されたカテゴリを分
類対象テキストに付与して文書データベース17に送出
するように構成される。これにより、文書データベース
17は、分類対象テキストをカテゴリ毎に蓄積できるよ
うになる。
【0023】次に、本実施形態の情報分類装置1を用い
た情報分類方法を、学習テキスト及び分類対象テキスト
における重要度の付与、特徴ベクトルの作成、及び類似
度の判定の処理を中心に説明する。単語処理部12で
は、まず、学習テキストに出現する複数の単語tk(1
≦k≦M)を抽出し、カテゴリCi(1≦i≦N)に属
する学習テキストにおける単語tkの出現件数df(t
k,Ci)を算出する。この出現件数の算出は、抽出さ
れたすべての単語t1,t2,…,tMに対応する出現
件数df(t1,Ci),df(t2,Ci),…,d
f(tM,Ci)を各々算出するものである。
【0024】ここで、出現件数dfの大きい単語群は、
必ずしもカテゴリにおける重要な単語のみとなるもので
はなく、前述のように特徴語と一般語とが混在している
という問題がある。具体的には、特徴語は特定のカテゴ
リでのみ高い出現件数を表すのに対して、一般語は多く
のカテゴリで共通して高い出現件数を表すものと考えら
れる。そこで単語処理部12では、単語の一般性を判定
するために、カテゴリ頻度cfを定義する。例えば、す
べてのカテゴリ数Nにおいて特定の単語tkがn個のカ
テゴリに出現するような場合のカテゴリ頻度cf(t
k)は、n(n≦N)で表される。即ち、特定の単語が
出現するカテゴリ数を当該単語のカテゴリ頻度として定
義することができる。このカテゴリ頻度cf(tk)が
大きいほど、単語tkは、カテゴリへの依存の少ない一
般的な単語として特定可能となる。
【0025】次に、単語tkのカテゴリCiにおける重
要度W(tk,Ci)を、例えば、単語の出現件数d
f、及びカテゴリ頻度cfの逆数を利用した値icf
(カテゴリ頻度係数)を用いて、以下に示す式(2)及
び(3)のように定義する。 W(tk,Ci)=df(tk,Ci)×icf(tk) ・・・(2) icf(tk)=log(N/cf(tk)) ・・・(3) 出現件数df及びカテゴリ頻度cfに基づく上記式
(2)を用いることにより、出現件数dfの高い単語群
における一般的な単語の重要度を低減させることがで
き、また、特徴語となる単語に対してより高い重要度を
付与することが可能となる。図2に、単語の重要度算出
を表す概念図を示す。
【0026】なお、単語の重要度は、上記式(2)以外
にも、例えば、単語の出現頻度tfをさらに乗算する
等、従来手法により利用されているパラメータとの融合
により算出するように定義することもできる。
【0027】図3は、学習テキストに対応する特徴ベク
トルの抽出手順説明図である。学習テキストにおけるカ
テゴリCiの特徴ベクトルpiは、具体的には、上記式
(2)で定義した単語の重要度を各要素として、以下に
示す式(4)で算出することができる。 pi=(W(t1,Ci),W(t2,Ci),…,W(tM,Ci)) ・・・(4)
【0028】ベクトル処理部13では、上記式(4)に
基づいて、すべてのカテゴリC1、C2、…、CNにつ
いての特徴ベクトルp1,p2,…,pNを、出現件数
df及びカテゴリ頻度cfに基づいて各々算出する(ス
テップS101〜102)。これらのカテゴリ別の特徴
ベクトルから成る集合、即ち学習特徴ベクトル集合は、
学習特徴ベクトル集合ファイル17に保持される(ステ
ップS103)。
【0029】一方、未分類、即ちカテゴリが付与されて
いない分類対象テキストTにおける特徴ベクトルqは、
q=(W’(t1),W’(t2),…,W’(t
M))で算出される。ここで、W’(tk)は、分類対
象テキストTにおける単語tkの重要度であり、例え
ば、分類対象テキストT中における単語の出現頻度tf
等に基づいて算出されるものである。
【0030】この分類対象テキストTの特徴ベクトルq
を用いて、類似度処理部15では、学習テキストのカテ
ゴリに対する分類対象テキストTの類似度を算出する。
この類似度は、例えば、従来手法で採用されている公知
のベクトル間の内積を利用した以下の式(5)により算
出することができる。
【0031】
【数1】
【0032】上記式(5)における「d(pi,q)」
は、両特徴ベクトルのなす角の余弦を表しており、その
値は、「−1≦d(pi,q)≦1」の範囲となる。こ
の余弦d(pi,q)が大きいほど両特徴ベクトルの指
す方向が近い、換言すれば、分類対象テキストTがカテ
ゴリCiに属する可能性が高いことを意味する。この余
弦d(pi,q)が即ち類似度となるものであり、カテ
ゴリ決定部16では、分類対象テキストTと類似度が高
いと判定されるカテゴリから所定の順で分類先のカテゴ
リを決定する。
【0033】図4は、分類対象テキストの分類処理の手
順説明図である。なお、ここでは、学習テキストにおけ
る学習特徴ベクトル集合は既に抽出済みであり、学習特
徴ベクトル集合ファイル14に保持されているものとす
る。
【0034】分類対象テキストはテキスト入力部11を
介して単語処理部12に入力され、単語が抽出される。
そして、抽出された各単語の当該テキストにおける出現
頻度と、出現頻度に基づいた重要度とが算出される。ベ
クトル処理部13では、算出された各単語の重要度を要
素として、分類対象テキストの特徴ベクトルqを抽出す
る(ステップS201)。なお、分類対象テキストが複
数の場合には、テキスト毎に特徴ベクトルqが抽出され
る。類似度処理部15は、分類対象テキストの特徴ベク
トルqと学習特徴ベクトル集合ファイル14中の各特徴
ベクトルpiとの類似度Di(=d (ベクトルpi,ベ
クトルq))を、すべてのカテゴリについて各々算出す
る(ステップS202〜203)。
【0035】類似度Diが算出された後、カテゴリ決定
部16は、各類似度を算出値の大きさで降順に整列し
(ステップS204)、当該算出値が最大となるものか
ら所定数を選択して当該算出値に係るカテゴリ群を分類
対象テキストの属するカテゴリ候補として決定する。当
該算出値が所定範囲内となるカテゴリ群を当該分類対象
テキストに付与すべきカテゴリ候補とするようにしても
良い。これにより分類対象テキストは、当該カテゴリで
分類され(ステップS205)、文書データーベース1
7に蓄積される。なお、ステップS204〜205にお
けるカテゴリの決定は、類似度の算出値の大きさに着目
したものであるが、この例に限定することなく、カテゴ
リ決定に係る閾値を適宜設定して、決定すべきカテゴリ
を絞り込むように構成することも可能である。
【0036】このように、本実施形態の情報分類装置1
では、学習テキストにおける単語の重要度を決定する際
に、出現件数及びカテゴリ頻度(またはカテゴリ頻度係
数)を用いるようにしたので、カテゴリの特徴語となる
単語の候補を容易に選択できるようになった。
【0037】また、すべてのカテゴリに出現する単語の
割合を重要度に反映させるようにしたので、出現件数の
高い単語群における一般語の重要度を低減させ、一般語
よりも高い重要度を特徴語に対して付与することができ
るようになった。これにより、学習特徴ベクトルの品質
及び分類精度が大幅に向上した。
【0038】(第2実施形態)本発明は、インタネット
等の公衆網を介して流通する大量の電子化情報に対して
自動的な分類処理を行うシステム、例えば、上記情報分
類装置として機能するところの情報分類サーバ、情報取
得装置として機能するところのクライアント、を配備し
た情報分類システムの形態での実施も可能である。この
場合の情報分類サーバは、例えば、インタネット環境上
における複数の大規模なデータベースに対するサーチエ
ンジンとして位置付けられる。
【0039】この情報分類サーバは、第1実施形態の情
報分類装置1と同様、コンピュータ装置の内部あるいは
外部記憶装置に、上記文書データベース17と同一のデ
ータベースを構築し、公衆網を介してクライアントと通
信を行う通信制御部、を具備するとともに、上記情報分
類装置1と同様の機能ブロック、テキスト入力部11、
単語処理部12、特徴ベクトル処理部13、学習特徴ベ
クトル集合ファイル14、類似度処理部15、カテゴリ
決定部16、を具備して構成される(符号は図1に従っ
ている)。
【0040】この情報分類サーバが上記情報分類装置1
と相違する点は、通信制御を行う公知の通信制御部を具
備する点であり、この通信制御部を介して流通する電子
化情報群をテキスト入力部11に入力するとともに、ク
ライアントからの分類要求を受けるように構成する。こ
の分類要求には、例えば、分類対象となる電子化情報を
識別するための情報等を用いれば良い。分類結果も同様
に、通信制御部を介してクライアントに対して送信を行
うように構成することで代替が可能であり、上記情報分
類装置1と同等の効果を得ることができる。この場合の
分類結果としては、例えば、対象となるテキストの属す
るカテゴリを用いれば良い。
【0041】また、情報分類サーバへのテキスト手段と
して、インタネット環境下におけるエージェント機能を
用いることにより、流通する大量の電子化情報群に対し
て自動的な情報分類及び管理を行うことができるシステ
ム構築が可能となる。従って、例えばクライアント側の
利用者等が必要とするテキストに対して漠然としたイメ
ージしか有していない場合であっても、テキストの分類
に係る上位レベルから下位レベルへ順次分類処理を施
し、その経過を辿っていくことにより、必要な情報を容
易に取得することが可能となる。
【0042】
【発明の効果】以上の説明から明らかなように、本発明
によれば、学習特徴ベクトルを明確に表現できるので、
高精度の分類が可能となる。また、学習テキストにおけ
る既存の分類体系に則した本発明の分類処理を自動的に
行うことにより、利用者等が必要とする情報を容易に検
索して活用することが可能となる。さらに、本発明を情
報検索システム等に適合させた場合には、検索処理の効
率及び実用性が格段に向上するシステムの提供が可能と
なる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報分類装置におけ
る機能ブロック図。
【図2】単語の重要度算出を表す概念図。
【図3】学習特徴ベクトル集合作成における処理手順
図。
【図4】分類処理における処理手順図。
【符号の説明】
1 情報分類装置 11 テキスト入力部 12 単語処理部 13 特徴ベクトル処理部 14 学習特徴ベクトル集合ファイル 15 類似度処理部 16 カテゴリ決定部 17 文書データベース

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 属すべきカテゴリが既知の学習用テキス
    トから単語を抽出し、抽出した単語毎に、その出現件数
    及び出現するカテゴリ数に基づく重要度を算出するとと
    もに、算出された重要度を要素としてカテゴリ毎の特徴
    を表す学習特徴ベクトルを生成する過程と、 カテゴリが不明な分類対象テキストに対して当該分類対
    象テキスト中の単語毎の出現頻度に基づく重要度を算出
    し、算出された重要度を要素としてテキスト毎の特徴を
    表す分類対象特徴ベクトルを生成する過程と、 分類対象特徴ベクトルと前記カテゴリ毎の学習特徴ベク
    トルとの類似度を判定する過程とを含み、 前記分類対象テキストとの類似度が所定範囲内の学習特
    徴ベクトルに対応するカテゴリを当該分類対象テキスト
    に付与すべきカテゴリ候補とすることを特徴とする情報
    分類方法。
  2. 【請求項2】 前記分類対象テキストとの類似度の高い
    順に並べたときに上位から予め定めた件数以上の学習特
    徴ベクトルに対応するカテゴリを当該分類対象テキスト
    に付与すべきカテゴリ候補とすることを特徴とする請求
    項1記載の情報分類方法。
  3. 【請求項3】 前記学習特徴ベクトルを生成する過程
    は、 前記学習用テキスト中の単語の出現傾向に着目してカテ
    ゴリの特徴を表す指標となる特徴語及びカテゴリに依存
    しない一般語を判別し、前記単語の出現するカテゴリ数
    に基づいて前記一般語の重要度を低減させることで前記
    特徴語の重要度が相対的に高く反映された学習特徴ベク
    トルを生成することを特徴とする請求項1記載の情報分
    類方法。
  4. 【請求項4】 1または複数のカテゴリが付与された学
    習用テキストの分類体系に即してカテゴリが不明な分類
    対象テキストに付与すべきカテゴリを決定して分類処理
    を行う装置であって、 前記学習用テキスト及び分類対象テキストの各々から単
    語を抽出するとともに抽出した単語毎の重要度を算出す
    る単語処理手段と、 前記単語毎の重要度を要素として、前記学習用テキスト
    の特徴をカテゴリ毎に表現した学習特徴ベクトル、及び
    分類対象テキストの特徴をテキスト毎に表現した分類対
    象特徴ベクトルを生成するベクトル処理手段と、 個々の分類対象特徴ベクトルと前記学習特徴ベクトルと
    の特徴差に基づいてカテゴリ毎の学習特徴ベクトルに対
    する前記分類対象特徴ベクトルの類似度を判定する類似
    度処理手段と、 前記類似度処理手段による判定結果に基づいて、前記分
    類対象テキストに付与すべきカテゴリを決定するカテゴ
    リ決定手段と、 を備えることを特徴とする情報分類装置。
  5. 【請求項5】 前記単語処理手段は、前記学習用テキス
    ト中の総カテゴリ数を特定の単語が出現するカテゴリ数
    による除算に基づくカテゴリ頻度係数を算出する手段を
    有し、 特定のカテゴリに出現する単語の出現件数と前記カテゴ
    リ頻度係数との乗算により前記学習用テキスト中の単語
    毎の重要度を算出するとともに、出現件数が相対的に多
    く且つカテゴリへの依存が相対的に少ない単語の重要度
    を低減させるように構成されていることを特徴とする請
    求項4記載の情報分類装置。
  6. 【請求項6】 前記単語処理手段は、特定のカテゴリに
    出現する単語の出現件数と前記カテゴリ頻度係数との乗
    算による算出値に、さらに当該単語の出現頻度を乗算す
    ることにより前記学習用テキスト中の単語毎の重要度を
    算出するように構成されていることを特徴とする請求項
    4記載の情報分類装置。
  7. 【請求項7】 前記単語処理手段は、前記分類対象テキ
    スト中の単語の出現頻度を計測する手段を有し、出現頻
    度が低い単語ほど当該分類対象テキスト中の重要度が高
    くするように構成されていることを特徴とする請求項4
    記載の情報分類装置。
  8. 【請求項8】 前記類似度処理手段は、個々の学習特徴
    ベクトル及び分類対象特徴ベクトル間の内積に基づいて
    両ベクトルの余弦を算出するとともに、この余弦の算出
    値を所定順に整列して両ベクトルの特徴差を定量化する
    ように構成されていることを特徴とする請求項4記載の
    情報分類装置。
  9. 【請求項9】 前記分類対象テキストに対する類似度が
    所定範囲内となる1または複数の学習特徴ベクトルに対
    応するカテゴリを視認可能にして提示する提示手段をさ
    らに備え、 前記カテゴリ決定手段は、前記提示手段による提示に対
    応して特定されたカテゴリを当該分類対象テキストに付
    与すべきカテゴリとして決定するように構成されている
    ことを特徴とする請求項4記載の情報分類装置。
  10. 【請求項10】 請求項4ないし9のいずれかの項に記
    載された情報分類装置と、通信回線を介して流通する前
    記分類対象テキストを前記情報分類装置に取り込むテキ
    スト入力手段とを備えたことを特徴とする情報分類シス
    テム。
  11. 【請求項11】 前記テキスト入力手段は、前記分類対
    象テキストをエージェント機能を通じて前記情報分類装
    置に入力するように構成されていることを特徴とする情
    報分類システム。
JP33430997A 1997-12-04 1997-12-04 情報分類方法、装置及びシステム Expired - Fee Related JP3488063B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33430997A JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33430997A JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Publications (2)

Publication Number Publication Date
JPH11167581A true JPH11167581A (ja) 1999-06-22
JP3488063B2 JP3488063B2 (ja) 2004-01-19

Family

ID=18275918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33430997A Expired - Fee Related JP3488063B2 (ja) 1997-12-04 1997-12-04 情報分類方法、装置及びシステム

Country Status (1)

Country Link
JP (1) JP3488063B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
JP2003510689A (ja) * 1999-09-24 2003-03-18 フランス テレコム ドキュメントをテーマ別に分類する方法、テーマ別分類モジュールおよび斯かるモジュールを取入れた検索エンジン
JP2003526140A (ja) * 1999-08-06 2003-09-02 レキシス ネクシス 法律トピック体系を使用して法律概念を分類するシステム及び方法
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2005235065A (ja) * 2004-02-23 2005-09-02 Ntt Data Corp 情報検索装置
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2006286026A (ja) * 2006-07-28 2006-10-19 Nec Corp 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
WO2010061535A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP2015079382A (ja) * 2013-10-17 2015-04-23 日本電信電話株式会社 文書分類装置、文書分類方法および文書分類プログラム
JP2017156952A (ja) * 2016-03-01 2017-09-07 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、およびプログラム
JP2018116662A (ja) * 2017-01-20 2018-07-26 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
US10353925B2 (en) 2012-12-21 2019-07-16 Fuji Xerox Co., Ltd. Document classification device, document classification method, and computer readable medium
US11797592B2 (en) 2020-06-12 2023-10-24 Panasonic Intellectual Property Management Co., Ltd. Document classification method, document classifier, and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4970301B2 (ja) * 2008-02-08 2012-07-04 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110948A (ja) * 1992-08-20 1994-04-22 Us Government 文献を識別し、検索し、分類する方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110948A (ja) * 1992-08-20 1994-04-22 Us Government 文献を識別し、検索し、分類する方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003526140A (ja) * 1999-08-06 2003-09-02 レキシス ネクシス 法律トピック体系を使用して法律概念を分類するシステム及び方法
JP2003510689A (ja) * 1999-09-24 2003-03-18 フランス テレコム ドキュメントをテーマ別に分類する方法、テーマ別分類モジュールおよび斯かるモジュールを取入れた検索エンジン
JP4718076B2 (ja) * 1999-09-24 2011-07-06 フランス・テレコム ドキュメントをテーマ別に分類する方法、ドキュメントをテーマ別に分類するコンピュータ、ドキュメントをテーマ別に分類するコンピュータの用法及び検索エンジンコンピュータ
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
US6876990B2 (en) 2000-03-15 2005-04-05 Nec Corporation Questionnaire analysis system
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2005235065A (ja) * 2004-02-23 2005-09-02 Ntt Data Corp 情報検索装置
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP2006286026A (ja) * 2006-07-28 2006-10-19 Nec Corp 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP4539616B2 (ja) * 2006-07-28 2010-09-08 日本電気株式会社 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
WO2010061535A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体
JP5516416B2 (ja) * 2008-11-28 2014-06-11 日本電気株式会社 情報検索装置、情報検索方法、及びプログラム
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
US10353925B2 (en) 2012-12-21 2019-07-16 Fuji Xerox Co., Ltd. Document classification device, document classification method, and computer readable medium
JP2015079382A (ja) * 2013-10-17 2015-04-23 日本電信電話株式会社 文書分類装置、文書分類方法および文書分類プログラム
JP2017156952A (ja) * 2016-03-01 2017-09-07 Necパーソナルコンピュータ株式会社 情報処理システム、情報処理方法、およびプログラム
JP2018116662A (ja) * 2017-01-20 2018-07-26 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
US11797592B2 (en) 2020-06-12 2023-10-24 Panasonic Intellectual Property Management Co., Ltd. Document classification method, document classifier, and recording medium

Also Published As

Publication number Publication date
JP3488063B2 (ja) 2004-01-19

Similar Documents

Publication Publication Date Title
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN112100529B (zh) 搜索内容排序方法、装置、存储介质和电子设备
US8001152B1 (en) Method and system for semantic affinity search
JPH11167581A (ja) 情報分類方法、装置及びシステム
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及***
EP2045739A2 (en) Modeling topics using statistical distributions
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
EP2045737A2 (en) Selecting tags for a document by analysing paragraphs of the document
EP2045740A1 (en) Recommending terms to specify ontology space
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN111475725B (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
JP2001202523A (ja) 画像処理方法及びその装置
CN109063171B (zh) 基于语义的资源匹配方法
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
JPH11110409A (ja) 情報分類方法及び装置
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN117763076A (zh) 基于云计算的档案检索方法及***
CN106294784B (zh) 资源搜索方法及装置
CN110688559A (zh) 一种检索方法及装置
CN111723296B (zh) 搜索处理方法、装置及计算机设备
Pomp et al. Enhancing Knowledge Graphs with Data Representatives.
CN112765311A (zh) 一种裁判文书的搜索方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101031

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees