JP2004348523A - 文書フィルタリングシステムとプログラム - Google Patents

文書フィルタリングシステムとプログラム Download PDF

Info

Publication number
JP2004348523A
JP2004348523A JP2003145930A JP2003145930A JP2004348523A JP 2004348523 A JP2004348523 A JP 2004348523A JP 2003145930 A JP2003145930 A JP 2003145930A JP 2003145930 A JP2003145930 A JP 2003145930A JP 2004348523 A JP2004348523 A JP 2004348523A
Authority
JP
Japan
Prior art keywords
keyword vector
document
mail
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003145930A
Other languages
English (en)
Inventor
Shunsuke Doi
俊介 土井
Yuki Yoshida
由紀 吉田
Takeshi Tono
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003145930A priority Critical patent/JP2004348523A/ja
Publication of JP2004348523A publication Critical patent/JP2004348523A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】不要メールと必要メールとの判別等、文書の選別を高精度に行うことを可能とする。
【解決手段】メールフィルタリング装置1では、入力されたメール文書の選別を行う際、形態素解析部1bにより、入力されたメール文書を形態素解析してキーワードの集合にし、キーワードベクトル生成部1cにより、このキーワードの集合から当該メール文書の特徴を表す入力キーワードベクトルSを生成し、キーワードベクトル類似度算出部1dにより、予めキーワードベクトル生成装置5で生成され辞書として記憶装置に記憶された参照用のキーワードベクトルBを読み出し、この参照キーワードベクトルBと入力キーワードベクトルSとの類似度p1を算出し、判別部1eにより、この類似度p1に基づき当該メール文書を不要か必要かを判定条件13を参照して判定して選別する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、インターネットから受信した電子メールが不要メールか必要メールか等、文書の選別を行う技術に係わり、特に、高精度な選別を行うのに好適な文書フィルタリング技術に関するものである。
【0002】
【従来の技術】
近年、インターネット等のネットワークにおける電子メールの普及とブロードバンド化に伴い、受信者が不要と感じる迷惑メールや広告メールが無差別に送られてくることが多くなっている。
【0003】
このような不要メールは、電子メールの送信者のアドレスや件名、本文に指定した文字列を含む・含まないといった条件を指定することで、メールソフトやプロバイダのメールサーバにて、メール受信時に不要メールと必要メールを判別し、不要メールを自動で削除したり、分別するといった処理が行われている。
【0004】
しかし、これらの技術では、予め不要メールと考えられるメールアドレスや、受信条件を指定していても、その指定した条件に当てはまらない不要メールは処理されない問題点がある。
【0005】
また、特許文献1に記載の「通信サービスにおけるユーザフィルタリングシステム及び方法」では、受信したメールが不要メールであると、ネットワーク上の発信者評価パラメータ記憶装置に発信者の評価ポイントを下げて登録する。
【0006】
そして、別途、メール受信時に、このメールの発信者のアドレスをキーにして、ネットワーク上の発信者評価パラメータ記憶装置の発信者の評価ポイントを検索し、メールの発信者のアドレスの評価ポイントが下げられて登録されている場合は、不要メールであると判別して、受信しないなどの処理を行っている。
【0007】
しかし、この技術では、送信者が毎回異なる架空のアドレスを用いている場合は、送信者のアドレスで判別できないという問題が発生する。
【0008】
また、特許文献2に記載の「文書分類装置」では、文書データの解析を行い、特徴ベクトルを自動的に抽出して、類似した文書を自動的に分類することを行っており、メール受信時に前記装置を用いることで、メールの自動分類は可能となる。
【0009】
しかし、この技術では、類似した特徴をもった文章が分類されるだけで、その分類が不要メールであるかは人間が判断をしなければいけない。また、必要メールと似た単語を用いて記述されたメールは、誤分類される可能性が大きいといった問題点がある。
【0010】
【特許文献1】
特開2003−18324号公報
【特許文献2】
特許第2978044号
【0011】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、例えば電子メールに関して、不要メールを判別するために、メールの送信者のアドレスや件名、本文に指定した文字列を含む/含まないといった条件を指定することで、不要メールと必要メールを判別していたが、未知の不要メールは上記条件指定で判別できない場合があるとの間題点と、他者の評価ポイント情報によって不要メールの送信者を判別できるようになっても、送信者を偽ることで不要メールが判別できないという問題点と、メール本文の特徴ベクトルで分類する場合、必要メールと似た単語を用いて記述がされたメールは、誤分類される可能性が大きいという問題点である。
【0012】
本発明の目的は、これら従来技術の課題を解決し、不要メールと必要メールとの判別等、文書の選別を高精度に行うことを可能とすることである。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明は、電子メールを例とすると、受信メールから生成したキーワードベクトルSと、例えば予め不要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルBとの類似度や、必要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルWとの類似度を用いて不要メールか必要メールかを判別することで、不要メールの文面が未知であっても、キーワードベクトルの類似度によって不要メールか否かを判別することを特徴とする。詳細には、▲1▼電子メールを受信して当該メールが不要メールか否かを判別するメールフィルタリング装置において、予めキーワードベクトルBが記憶されているキーワードベクトル辞書Bをネットワーク上もしくはローカルに具備し、電子メールを受信する受信部と、受信メールの文面を形態素解析し、キーワードの集合にする形態素解析部と、形態素解析後のキーワード集合からキーワードベクトルSを生成するキーワードベクトル生成部と、生成したキーワードベクトルSと、キーワードベクトル辞書から取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1の大きさによって、必要メール、不要メールかを判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。▲2▼または、電子メールを受信して当該メールが不要メールか否かを判別するメールフィルタリング装置において、予めキーワードベクトルBが記憶されているキーワードベクトル辞書、および、予めキーワードベクトルWが記憶されているキーワードベクトル辞書をネットワーク上もしくはローカルに具備し、電子メールを受信する受信部と、メールの文面を形態素解析し、キーワードの集合にする形態素解析部と、形態素解析後のキーワード集合からキーワードベクトルSを生成するキーワードベクトル生成部と、生成したキーワードベクトルSと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成したキーワードベクトルSと、キーワードベクトル辞書Wから取得したキーワードベクトルWとで内積や余弦等の類似度を算出する演算を行い、類似度p2を算出するキーワードベクトル類似度算出部と、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1とp2の大きさによって、必要メール、不要メールかを判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。▲3▼また、▲1▼のメールフィルタリング装置であって、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Wから取得したキーワードベクトルWとで積集合演算(S∩W)を行い、キーワードベクトルSからキーワードベクトル(S∩W)を除いたキーワードベクトルSb(=S−(S∩W))を生成するキーワードベクトルフィルタリング部を具備し、生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成した類似度p1を判別部への入力として処理を継続する。▲4▼また、▲2▼のメールフィルタリング装置であって、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Wから取得したキーワードベクトルWとで積集合演算(S∩W)を行い、キーワードベクトルSからキーワードベクトル(S∩W)を除いたキーワードベクトルSb(=S−(S∩W))を生成するキーワードベクトルフィルタリング部を具備し、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Bから取得したキーワードベクトルBとで積集合演算(S∩B)を行い、キーワードベクトルSからキーワードベクトル(S∩B)を除いたキーワードベクトルSw(=S−(S∩B))を生成するキーワードベクトルフィルタリング部を具備し、生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成したキーワードベクトルSwと、キーワードベクトル辞書Wから取得したキーワードベクトルWとで内積や余弦等の類似度を算出する演算を行い、類似度p2を算出するキーワードベクトル類似度算出部と、生成した類似度p1、p2を判別部への入力として処理を継続する。▲5▼また、▲1▼〜▲4▼におけるメールフィルタリング装置であって、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1(とp2)の大きさによって、必要メール、不要メール、それ以外の3つに判別する判別部と、「それ以外」と判別された場合、演算部。算出部の処理を継続して処理を繰り返し、最終段階では、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1(とp2)の大きさによって、必要メール、不要メールのいずれか2つに判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。尚、▲5▼では、演算部。算出部の処理を多段構成で用いるが、各演算部。算出部で用いる、キーワードベクトルB、キーワードベクトルWは、各段によって、置き換えても良い。また、キーワードベクトルBを複数用いる場合であっても、内容が同一のキーワードベクトルBであっても、それぞれ内容が異なるキーワードベクトルBであっても良い。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0015】
図1は、本発明に係わる文書フィルタリングシステムの第1の構成例を示すブロック図であり、図2は、図1における文書フィルタリングシステムを用いたメール配信サービスシステムの構成例を示すブロック図である。
【0016】
図2において、1は本発明の文書フィルタリングシステムとしてのメールフィルタリング装置、2はメールサーバ装置(図中「メールサーバ」と記載)、3はメールクライアント装置(図中「メールクライアント」と記載)、4はメールクライアント装置の利用者、5は本発明に係わるキーワードベクトル辞書を生成するキーワードベクトル生成装置、6a〜6dはインターネットやイントラネット等からなるIPネットワークであり、本例では、選別対象の文書として電子メールを例に説明する。
【0017】
メールフィルタリング装置1、メールサーバ装置2、メールクライアント装置3、キーワードベクトル生成装置5のそれぞれは、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置からなるコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各処理機能を実行する。
【0018】
メールフィルタリング装置1は、メールサーバ装置2や図示していないメール記憶ディスク等からメールを受信する。また、メールフィルタリング装置1は、キーワードベクトル生成装置5からキーワードベクトルを取得し、不要メールであるか必要メールであるかを判別し、不要メールであると判断した場合、メールサーバ装置2からの当該メールを削除したり、当該メールの内容を書き換えたり、メールクライアント装置3に渡さない、等の処理を行う。
【0019】
また、必要メールであると判断した場合、メールサーバ装置2からの当該メールを削除せず、当該メールをメールクライアント装置3に渡す等の処理を実施する。
【0020】
尚、本例では、キーワードベクトル生成装置5は、メールクライアント装置3からメールを受信し、この受信メールを用いてキーワードベクトルを生成して、キーワードベクトル辞書に格納し、メールフィルタリング装置1に提供する。
【0021】
尚、このキーワードベクトル生成装置5は、複数あってもよく、例えば、不要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「不要メール」のみを受け付けるキーワードベクトル生成装置であったり、必要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「必要メール」のみを受け付けるキーワードベクトル生成装置であったり、プライベートに必要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「プライベートな必要メール」のみを受け付けるキーワードベクトル生成装置であったり、プライベートに不要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「プライベートな不要メール」のみを受け付けるキーワードベクトル生成装置であっても良い。
【0022】
あるいは、キーワードベクトル生成装置5は1つとし、1つのキーワードベクトル生成装置5で、上述の「不要メール」、「必要メール」、「プライベートな必要メール」、「プライベートな不要メール」を基に、各キーワードベクトルを生成して個別のキーワードベクトル辞書に分けて格納する構成としても良い。
【0023】
また、キーワードベクトル生成装置5にむけて送信されるメールは、メールフィルタリング装置1を経由して取得したメールであっても、通常のメールであっても良い。
【0024】
以下、図1に示すメールフィルタリング装置の詳細を説明する。
【0025】
図1に示すようにメールフィルタリング装置1は、コンピュータのプログラムに基づく実行機能として処理を行う受信部1a、形態素解析部1b、キーワードベクトル生成部1c、キーワードベクトル類似度算出部1d、判定部1e、必要メール処理部1f、不要メール処理部1gを具備する。
【0026】
本例では、受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる機能ブロックをキーワードベクトル生成ブロック10、キーワードベクトル類似度算出部1dからなる機能ブロックを演算処理ブロック11とする。
【0027】
このような構成において、メールフィルタリング装置1は、その受信部1aにおいて、メール12を受信し、受信したメールに対して、形態素解析部1bによって、キーワードの集合に分ける。この際、形態素解析部1bでは、例えば「茶せん」(http://chasen.asit−nara.ac.jp/で入手可能)といった形態素解析ツールを用いることができる。
【0028】
キーワードベクトル生成部1cにおいては、形態素解析部1bで生成されたキーワード集合から、それに重みを付与したキーワードベクトルSを生成する。尚、この重みの付与については、キーワード集合の同一のキーワードの出現回数の値で重みを付与したり、出現の有無で「0」または「1」を付与したり、出現回数に変換式をかけた値であっても良い。
【0029】
例えば、「From okakko@jp こんにちわ お元気ですか? 今日はもう退社ですか?」とのメールを形態素解析した場合、「From/okakko/@/jp/こんにちわ/お/元気/です/か/?/今日/は/もう/退社/です/か/?」と17個のキーワードに分割され、これらを出現の有無で「0」または「1」の重みを付与して同じキーワードが出現した場合は重複しないようにして、キーワードベクトルを生成した場合、下記のようになる。
【0030】
(キーワード) (重み)
From 「1」
okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
です 「1」
か 「1」
? 「1」
今日 「1」
は 「1」
もう 「1」
退社 「1」
【0031】
このように、14のキーワード要素からなるキーワードベクトルSが生成される。尚、この分割結果例は、形態素解析ツールの種別によって異なる。
【0032】
キーワードベクトル類似度算出部1dにおいては、図2のキーワードベクトル生成装置5から提供されるキーワードベクトル辞書BからキーワードベクトルBを取得し、このキーワードベクトルBと、キーワードベクトル生成部1cで生成したキーワードベクトルSとの類似度の算出演算を行う。
【0033】
例えば、不要メールを元にして生成されたキーワードベクトルBは下記の通りとする。
【0034】
(キーワード) (重み)
From 「1」
Spam 「1」
@ 「1」
jp 「1」
net 「1」
未 「1」
承諾 「1」
販売 「1」
限定 「1」
アダルト 「1」
激安 「1」
必見 「1」
お 「1」
は 「1」
! 「1」
【0035】
この場合、キーワードベクトルSとキーワードベクトルBとの類似度をキーワードベクトル同士の内積で算出し、形態素解析で分割されたキーワード数で正規化した場合、以下のように類似度p1が得られる。
【0036】
p1={(S・B)/(キーワード数)}=4/17=0.235
【0037】
尚、ここで、キーワード数で正規化を行わずに、類似度p1=(S・B)で導出しても良い。
【0038】
判別部1eでは、キーワードベクトル類似度算出部1dで算出した類似度p1と、予め設定された判別条件13を用いて、当該受信メールが不要メールか必要メールかを判別して選別する。
【0039】
判別条件13の一例としては、例えば、「予めしきい値n1を定めておき、類似度p1がしきい値n1を越えれば不要メール、類似度p1がしきい値n1を越えなければ必要メール」といったものが用いられる。
【0040】
上述の例で、しきい値n1として「0.700」が設定されていた場合、類似度p1は「0.235」であり、「p1<n1」となり、必要メールであると判断される。
【0041】
このように必要メールと判断された場合には、必要メール処理部1fにおいて、メールサーバ装置(2)からの当該メールを取得して削除せず、メールクライアント装置(3)に渡す等の処理を行う。
【0042】
また、不要メールであると判断された場合には、不要メール処理部1gにおいて、メールサーバ装置(2)からの当該メールを削除したり、当該メールの内容を書き換えたり、メールクライアント装置(3)に渡さない等の処理を行う。
【0043】
このように本例のメールフィルタリング装置1では、入力されたメール文書の選別を行う際、形態素解析部1bにより、入力されたメール文書を形態素解析してキーワードの集合にし、キーワードベクトル生成部1cにより、このキーワードの集合から当該メール文書の特徴を表す入力キーワードベクトルSを生成し、キーワードベクトル類似度算出部1dにより、予めキーワードベクトル生成装置5で生成され辞書として記憶装置に記憶された参照用のキーワードベクトルBを読み出し、この参照キーワードベクトルBと入力キーワードベクトルSとの類似度p1を算出し、判別部1eにより、この類似度p1に基づき当該メール文書を不要か必要かを判定条件13を参照して判定して選別する。
【0044】
特に、本例では、参照キーワードベクトルBは、不要とされる文書の特徴を表しており、判別部1eでは、類似度p1が予め定められた条件値より大きければ、参照キーワードベクトルBの特徴と類似しており、当該メール文書を不要メール文書として選別する。このようにして、本例では、不要メールと同様の特徴をもったメールを不要メールであると判別することが可能となる。
【0045】
図3は、本発明に係わる文書フィルタリングシステムの第2の構成例を示すブロック図である。
【0046】
図3に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置31も、図1におけるメールフィルタリング装置1と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトル類似度算出部1dとキーワードベクトル類似度算出部1hからなる演算処理ブロック11a、判定部31e、必要メール処理部1f、不要メール処理部1gを具備する。
【0047】
このような構成において、メールフィルタリング装置31は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0048】
そして、本例の演算処理ブロック11aでは、キーワードベクトル類似度算出部1dにおいて、キーワードベクトル辞書Bを用いて参照キーワードベクトルBと入力キーワードベクトルSの類似度を算出すると共に、キーワードベクトル類似度算出部1hにおいては、キーワードベクトル辞書Wを用いて参照キーワードベクトルWと入力キーワードベクトルSの類似度を算出する。
【0049】
そして、判別部31eでは、キーワードベクトル類似度算出部1dにおいて算出した類似度p1とキーワードベクトル類似度算出部1hにおいて算出した類似度p2との2つを用いて、判別条件33に基づく受信メール文書の要否を判別・選別を行う。
【0050】
判別条件33の一例をあげると、「予めαを定めておき、p1+α>p2ならば不要メール、そうで無いならば必要メール」といった条件が挙げられる。例えば、「類似度p1=0.235」、「類似度p2=0.500」の場合で、α値を「−0.100」と予め設定している場合、「0.235−0.100<0.500」となり、必要メールであると判断する。
【0051】
あるいは、判別条件33として、他に一例をあげると、「(p1/β)>p2ならば不要メール、そうで無いならば必要メール」と言った具合に、倍率βで条件を設定することもできる。この場合、前述のように「類似度p1=0.235」、「類似度p2=0.500」、β値を「0.5」と予め設定していれば、「0.235/0.5<0.500」となり、必要メールであると判断する。
【0052】
ここで、必要メールと判断すると必要メール処理部1fが、また、不要メールと判断すると不要メール処理部1gが実行される。
【0053】
このように本例のメールフィルタリング装置31では、入力されたメール文書の選別を行う際、キーワードベクトル類似度算出部1dにより参照キーワードベクトルBと入力キーワードベクトルSとの類似度p1を算出すると共に、キーワードベクトル類似度算出部1hにより参照キーワードベクトルWと入力キーワードベクトルSとの類似度p2を算出し、判別部31eにおいては、類似度p1および類似度p2に基づき、当該メール文書の要否を判定して選別する。
【0054】
また、一例として、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、判別部31eは、類似度p1が予め定められた条件値T1より大きく且つ類似度p2が予め定められた条件値T2より小さければ当該メール文書を不要文書として選別し、類似度p1が条件値T1より小さく且つ類似度p2が条件値T2より大きければ当該メール文書を必要文書として選別する。
【0055】
このことにより、本図3の例のメールフィルタリングシステムによれば、図1の構成例のメールフィルタリングシステムの有する問題点を解決できる。すなわち、図1の例では、判断部1eは、キーワードベクトルSとキーワードベクトルBとの類似度p1単独で、不要メールか必要メールかを判断しているため、本当は、キーワードベクトルSとキーワードベクトルWとの類似度の方が大きい場合であっても、類似度p1が不要メールの条件に合致すれば、不要メールとされてしまう問題があった。しかし、本図3の構成では、判断部31eは、類似度p1と類似度p2の2つの値の関係から不要メール、必要メールを判断しており、このような問題は解決する。
【0056】
図4は、本発明に係わる文書フィルタリングシステムの第3の構成例を示すブロック図である。
【0057】
図4に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置41も、図1および図3におけるメールフィルタリング装置1,31と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトルフィルタリング部1iとキーワードベクトル類似度算出部1jからなる演算処理ブロック11b、判定部41e、必要メール処理部1f、不要メール処理部1gを具備する。
【0058】
このような構成において、メールフィルタリング装置41は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0059】
そして、本例の演算処理ブロック11bでは、まず、キーワードベクトルフィルタリング部1iにおいて、入力キーワードベクトルSからキーワードベクトル辞書W45に格納された参照キーワードベクトルWの成分を除く処理を行う。
【0060】
例えば、受信メールのキーワードベクトルSとキーワードベクトルWとの積集合(S∩W)を、キーワードベクトルSから引くことで、キーワードベクトルWの成分を除いたキーワードベクトルSb(=S−S∩W)を生成する。
【0061】
そして、キーワードベクトル類似度算出部1jにおいて、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbと、キーワードベクトル辞書B44に格納されたキーワードベクトルBとの類似度p1を算出し、判別部41eにおいて、判別条件43に基づき不要メールか必要メールかを判別して選別を行う。
【0062】
例えば、図1の説明で例示した入力キーワードベクトルSの場合、このキーワードベクトルSと参照キーワードベクトルWとの積集合「S∩W」は、下記の通りとなる。
【0063】
(キーワード) 重み
From 「1」
Okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
つ 「1」
は 「1」
【0064】
そして、「S−(S∩W)」は下記の通りとなる。
【0065】
(キーワード) (重み)
です 「1」
か 「1」
今日 「1」
もう 「1」
退社 「1」
【0066】
これがキーワードベクトルSbとなる。
【0067】
そして、このキーワードベクトルSbとキーワードベクトル辞書Bとの類似度を、図1の説明の例と同様にして計算した場合、「p1={(Sb・B)/(キーワード数)}=0/17=0.000」が得られる。
【0068】
このように本例のメールフィルタリング装置41では、入力されたメール文書の選別を行う際、キーワードベクトル生成ブロック10で生成された入力キーワードベクトルSに対して、キーワードベクトルフィルタリング部1iにおいて、予めキーワードベクトル辞書W45として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと入力キーワードベクトルSとの積集合演算(S∩W)を行い、この積集合演算(S∩W)結果を入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成し、キーワードベクトル類似度算出部1jにおいて、予めキーワードベクトル辞書B44として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbとの類似度p1を算出し、判別部41eにより、この類似度p1に基づき当該メール文書の要否を判断して選別する。
【0069】
例えば、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、キーワードベクトルベクトルフィルタリング部1iでは、受信メールから生成したキーワードベクトルSから、必要メールから生成されたキーワードベクトルW成分を除き、必要メールと不要メールともに含まれるキーワード集合は排除される。
【0070】
これにより、キーワードベクトル類似度算出部1jでは、(1)特徴的な要素だけで類似度を算出するので、類似度の値がより特徴的となり、判別部41eで用いる判別条件43の設定が容易となり、設定負荷を低減できる。また、(2)判別に必要なキーワードベクトル(Sb)だけで類似度演算をさせることで、キーワードベクトル類似度算出部1jにおける類似度演算の処理数を低減させることが可能となる。
【0071】
図5は、本発明に係わる文書フィルタリングシステムの第4の構成例を示すブロック図である。
【0072】
図5に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置51も、図1,3,4おけるメールフィルタリング装置1,31,41と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトルフィルタリング部1iとキーワードベクトル類似度算出部1jおよびキーワードベクトルフィルタリング部1kとキーワードベクトル類似度算出部1mからなる演算処理ブロック11c、判定部51e、必要メール処理部1f、不要メール処理部1gを具備する。
【0073】
このような構成において、メールフィルタリング装置51は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0074】
本例のメールフィルタリング装置51の特徴は、図4に示すメールフィルタリング装置41の演算処理ブロック11bにおいて、キーワードベクトルフィルタリング部1kとキーワードベクトル類似度算出部1mの2つを追加した点であり、キーワードベクトルフィルタリング部1kは、キーワードベクトルSから、予めキーワードベクトル辞書Bにおいて決めておいたキーワードベクトルBの成分を除く処理を行い、キーワードベクトル類似度算出部1mは、キーワードベクトルフィルタリング部1kから出力されるキーワードベクトルに対して、予めキーワードベクトル辞書Wにおいて決めておいたキーワードベクトルWとの類似度を算出する。以下、このような構成の演算処理ブロック11cの動作の詳細を説明する。
【0075】
キーワードベクトルフィルタリング部1iは、キーワードベクトル生成ブロック10で生成された受信メールのキーワードベクトルSと、キーワードベクトル辞書W55に格納されたキーワードベクトルWとの積集合(S∩W)を、キーワードベクトルSから除いた、キーワードベクトルSb(=「S―(S∩W)」)を生成する。
【0076】
キーワードベクトル類似度算出部1jは、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとの類似度p1を算出する。
【0077】
例えば、図1の説明で示したキーワードベクトルの例を用いた場合、「S∩W」は、以下の通りとなる。
【0078】
(キーワード) (重み)
From 「1」
okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
? 「1」
は 「1」
【0079】
そして、「S−(S∩W)」は、以下の通りとなる。
【0080】
(キーワード) (重み)
です 「1」
か 「1」
今日 「1」
もう 「1」
退社 「1」
【0081】
これがキーワードベクトルSbとなる。このキーワードベクトルSbとキーワードベクトルBとの類似度p1を図1の説明と同様にして計算した場合、「p1={(Sb・B)/(キーワード数)}=0/17=0.000」が得られる。
【0082】
また、キーワードベクトルフィルタリング部1kは、キーワードベクトル生成ブロック10で生成された受信メールのキーワードベクトルSから、キーワードベクトル辞書B54に格納されたキーワードベクトルBとの積集合(S∩B)を除いた、キーワードベクトルSw(=「S―(S∩B)」)を生成し、キーワードベクトル類似度算出部1mは、キーワードベクトルフィルタリング部1kで生成したキーワードベクトルSwと、キーワードベクトル辞書Wから取得したキーワードベクトルWとの類似度p2を算出する。
【0083】
これにより、例えば、図1の説明で示したキーワードベクトルの例を用いた場合、キーワードベクトルSとキーワードベクトルBとの積集合「S∩B」は、以下の通りとなる。
【0084】
(キーワード) (重み)
From 「1」
@ 「1」
お 「1」
は 「1」
【0085】
そして、「Sw=S−(S∩B)」は、下記の通りとなる。
【0086】
(キーワード) (重み)
okakko 「1」
jp 「1」
こんにちわ 「1」
元気 「1」
です 「1」
か 「1」
? 「1」
今日 「1」
もう 「1」
退社 「1」
【0087】
このキーワードベクトルSwとキーワードベクトルWとの類似度p2を図1の説明と同様にして計算した場合、「p2={(Sw・W)/(キーワード数)}=5/17=0.294」が得られる。
【0088】
そして、判別部51eにおいては、判別条件53に従って、類似度p1と類似度p2とを比較して不要メールか必要メールかを判別して選別する。
【0089】
このように本例のメールフィルタリング装置51では、入力されたメール文書の選別を行う際、キーワードベクトル生成ブロック10で生成された入力キーワードベクトルSに対して、キーワードベクトルフィルタリング部1iにおいて、予めキーワードベクトル辞書W45として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと入力キーワードベクトルSとの積集合演算(S∩W)を行い、この積集合演算(S∩W)結果を入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成し、キーワードベクトル類似度算出部1jにおいて、予めキーワードベクトル辞書B44として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbとの類似度p1を算出し、さらに、キーワードベクトルフィルタリング部1kにおいて、予めキーワードベクトル辞書B54として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと入力キーワードベクトルSとの積集合演算(S∩B)を行い、この積集合演算(S∩B)結果を入力キーワードベクトルSから除いたキーワードベクトルSw(=S−S∩B)を生成し、キーワードベクトル類似度算出部1mにおいて、予めキーワードベクトル辞書W55として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと、キーワードベクトルフィルタリング部1kで生成したキーワードベクトルSwとの類似度p2を算出し、判別部51eにより、この類似度p1と類似度p2に基づき当該メール文書の要否を判断して選別する。
【0090】
また、一例として、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、判別部51eは、類似度p1が予め定められた条件値T1より大きく且つ類似度p2が予め定められた条件値T2より小さければ当該メール文書を不要文書として選別し、また、類似度p1が条件値T1より小さく且つ類似度p2が条件値T2より大きければ当該メール文書を必要文書として選別する。
【0091】
このように本例では、キーワードベクトルベクトルフィルタリング部1iにおいては、受信メールから生成したキーワードベクトルSから、必要メールから生成されたキーワードベクトルW成分が除かれており、また、キーワードベクトルベクトルフィルタリング部1kにおいては、受信メールから生成したキーワードベクトルSから、不要メールから生成されたキーワードベクトルB成分が除かれており、必要メールと不要メールともに含まれるキーワード集合は排除されている。
【0092】
これにより、キーワードベクトル類似度算出部1jでは、キーワードベクトルSbとキーワードベクトルBとの類似度p1と、キーワードベクトルSwとキーワードベクトルWとの類似度p2とを用いて不要メールか必要メールかを判別することで、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。
【0093】
この結果、キーワードベクトル類似度算出部1jでは、(1)特徴的な要素だけで類似度を算出するので、類似度の値がより特徴的となり、判別部51eで用いる判別条件43の設定が容易となり、設定負荷を低減できる。また、(2)判別に必要なキーワードベクトル(Sb,Sw)だけで類似度演算をさせることで、キーワードベクトル類似度算出部1j,1kにおける類似度演算の処理数を低減させることが可能となる。
【0094】
図6は、本発明に係わる文書フィルタリングシステムの第5の構成例を示すブロック図である。
【0095】
図6に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置61も、図1,3〜5おけるメールフィルタリング装置1,31〜51と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)と図1,3〜5のそれぞれで示される各処理部から構成された演算処理ブロック11d、判定部61e,61ee、必要メール処理部1f、不要メール処理部1gを具備する。
【0096】
このような構成において、メールフィルタリング装置61は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行い、そして、演算処理ブロック11dでは、入力キーワードベクトルSと各種参照キーワードベクトルとの類似度p1,p2の算出を行い、判別部61eにおいて、判別条件63aに従って、類似度p1,p2に基づく当該入力メール文書の要否の判別・選別を行う。
【0097】
本例のメールフィルタリング装置61の特徴は、この判別部61eにおける当該入力メール文書の判別において、必要メールと不要メールのいずれにも選別できない「それ以外」の判別結果にも対応した仕組みを設けた点である。
【0098】
すなわち、本例では、例えば、図1および図3〜図5のそれぞれのメールフィルタリング装置1,31,41,51の判別部1e、31e、41e、51eにおいて「それ以外」と判別された場合に適用されるものであり、演算処理ブロック61dに類似度算出の処理を繰り返させる仕組みを有する。
【0099】
尚、図6の例では、演算処理ブロック11dからは類似度p1と類似度p2が出力される構成としているが、図1および図4に示したメールフィルタリング装置1,41に適用した場合は、類似度p1のみが出力され、図3および図5に示したメールフィルタリング装置31,51に適用した場合に、本図6に示すように類似度p1と類似度p2が出力される。
【0100】
以下、図1のメールフィルタリング装置1に対して、本図6に示すように、演算処理ブロックを二段構成にした場合の適用例として説明する。
【0101】
1段目の演算処理ブロック11dでは、例えば個人的に不要とされたメールから生成されたキーワードベクトルB1を元に受信メールの類似度を算出して判別部61eでその要否を判別し、2段目の演算処理ブロック61dでは、一般的に不要とされるメールから生成されたキーワードベクトルB2を元に受信メールの類似度を算出して判別部61eeでその要否を判別するものとする。
【0102】
まず、1段目の演算処理ブロック11dにおいて、キーワードベクトルSと個人的に不要とされたメールから生成されたキーワードベクトルB1との類似度p1が、判別部61eの判別条件63aに従っての判別で「それ以外」と選別されたとする。
【0103】
その場合、2段目の演算処理ブロック61eeでの処理を継続し、この2段目の演算処理ブロック61eeでは、キーワードベクトルSを入力として、1段目と同様に処理を行う。
【0104】
本例では、2段目が最終段となっているため、最終段の判別部61eeでは、「不要メール」、「必要メール」のいづれかに判別する。
【0105】
尚、1段目の演算処理ブロック11eの後の判別部61eで「不要メール」と「必要メール」のいづれかに判別された場合は、2段目の演算処理ブロック61eeに処理は継続されず、直ちに必要メール処理部1f、不要メール処理部1gのそれぞれの処理に移る。
【0106】
このようにして本例では、1段目の判別部61eが不要メール文書もしくは必要メール文書のいずれにも判別できないメール文書に対しても、キーワードベクトルに基づく類似度の算出と、この類似度に基づく選別処理を繰り返し、当該メール文書を不要メール文書もしくは必要メール文書のいずれか一方に選別することができる。
【0107】
尚、類似度の算出の繰り返しにおいて、類似度の算出に用いる参照キーワードベクトルは任意に置き換えることができる。
【0108】
例えば、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的な不要メールキーワードベクトルB1に基づき受信メールを判別し、この1段目の演算処理ブロック11dと判別部61eで不要メールか否かを判別できなかった場合には、2段目の演算処理ブロック61dと判別部61eeで、ネット上にある一般的な不要メールキーワードベクトルB2に基づき受信メールを判別することで、より精度高く、メールの要否を判別することができる。
【0109】
また、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的に必要となさたメールから生成されたキーワードベクトルW1に基づき受信メールを判別し、1段目の演算処理ブロックで必要メールか否かを判別できなかった場合、2段目の演算処理ブロック61dと判別部61eeで、ネット上で一般的に必要とされるメールから生成されたキーワードベクトルW2に基づき受信メールの要否を判別することで、より精度高く、メールの要否を判別することができる。
【0110】
また、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的に必要とされるメールから生成されたキーワードベクトルW1で受信メールを判別し、1段目の判別部61eで必要メールか否かを判別できなかった場合、2段目の演算処理ブロック61dと判別部61eeで、一般的に不要とされるメールから生成されたキーワードベクトルB2に基づき受信メールの要否を判別することで、より精度高く、メールの要否を判別することができる。
【0111】
このように、本例では類似度の算出に用いる参照キーワードベクトルの内容を、目的に応じて組み合わせることが可能であり、精度の高い判別を可能とすることができる。
【0112】
以上、図1〜図6を用いて説明したように、本例のメールフィルタリング装置では、電子メールを選別対象の文書とし、受信メールから生成したキーワードベクトルSと、例えば予め不要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルBとの類似度や、必要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルWとの類似度を用いて不要メールか必要メールかを判別することで、不要メールの文面が未知であっても、キーワードベクトルの類似度によって不要メールか否かを判別することができる。
【0113】
例えば、図1に示すメールフィルタリング装置1の例では、受信メールの文面(ヘッダ情報や署名も含む)を形態素解析し、受信メールのキーワードベクトルSを生成し、キーワードベクトル辞書生成装置(5)が不要メールから生成したキーワードベクトル辞書Bから取得したキーワードベクトルBと受信メールのキーワードベクトルSとの類似度p1を算出し、類似度p1の大きさと予め登録された判別条件とによって必要メールか不要メールかを判断する。このことにより、不要メールと同様の特徴をもったメールを不要メールであると判別することが可能となる。
【0114】
また、図3に示すメールフィルタリング装置31の例では、キーワードベクトル辞書生成装置(5)が不要メールから生成したキーワードベクトル辞書Bから取得したキーワードベクトルBと、受信メールのキーワードベクトルSとの類似度p1と、キーワードベクトル辞書生成装置(5)が必要メールから生成したキーワードベクトル辞書Wから取得したキーワードベクトルWと、受信メールのキーワードベクトルSとの類似度p2とを比較して、類似度p1、p2の大きさと判別条件によって必要メールか不要メールかを判断する。この図3の構成例によれば、図1の例の問題点を解決できる。
【0115】
すなわち、図1の構成のメールフィルタリング装置1では、判別部1eにおいて、キーワードベクトルSと、不要メールから生成されたキーワードベクトルBとの類似度p1のみで、不要メール、必要メールかを判断しているため、本当は、キーワードベクトルSと必要メールから生成されたキーワードベクトルWとの類似度の方が大きい場合であっても、類似度p1が不要メールの条件に合致すれば、不要メールとされてしまう問題があった。しかし、図3の構成のメールフィルタリング装置31では、判別部31eにおいて、類似度p1とp2の2つの値の関係から不要メール、必要メールを判断するので、前述の問題は解決する。
【0116】
また、図4に示すメールフィルタリング装置41の例は、図1に示すメールフィルタリング装置1にキーワードベクトルフィルタリング部を追加したものであり、受信メールのキーワードベクトルSから、キーワードベクトルSと(例えば必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの積集合(S∩W)を除いたSbを用い、このキーワードベクトルSbと(例えば必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの類似度p1を算出し、類似度p1の大きさと判別条件によって必要メールか不要メールかを判断する。
【0117】
このように、図4に示すメールフィルタリング装置41では、キーワードベクトルフィルタリング部1iによって生成されたキーワードベクトルSbは、受信メールから生成したキーワードベクトルSから、必要メールから生成したキーワードベクトルW成分を除かれており、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。これにより、(1)特徴的な要素だけで類似度を算出するため、類似度の値がより特徴的となり、判別部の判別条件設定の困難さを低減させることができ、また、(2)判別に必要なキーワードベクトルだけで類似度演算をさせることで、類似度演算の処理数を低減させることが可能となる。
【0118】
また、図5に示すメールフィルタリング装置51の例では、図3に示すメールフィルタリング装置31に、キーワードベクトルフィルタリング部を追加したものであり、受信メールのキーワードベクトルSから、キーワードベクトルSと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの積集合(S∩W)を除いたSbを用い、このキーワードベクトルSbと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの類似度p1を算出し、また、受信メールのキーワードベクトルSから、キーワードベクトルSと(不要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの積集合(S∩B)を除いたSwを用い、このキーワードベクトルSwと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの類似度p2を算出し、これらの類似度p1とp2とを比較して判別部によって不要メールか必要メールかを判別する。
【0119】
本例によれば、追加した第1のキーワードベクトルフィルタリング部によって生成されたキーワードベクトルSbは、受信メールから生成したキーワードベクトルSから、必要メールから生成したキーワードベクトルW成分を除かれており、また、第2のキーワードベクトルフィルタリング部によって生成されたキーワードベクトルSwは、受信メールから生成したキーワードベクトルSから、不要メールから生成したキーワードベクトルB成分を除かれており、そのキーワードベクトルSbとキーワードベクトルBとの類似度p1と、そのキーワードベクトルSwとキーワードベクトルWとの類似度p2とを用いて不要メールか必要メールかを判別することで、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。
【0120】
これにより、本例では、(1)特徴的な要素だけで類似度を算出するため、類似度の値がより特徴的となり、判別部の判別条件設定の困難さを低減させることができ、また、(2)判別に必要なキーワードベクトルだけで類似度演算をさせることで、類似度演算の処理数を低減させることが可能となる。
【0121】
また、図6に示すメールフィルタリング装置61の例では、図1、および図3〜5の各メールフィルタリング装置1,31〜51の判定部において、必要メールと不要メール以外のメールと判別し、「それ以外」と判別されたメールに対して、演算処理ブロックと判別部の処理を継続して繰り返し、その最終段階の判別部において、必要メールと不要メールのいずれか一方に選別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1と類似度p2の大きさ、もしくは類似度p1のみの大きさによって、必要、不要、の2つに受信メールを判別する。
【0122】
例えば、図1のメールフィルタリング装置1に適用して、演算処理ブロックと判別部を2段とした場合、1段目の演算処理ブロックで類似度を演算して判別部において「それ以外」と判別した場合、2段目の演算処理ブロックと判別部に処理と移す。このようにすることで、1段目で、確実に「不要メール」であることを示すキーワードベクトルB1で判別し、この1段目では判別できなかった場合、2段目で、一般的な「不要メール」であることを示すキーワードベクトルB2で判別するといった、精度の高い判別が可能となる。
【0123】
同様に、このようにすることで、1段目で、確実に「必要メール」であることを示すキーワードベクトルWで判別し、1段目では判別できなかった場合、2段目で、「不要メール」であることを示すキーワードベクトルBで判別するといった処理動作も可能となる。
【0124】
尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図2で示したメールフィルタリング装置、キーワードベクトル生成装置、メールサーバ装置、メールクライアント装置等における、それぞれの通信は、インターネットやLANと言ったネットワークを介した通信であっても、コンピュータ内のローカルな通信であっても構わない。
【0125】
例えば、図2の例では、メールフィルタリング装置は、キーワードベクトル生成装置で生成したキーワードベクトルをネットワークを介して参照する構成としているが、キーワードベクトル生成装置で生成したキーワードベクトルを予めメールフィルタリング装置内に取り込んでおく構成でも、キーワードベクトル生成装置内に、キーワードベクトル生成装置を設けた構成としても良い。
【0126】
また、図5の例では、キーワードフィルタリング部1iとキーワードベクトル類似度算出部1mでは、同じでキーワードベクトル辞書W55を参照し、キーワードフィルタリング部1kとキーワードベクトル類似度算出部1jでは、同じでキーワードベクトル辞書B54を参照する構成としているが、キーワードフィルタリング部1iとキーワードベクトル類似度算出部1mで、それぞれ異なるキーワードベクトル辞書(W,Wa)を参照し、また、キーワードフィルタリング部1kとキーワードベクトル類似度算出部1jにおいても、それぞれ異なるキーワードベクトル辞書(B,Ba)を参照する構成としても良い。
【0127】
また、本例では、要・不要の判別の対象として電子メールを例に説明しているが、文字列で構成されたテキストデータであれば良く、電子メールに限定するものではない。
【0128】
また、本例でのコンピュータ構成例としては、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0129】
【発明の効果】
本発明によれば、例えば電子メールを対象とした場合、メール条件指定で判別できない未知のメールの要・不要を判別することが可能となり、また、類似内容の不要メールを送信者を偽って不特定多数に送りつける場合であっても、不要メールを判別することが可能となり、また、類似内容の不要メールを送信者を偽って不特定多数に送りつける場合、必要メールと似た単語を用いて記述がされたメールであっても、他者が不要と判断した不要メールのキーワードベクトルを用いることにより、メール本文の特徴ベクトルで判別しても誤分類される可能性が少なくなり、不要メールと必要メールとの判別等、文書の選別を高精度に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明に係わる文書フィルタリングシステムの第1の構成例を示すブロック図である。
【図2】図1における文書フィルタリングシステムを用いたメール配信サービスシステムの構成例を示すブロック図である。
【図3】本発明に係わる文書フィルタリングシステムの第2の構成例を示すブロック図である。
【図4】本発明に係わる文書フィルタリングシステムの第3の構成例を示すブロック図である。
【図5】本発明に係わる文書フィルタリングシステムの第4の構成例を示すブロック図である。
【図6】本発明に係わる文書フィルタリングシステムの第5の構成例を示すブロック図である。
【符号の説明】
1,31,41,51,61:メールフィルタリング装置、1a:受信部、1b:形態素解析部、1c:キーワードベクトル生成部、1d,1h,1j,1m:キーワードベクトル類似度算出部、1e,31e,41e,51e,61e,61ee:判別部、1f:必要メール処理部、1g:不要メール処理部、1i,1k:キーワードベクトルフィルタリング部、2:メールサーバ装置(「メールサーバ」)、3:メールクライアント装置(「メールクライアント」)、4:利用者、5:キーワードベクトル生成装置、6a〜6d:IPネットワーク、10:キーワードベクトル生成ブロック、11,11a,11b,11c,11d,61d:演算処理ブロック、12:メール、13,33,43,53,63a,63b:判別条件、14,34,44,54:キーワードベクトル辞書B、35,45,55:キーワードベクトル辞書W。

Claims (13)

  1. 入力された文書の選別を行う文書フィルタリングシステムであって、
    入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
    上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
    予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの類似度p1を算出するキーワードベクトル類似度算出手段と、
    上記類似度p1に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
  2. 請求項1に記載の文書フィルタリングシステムであって、
    上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
    上記判別手段は、上記類似度p1が予め定められた条件値より大きければ、当該文書を不要文書として選別することを特徴とする文書フィルタリングシステム。
  3. 入力された文書の選別を行う文書フィルタリングシステムであって、
    入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
    上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
    予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの類似度p1を算出する第1のキーワードベクトル類似度算出手段と、
    予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの類似度p2を算出する第2のキーワードベクトル類似度算出手段と、
    上記類似度p1および上記類似度p2に基づき、当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
  4. 請求項3に記載の文書フィルタリングシステムであって、
    上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
    上記参照キーワードベクトルWは、必要とされる文書の特徴を表し、
    上記判別手段は、上記類似度p1が予め定められた条件値T1より大きく且つ上記類似度p2が予め定められた条件値T2より小さければ当該文書を不要文書として選別し、上記類似度p1が上記条件値T1より小さく且つ上記類似度p2が上記条件値T2より大きければ当該文書を必要文書として選別することを特徴とする文書フィルタリングシステム。
  5. 入力された文書の選別を行う文書フィルタリングシステムであって、
    入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
    上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
    予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの積集合演算(S∩W)を行い、該積集合演算(S∩W)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成するキーワードベクトルフィルタリング手段と、
    予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記キーワードベクトルSbとの類似度p1を算出するキーワードベクトル類似度算出手段と、
    上記類似度p1に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
  6. 請求項5に記載の文書フィルタリングシステムであって、
    上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
    上記参照キーワードベクトルWは、必要とされる文書の特徴を表し、
    上記判別手段は、上記類似度p1が予め定められた条件値より大きければ、当該文書を不要文書として選別することを特徴とする文書フィルタリングシステム。
  7. 入力された文書の選別を行う文書フィルタリングシステムであって、
    入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
    上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
    予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの積集合演算(S∩W)を行い、該積集合演算(S∩W)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成する第1のキーワードベクトルフィルタリング手段と、
    予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの積集合演算(S∩B)を行い、該積集合演算(S∩B)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSw(=S−S∩B)を生成する第2のキーワードベクトルフィルタリング手段と、
    予め記憶装置に記憶された参照キーワードベクトルBaを読み出し、該参照キーワードベクトルBaと上記入力キーワードベクトルSbとの類似度p1を算出する第1のキーワードベクトル類似度算出手段と、
    予め記憶装置に記憶された参照キーワードベクトルWaを読み出し、該参照キーワードベクトルWaと上記キーワードベクトルSwとの類似度p2を算出する第2のキーワードベクトル類似度算出手段と、
    上記類似度p1および上記類似度p2に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
  8. 請求項7に記載の文書フィルタリングシステムであって、
    上記参照キーワードベクトルBとBaは、不要とされる文書の特徴を表し、
    上記参照キーワードベクトルWとWaは、必要とされる文書の特徴を表し、
    上記判別手段は、上記類似度p1が予め定められた条件値T1より大きく且つ上記類似度p2が予め定められた条件値T2より小さければ当該文書を不要文書として選別し、上記類似度p1が上記条件値T1より小さく且つ上記類似度p2が上記条件値T2より大きければ当該文書を必要文書として選別することを特徴とする文書フィルタリングシステム。
  9. 請求項7もしくは請求項8のいずれかに記載の文書フィルタリングシステムであって、
    上記参照キーワードベクトルBと上記参照キーワードベクトルBaとを同じものとし、上記参照キーワードベクトルWと上記参照キーワードベクトルWaを同じものとすることを特徴とする文書フィルタリングシステム。
  10. 請求項1から請求項9のいずれかに記載の文書フィルタリングシステムであって、
    上記判別手段が不要文書もしくは必要文書のいずれにも判別できない文書に対して、上記キーワードベクトルに基づく類似度の算出と、該類似度に基づく選別を繰り返し、当該文書を不要文書もしくは必要文書のいずれか一方に選別する手段を有することを特徴とする文書フィルタリングシステム。
  11. 請求項10に記載の文書フィルタリングシステムであって、
    上記類似度の算出の繰り返しにおいて、算出に用いる参照キーワードベクトルを任意に置き換えることを特徴とする文書フィルタリングシステム。
  12. 請求項1から請求項11のいずれかに記載の文書フィルタリングシステムであって、上記入力された文書は電子メールからなり、電子メールの選別を行うことを特徴とする文書フィルタリングシステム。
  13. コンピュータを、請求項1から請求項12のいずれかに記載の文書フィルタリングシステムにおける各手段として機能させるためのプログラム。
JP2003145930A 2003-05-23 2003-05-23 文書フィルタリングシステムとプログラム Pending JP2004348523A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003145930A JP2004348523A (ja) 2003-05-23 2003-05-23 文書フィルタリングシステムとプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003145930A JP2004348523A (ja) 2003-05-23 2003-05-23 文書フィルタリングシステムとプログラム

Publications (1)

Publication Number Publication Date
JP2004348523A true JP2004348523A (ja) 2004-12-09

Family

ID=33532937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003145930A Pending JP2004348523A (ja) 2003-05-23 2003-05-23 文書フィルタリングシステムとプログラム

Country Status (1)

Country Link
JP (1) JP2004348523A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268303A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP2006268304A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP2006324817A (ja) * 2005-05-17 2006-11-30 Ntt Docomo Inc データ通信システム及びデータ通信方法
JP2007122148A (ja) * 2005-10-25 2007-05-17 Just Syst Corp 電子メール分類装置および電子メール分類方法
JP2008135926A (ja) * 2006-11-28 2008-06-12 Yamaguchi Univ 迷惑メールのフィルタ機能を有する電子メールシステム
JP2009104400A (ja) * 2007-10-23 2009-05-14 Kddi Corp 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
JP2017111479A (ja) * 2015-12-14 2017-06-22 日本放送協会 広告文選択装置及びプログラム
JP2020004220A (ja) * 2018-06-29 2020-01-09 キヤノンマーケティングジャパン株式会社 情報処理装置、クライアント端末、制御方法、及びプログラム
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268304A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP2006268303A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP4559295B2 (ja) * 2005-05-17 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ データ通信システム及びデータ通信方法
JP2006324817A (ja) * 2005-05-17 2006-11-30 Ntt Docomo Inc データ通信システム及びデータ通信方法
US8001193B2 (en) 2005-05-17 2011-08-16 Ntt Docomo, Inc. Data communications system and data communications method for detecting unsolicited communications
JP2007122148A (ja) * 2005-10-25 2007-05-17 Just Syst Corp 電子メール分類装置および電子メール分類方法
JP4688630B2 (ja) * 2005-10-25 2011-05-25 株式会社ジャストシステム 電子メール分類装置および電子メール分類方法
JP4686724B2 (ja) * 2006-11-28 2011-05-25 国立大学法人山口大学 迷惑メールのフィルタ機能を有する電子メールシステム
JP2008135926A (ja) * 2006-11-28 2008-06-12 Yamaguchi Univ 迷惑メールのフィルタ機能を有する電子メールシステム
JP2009104400A (ja) * 2007-10-23 2009-05-14 Kddi Corp 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
JP2009140437A (ja) * 2007-12-10 2009-06-25 Just Syst Corp フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
JP2017111479A (ja) * 2015-12-14 2017-06-22 日本放送協会 広告文選択装置及びプログラム
JP2020004220A (ja) * 2018-06-29 2020-01-09 キヤノンマーケティングジャパン株式会社 情報処理装置、クライアント端末、制御方法、及びプログラム
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP7288293B2 (ja) 2018-08-31 2023-06-07 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法

Similar Documents

Publication Publication Date Title
Kumar et al. Email spam detection using machine learning algorithms
JP4742618B2 (ja) 情報処理システム、プログラム及び情報処理方法
Kumar et al. Comparative study on email spam classifier using data mining techniques
Renuka et al. Spam classification based on supervised learning using machine learning techniques
Secker et al. AISEC: an artificial immune system for e-mail classification
US8335383B1 (en) Image filtering systems and methods
Smadi et al. Detection of phishing emails using data mining algorithms
US8010614B1 (en) Systems and methods for generating signatures for electronic communication classification
JP2008538023A (ja) 電子メールを処理する方法およびシステム
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
JP2006243803A (ja) 情報処理システム、プログラム及び情報処理方法
Govil et al. A machine learning based spam detection mechanism
Trivedi et al. Effect of feature selection methods on machine learning classifiers for detecting email spams
DeBarr et al. Phishing detection using traffic behavior, spectral clustering, and random forests
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
JP2004348523A (ja) 文書フィルタリングシステムとプログラム
CN113592461A (zh) 邮件处理方法、装置与存储介质
Krause et al. Recognizing email spam from meta data only
Reddy et al. Classification of Spam Messages using Random Forest Algorithm
Watcharenwong et al. Spam detection for closed Facebook groups
KR102005420B1 (ko) 전자메일 저자 분류 방법 및 장치
Ankam et al. Compositional data analysis with pls-da and security applications
Şimşek et al. Classification of Unwanted E-Mails (Spam) with Turkish Text by Different Algorithms in Weka Program
alias Balamurugan et al. Data mining techniques for suspicious email detection: A comparative study
Balakumar et al. A data mining approach on various classifiers in email spam filtering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080711

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111