JP2008538023A

JP2008538023A - 電子メールを処理する方法およびシステム

Info

Publication number: JP2008538023A
Application number: JP2008501424A
Authority: JP
Inventors: リー，マーティン，ジャイルズ
Original assignee: メッセージラブズリミテッド
Priority date: 2005-04-04
Filing date: 2006-04-04
Publication date: 2008-10-02
Also published as: WO2006106318A1; AU2006232612A1; US20080168144A1; GB2424969A; EP1866840A1; GB0506844D0

Abstract

未知の電子メール（１０３）がスパムであるかどうかを識別するシステム（１００）。抽出部（１０４）が、電子メール（１０１）または電子メール（１０２）の、擬似ランダムなデータを含んでいるコンポーネントを抽出する。このデータは、当該データ内に見出されるパターン表記（２０５）を識別するパターン生成部（１０５）に受け渡される。前に遭遇したスパムメールからのコンポーネントの記憶部（１０６）内にあり、前に遭遇したノンスパム電子メールの記憶部（１０７）内にないコンポーネントとマッチすることがパターン生成部（１０５）によって見出されたパターン表記（２０５）が、パターン照合部１１１に受け渡される。パターン照合部（１１１）は、未知の電子メール（１０３）の、抽出部１１４によって抽出されたコンポーネントを分析する。未知の電子メール（１０３）からのいずれかのコンポーネントが、パターン照合部（１１１）に知らされたパターン表記（２０５）にマッチすることが見出された場合、その電子メール（１０３）は、スパムであると識別されてスパム出力（１１２）に信号が送られ、そうでなければ、電子メール（１０３）は、ノンスパムであると識別されてノンスパム出力（１１３）に信号が送られる。

Description

本発明は、電子メールを処理する、特に、スパム電子メールとノンスパム電子メールとを分類する方法およびシステムに関する。

スパム電子メール（すなわち、大量の未承諾電子メール）は、受信者の電子メール受信箱を不要なメッセージで溢れさせることで多大な迷惑を生じさせる。スパムの内容は、詐欺的な、または露骨な内容を含んでいる場合が多く、苦痛や金銭的な損失を生じさせる場合がある。これらのメッセージを処理するのに費やされる時間、それらを記憶し、処理するために電子メールシステム上に必要とされるリソース、および無駄になるネットワークリソースによって、多大な経済的損失が生じる場合がある。スパムを検出するために、多くの手段が提案されている。

しかしながら、スパム発信者は、スパム検知手段を回避するために電子メールを偽装して対処してきている。

本発明は、電子メールを送信するのに用いられているソフトウェアが、当該電子メール内に外見上ランダムなデータを含んでおり、それが当該ソフトウェアの特徴であるという事実を利用することに基づいている。この擬似ランダムなデータを分析することによって、スパム発信者によって用いられているソフトウェアを用いて送信された電子メールを特定するのに用いることができる記述パターンを生成することができる。

本発明の第１の態様によれば、
ａ）様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成することと、
ｂ）前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定することと、
ｃ）前記ステップｂ）で分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶することと、
ｄ）前記ステップｃ）で記憶された少なくとも１つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類することと、
を含む、電子メールを処理する自動化された方法が提供される。

本発明の第２の態様によれば、
ａ）様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成する手段と、
ｂ）前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定する手段と、
ｃ）前記手段ｂ）によって分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶する手段と、
ｄ）前記手段ｃ）に記憶された少なくとも１つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類する手段と、
を備える、電子メールを処理する自動化されたシステムが提供される。

したがって、本発明によれば、スパム電子メールかノンスパム電子メールかの電子メールの分類を可能とする。これによれば、キャラクタまたはキャラクタの集合との照合を異なる特徴度で特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなるパターン表記を用いることによって、有効な分類を可能にする。このような種類のパターン表記は、スパムの特徴である、電子メール内の擬似ランダムなデータを識別する際に特に有効である。これは、そのような擬似ランダムなデータが、スパム発信者によって、完全にランダムではなく、本発明のパターン表記によって識別することができる構造を有するように生成されているからである。

考慮されるキャラクタ列は、上述の種類のそのような擬似ランダムなデータを含む傾向がある電子メールコンポーネント、例えば、メッセージＩＤ、ＭＩＭＥバウンダリ、またはＵＲＬから抽出されるのが好都合である。

本発明を、添付の図面を参照して、限定されない例によってさらに説明する。

図１および２は、スパムを検出する機械によって電子メールを自動的に処理する一実施形態のシステム１００を示している。電子メールがスパムであると判定されると、適切な是正措置が取られてよいが、この是正措置の性質は本発明にとって重要ではない。是正措置は、当該電子メールの消去、あるいは、当該電子メールがスパムであることの注意喚起および／または特定のフォルダへの当該電子メールの移動を含んでいてよい。

スパムの検出は、多数のユーザのために、ＩＳＰが多数のユーザに提供することができる付加価値サービスとなっているので、図１および２に示すシステム１００は主としてＩＳＰによって動作させられるように構成されており、この付加価値サービスでは、学習サブシステム１００ａの運転費用が多数のユーザによって分担される。また、多数のユーザのために以前に処理された電子メールがリソースとして用いられて、スパムおよびノンスパムの各コーパスが形成される。しかし、本発明は、他の状況、例えば、ＬＡＮとインターネットの間のゲートウェイや、ユーザのパーソナルコンピュータ上で動作する、電子メールのクライアント用のアンチスパムフィルタで電子メールを処理する場合にも適用可能である。

図１は、本発明による一実施形態のシステム１００を示している。

システム１００は、学習サブシステム１００ａと分類サブシステム１００ｂとの２つのサブシステムを有している。

学習サブシステム１００ａは、既知のスパム電子メール１０１を入力１０８の所で受け入れ、既知のノンスパム電子メール１０２を入力１０９の所で受け入れる。パターン生成部１０５からパターン照合部１１１にパターンが受け渡される。

学習サブシステム１００ａは、必要に応じて動作させることができ、分類サブシステム１００ｂに左右されることはない。

分類サブシステム１００ｂは、学習サブシステム１００ａが、幾つかのパターンをパターン照合部１１１に受け渡していることを必要とし、さもなければ、分類サブシステム１００ｂは、学習システム１００ａとは独立して動作する。パターンは、パターン生成部１０５からパターン照合部１１１にいつ受け渡されてもよい。

分類サブシステム１００ｂは、未知の電子メール１０３を入力１１０の所で受け入れ、それらを処理し、分類サブシステム１００ｂが電子メール１０３をスパムと見なした場合には出力１１２に信号を送り、分類サブシステム１００ｂが未知の電子メール１０３をノンスパムと見なした場合には出力１１３に信号を送る。出力１１２または１１３は、上述した是正措置を取るシステムに送られる。

システム１００を、または分類サブシステム１００ｂのみを、自立システムとして動作させてもよく、あるいは、電子メールに対する他の評価を行う、より大きなスパム検知システムの一部として動作させてもよい。

図２は、パターン生成部１０４内に含まれた構成要素を示すために学習サブシステム１００ａを示している。

パターン生成部１０４は、抽出部１０４から、キャラクタ列２０２、および、電子メール１０１または１０２のどのコンポーネントがキャラクタ列２０２を形成しているかを示す、キャラクタ列２０２の出所２０１を受け取る。

キャラクタ列２０２は置換部２０３によって段階的に分析され、置換部２０３は、キャラクタ列２０２内に見出される各キャラクタを、シノニム記憶部２０４によって規定される一定の特殊性を有するシノニムによって置き換えてパターン表記２０５を生成する。

以下の記載から明らかになるように、用語「シノニム」は、単一のキャラクタまたはキャラクタ列のパターン照合用表現を意味するものとして用いている。どの文字も、問題としている単一のキャラクタのみに厳密にマッチするパターン照合用表現から、問題としているキャラクタ、およびそのキャラクタとある意味で同じ「クラス」に属する他のキャラクタにマッチする、より一般性が高いパターン照合用表現までの様々な特殊性を有するシノニムのセットに結び付けられていてよい。例えば、文字「Ａ」は、当該文字のみにマッチするパターン照合用表現、当該文字およびそれの小文字の相当語句「ａ」にマッチするパターン照合用表現、および、英数キャラクタや印刷可能なキャラクタにマッチするパターン照合用表現などによって表現されてよい。

キャラクタ列を示す、様々な特殊性を有する複数のシノニム／パターン照合用表現を用いてもよい。

パターン表記２０５を特に簡便に生成する方法は、いわゆる「正規表現」を用いることである。

このパターン表記２０５は、短縮部２０６によって修正されてパターン表記２０５の短縮形が生成され、あるいは、絞込部２０７によって修正されて、より特殊性が高いパターン表記２０５が生成され、このパターン表記２０５は短縮部２０６に受け渡されてもよい。

パターン表記２０５、および、短縮部２０６および絞込部２０７によって供給されるいずれの修正形も評価部２０８に受け渡され、評価部２０８は、既知のスパムコンポーネントの記憶部１０６、および既知のノンスパムコンポーネントの記憶部１０７を参照して、これらの供給されたパターン表記２０５のいずれかが、パターン照合部１１１に受け渡すべき特殊性基準に合致しているかどうかを判定する。

学習サブシステム１００ａは、以下のアルゴリズムに従って動作する。

１）抽出部１０４が、電子メール１０１または１０２のコンポーネントを抽出し、このコンポーネントは、電子メールがスパム電子メール１０１である場合、擬似ランダムなキャラクタデータを含んでいる場合がある。これらのコンポーネントは、そのような擬似ランダムなデータが見出されることが期待されるどのコンポーネントであってもよく、例えば、電子メール１０１または１０２のメッセージＩＤヘッダの内容、ＭＩＭＥバウンダリヘッダの内容、電子メール１０１または１０２内に含まれる任意のＵＲＬ、または他の特徴部であってよい。

２）既知のスパムコンポーネントの記憶部１０６、および既知のノンスパムコンポーネントの記憶部１０７に、抽出部１０４によって供給されたデータおよび当該データの出所が将来の参照のために記憶される。

３）パターン生成部１０５が、抽出部１０４からの出力を分析する。

パターン生成部１０５の詳細な働きを以下に示す（図２も参照）。
要約すると、抽出部１０４から供給されたコンポーネントからパターン生成部１０５によって生成されたパターン表記２０５は、既知のスパムコンポーネントの記憶部１０６、および既知のノンスパムコンポーネントの記憶部１０７に含まれたコンポーネントと比較されて評価される。既知のスパムコンポーネント１０６の記憶部１０６内の、パターン表記２０５がマッチするパターンの最低数の閾値、および、既知のノンスパムコンポーネントの記憶部１０７内の、パターン表記２０５がマッチするパターンの最大数の閾値が、所定の基準によって定められている。この基準を満たすパターン表記２０５が、それらの出所２０１と共にパターン照合部１１１に受け渡される。パターン表記２０５は直ぐに受け渡されてもよく、あるいは、後でバッチ更新の一部として受け渡すために記憶される。

パターン生成部１０５は、以下のアルゴリズムに従って動作する。

１）抽出部１０４が、擬似ランダムなデータのキャラクタ列２０２、およびそのキャラクタ列２０２の出所２０１を置換部２０３に受け渡す。キャラクタ列２０１の出所は、メッセージＩＤ、ＭＩＭＥバウンダリ、ＵＲＬ、または、当該キャラクタ列のデータの出所である他のポインタであってよい。

２）置換部２０３が、シノニム記憶部２０４を参照してキャラクタ列２０２のパターン表記２０５を生成し、この際、キャラクタ列内の各キャラクタが、シノニム、すなわちパターン照合用表現によって置き換えられる。

シノニム記憶部２０４は、抽出部１０４からのキャラクタ列の出力のテキスト内に見いだすことができる各キャラクタに対してシノニムのセットを保持している。これらのシノニムは、特殊性が最も低いものから最も高いものへと特殊性の順に配置されている。例えば、キャラクタ「Ａ」に対するシノニムのセットは、
非空白キャラクタ、
英数キャラクタ、
大文字キャラクタ、
文字「Ａ」、
であってよい。同様に、数「９」に対するシノニムのセットは、
非空白キャラクタ、
英数キャラクタ、
数字、
数「９」、
であってよい。

置換部２０３は、キャラクタ列２０２内の各キャラクタを順次分析する。置換部２０３は、キャラクタ列２０２内のキャラクタを、どのような順番で分析してもよく、例えば、左から右へ、右から左へ、あるいは、左から中央のキャラクタへ、続いて右から中央のキャラクタへと分析してよい。

置換部２０３は、キャラクタ列２０２が分析されるのと同じ順番でキャラクタ毎にパターン表記２０５を生成する。キャラクタ列２０２内の各キャラクタのために、当該キャラクタに対するシノニムがパターン表記２０５内に配置される。最初は、各キャラクタに対して特殊性が最も低いシノニムがシノニム記憶部２０４から選択される。以下に記載するように、次のパターン表記２０５を生成するために、このキャラクタ列に対する前のパターン表記の生成に比べて次に特殊性が低いシノニムが各キャラクタに対して選択され、したがって、反復する毎に、特殊性が最も低いシノニムから特殊性が最も高いシノニムへの移行が行われる。

シノニム記憶部２０４から得られる、特殊性がより高いシノニムがなくなると、パターン生成部１０５の動作は終了する。

３）パターン表記２０５を短縮部２０６に受け渡して、パターン表記２０５から短縮形を生成してもよい。これは、同じシノニムの、任意の連続を、「シノニムの連続」を表す語句により置き換えることによって達成される。

結果として得られた修正されたパターン表記２０５が評価部２０８に受け渡される。

例えば、キャラクタ列「ＡＢＣＤ」は、最初のパスで置換部２０３によって、「非空白キャラクタ、次に、非空白キャラクタ、次に、非空白キャラクタ、次に、非空白キャラクタ」というシノニムを有するパターン表記で表される。短縮部２０６は、これを、「非空白キャラクタの連続」に短縮する。

４）パターン表記２０５を絞込部２０７に受け渡して、特殊性がより高いパターン表記２０５を生成してもよい。絞込部２０７は、既知のスパムコンポーネントの記憶部１０６内の、パターン表記２０５と同じ出所のキャラクタ列のセットを読み出す。

絞込部２０７は、このキャラクタ列内の各キャラクタ位置にわたって動作し、このキャラクタを、パターン表記２０５の、当該キャラクタに対応する位置にあるキャラクタのシノニムと比較する。これらのキャラクタのうちの、所定のしきい値数より多くが、パターン表記２０５の、対応する位置に見出されたシノニムよりも特殊性が高いシノニムに相当していた場合、絞込部２０７は、現在のシノニムを、特殊性がより高いこのシノニムと置き換える。

各キャラクタ位置を考慮した後、結果として得られた修正されたパターン表記２０５を、ステップ３）と同じプロセスで短縮形にさらに修正するために短縮部２０６に受け渡してもよい。例えば、パターン表記「大文字キャラクタ、大文字キャラクタ、数」は、既知のスパムコンポーネントの記憶部１０６内に記憶されたキャラクタ列のセット「ＡＤ１」、「ＢＥ１」、「ＣＦ１」にマッチする。キャラクタのこのセットの分析によって、これらのキャラクタ列の最初の所で、キャラクタのセット「Ａ」、「Ｂ」、「Ｃ」が得られる。２番目のキャラクタ位置からのキャラクタのセットは、セット「Ｄ」、「Ｅ」、「Ｆ」である。キャラクタ列の最後からのキャラクタのセットは、「１」、「１」、「１」である。シノニム記憶部２０４は、キャラクタ「Ａ」、「Ｂ」、「Ｃ」に対しても２番目のセット「Ｄ」、「Ｅ」、「Ｆ」に対しても、それよりも特殊性が高いシノニムを含んでいない。今、パターン表記は、最後の位置のキャラクタを表すためにシノニム「数」を含んでいる。前記キャラクタのセットのこの位置には「１」、「１」、「１」が見出され、シノニム記憶部２０４は、キャラクタのこのセットに、現在のシノニムよりも特殊性が高いシノニム、すなわち「数１」を含んでいる。したがって、このシノニムを置き換え、パターン表記を、「大文字キャラクタ、大文字キャラクタ、数１」と書き換えてもよい。

５）置換部２０３によって生成されたパターン表記２０５、および短縮部２０６または絞込部２０７によって生成された任意の修正形が評価部２０８に受け渡される。

６）評価部２０８は、既知のスパムコンポーネントの記憶部１０６および既知のノンスパムコンポーネントの記憶部１０７内の、現在のパターン表記２０５と同じ出所のキャラクタ列を検索する。

パターン表記２０５がこれらのキャラクタ列と比較され、各記憶部についてパターン表記２０５にマッチさせることができるキャラクタ列の数が計算される。

評価部２０８は、これらの計算結果を、既知のスパムコンポーネントの記憶部１０６からのキャラクタ列とのマッチ数の最小値、および、既知のノンスパムコンポーネントの記憶部１０７からのキャラクタ列とのマッチ数の最大値についての閾値と比較する。これらの基準が満たされない場合、そのパターン表記２０５は不合格と判定される。

そうでない場合、評価部２０８は、置換部２０３、短縮部２０６、および絞込部２０７によって供給されたパターン表記２０５から最も判別に適したパターン表記２０５、すなわち、既知のスパムコンポーネントの記憶部１０６からのキャラクタ列のうちでマッチするものが最も多く、既知のノンスパムコンポーネントの記憶部１０７からのキャラクタ列のうちでマッチするものが最も少ないパターン表記２０５を、供給されたパターン表記２０５の中から選択する。このパターン表記２０５およびその出所２０１が、分類サブシステム１００ｂで用いるためにパターン照合部１１１に受け渡される。

評価部２０８は、その動作完了を示す信号を置換部２０３に返す。置換部２０３は、ステップ２のプロセスを継続して、特殊性がより高いシノニムのセットを有する新たなパターン表記２０５を生成し、あるいは、シノニム記憶部２０４からシノニムをもはや得られなければ動作を終了する。

分類サブシステム１００ｂは以下のアルゴリズムに従って動作する。

１）抽出部１１４は、電子メール１０３の、擬似ランダムなデータを含むコンポーネントを特定する。これらのコンポーネントは、電子メールのメッセージＩＤヘッダの内容、ＭＩＭＥバウンダリヘッダの内容、または、電子メール内に含まれるいずれのＵＲＬであってもよい。これらのデータおよびその出所はパターン照合部１１１に出力される。

２）図２にステップ１１５によって示すように、パターン照合部１１１は、抽出部１１４によって供給されたキャラクタ列を、特定のデータの出所について、学習サブシステム１００ａのパターン生成部１０５によってパターン照合部１１１に事前に供給されたパターン表記２０５のいずれかにマッチするパターンを求めて検索する。

そのようなパターンが見つかった場合、未知の電子メール１０３内に含まれるデータは、評価部２０８によって与えられた規準に従って、複数の既知のスパム電子メール内で前に見つかり、また、ある度合いで、既知のノンスパム電子メール内で実質的に見つかっていないパターンに一致している。このような場合、パターン照合部１１１は、スパム出力１１２に信号を送る。

そのようなパターンが見つからなかった場合、パターン照合部１１１はノンスパム出力１１３に信号を送る。

次に、例示のために実施例を示す。

既知のスパム電子メール１０１が学習サブシステム１００ａに送られる。

抽出部１０４は、その電子メールのメッセージＩＤヘッダを、
メッセージＩＤ：１２３４５６７８
と識別する。

抽出部１０４は、「メッセージＩＤ」という出所２０１、および「１２３４５６７８」というキャラクタ列２０２をパターン生成部に受け渡す。

置換部２０３は、キャラクタ列を左から右に処理する。

最初のキャラクタは「１」である。シノニム記憶部２０４は、「非空白」という、このキャラクタについて特殊性が最も低いシノニムを返す。

キャラクタ列の各キャラクタが順に分析され、これによって、「非空白、非空白、非空白、非空白、非空白、非空白、非空白、非空白」というパターン表記２０５が生成される。

このパターン表記２０５は短縮部２０６に受け渡され、短縮部２０６は、「非空白の連続」という修正されたパターン表記２０５を生成する。

絞込部２０７は、既知のスパムコンポーネントの記憶部１０６に問い合わせを行って、出所がメッセージＩＤである全てのキャラクタ列のセットを読み出す。返されたキャラクタ列のキャラクタには、有意義な類似性を見出すことはできない。

２つのパターン表記２０５が評価部に受け渡される。

評価部２０８は、既知のスパムコンポーネントの記憶部１０６と既知のノンスパムコンポーネントの記憶部１０７との両方における、出所がメッセージＩＤである全てのキャラクタ列が、パターン表記２０５とマッチすることを見出す。

評価部２０８は、さらなる動作を行うことなく、置換部２０３に動作を戻す。

置換部２０３は、続いて、キャラクタに対して、次に特殊性が高いシノニムを要求する。これによって、「数字、数字、数字、数字、数字、数字、数字、数字」というパターン表記２０５が得られる。

短縮部２０６は、これを、「数字の連続」に修正する。

絞込部２０７は、既知のスパムコンポーネントの記憶部１０６に問い合わせを行って、出所がメッセージＩＤである全てのキャラクタ列のセットを読み出す。これらのキャラクタ列の全ての場合において、最初のキャラクタは数「１」である。

絞込部２０７は、パターン表記２０５を、「数１、数字、数字、数字、数字、数字、数字、数字」に修正する。

これらのパターン表記２０５は評価部２０８に受け渡される。

評価部２０８は、「数字、数字、数字、数字、数字、数字、数字、数字」と「数字の連続」との両方のパターンが、既知の全てのスパムコンポーネントの記憶部１０６内に保持された、メッセージＩＤについてのキャラクタ列の５％とマッチし、既知の全てのノンスパムコンポーネントの記憶部１０７内に保持された、メッセージＩＤについてのキャラクタ列の１％とマッチすることを見出す。「数１、数字、数字、数字、数字、数字、数字、数字」というパターン表記２０５は、既知の全てのスパムコンポーネントの記憶部１０６内に保持された、メッセージＩＤについてのキャラクタ列の５％とマッチし、既知の全てのノンスパムコンポーネントの記憶部１０７に保持された、メッセージＩＤについてのキャラクタ列とは全くマッチしない。

これらのパターン表記２０５の全ては、パターン照合器１１１に受け渡すための基準を満たしている。「数１、数字、数字、数字、数字、数字、数字、数字」というパターン表記２０５が、判別に最も適しているので、これがパターン照合部１１１に受け渡される。

評価部２０８は置換部２０３に動作を戻す。

未知の電子メール１０３が分類サブシステム１００ｂに送られる。

抽出部１１４は、電子メール１０３内のメッセージＩＤとＵＲＬを識別する。ＵＲＬは、
http://www.domain.com/counter.gif?tracker_id=24543z&user_id=qs45wt
である。メッセージＩＤは、
メッセージＩＤ：12470235
である。

これらのキャラクタ列とその出所はパターン照合部に受け渡される。

パターン照合部１１１は、前記のＵＲＬを、パターン照合部１１１に知らされている、出所がＵＲＬであるキャラクタ列に関係する全てのパターン表記２０５とマッチさせることを試みる。全くマッチしないことが見出される。

パターン照合部１１１は、前記のメッセージＩＤのキャラクタ列を、パターン照合部１１１に知らされている、出所がメッセージＩＤであるキャラクタ列に関係する全てのパターン表記２０５とマッチさせることを試みる。

「数１、数字、数字、数字、数字、数字、数字、数字」のパターン表記２０５が、前記のキャラクタ列とマッチすることが見出される。

未知の電子メール１０３はスパムに分類される。スパム出力１１２に信号が送られて、次の電子メール処理システムに分類サブシステム１００ｂの評価が知らされる。

本発明による一実施形態のシステムのブロック図である。図１の実施形態において用いられているパターン生成部の例をより詳細に示すブロック図である。

Claims

ａ）様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成することと、
ｂ）前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、前記スパム電子メールのセットと前記ノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定することと、
ｃ）前記ステップｂ）で分類するのに有効と判定された前記パターン表記を、参照パターン表記として記憶することと、
ｄ）前記ステップｃ）で記憶された少なくとも１つの前記参照パターン表記を用いて、処理すべき電子メールのそれぞれを前記スパム電子メールのセットと前記ノンスパム電子メールのセットとの一方に分類することと、
を含む、電子メールを処理する自動化された方法。
各反復処理時に、前の反復処理時に用いたのとは一般性が異なる前記パターン表記を用いて前記ステップａ）と前記ステップｂ）を反復することと、結果として得られ、前記ステップｂ）で分類するのに有効と判定された、一般性が最も高い表記を参照パターン表記として記憶することと、を含む、請求項１に記載の方法。
前記ステップａ）とｂ）の前記反復の際、各反復処理時に用いられる前記パターン表記が、前の反復処理時よりも特殊性が高い、請求項２に記載の方法。
前記ステップａ）とｂ）の最初の反復処理時に、個々のキャラクタにマッチする前記表現が選択される、請求項２または３に記載の方法。
前記ステップａ）とｂ）の、次の反復処理時に、前記キャラクタ列内のキャラクタの個々のパターンにマッチする前記表現が、複数の位置のキャラクタの集合からなる前記パターンを表す表現によって置き換えられる、請求項４に記載の方法。
前記ステップａ）は、電子メールの、少なくとも１つの所定のコンポーネントからのキャラクタ列のパターン表記を形成することを含む、請求項１から５のいずれか１つに記載の方法。
前記少なくとも１つの所定のコンポーネントはメッセージＩＤを有する、請求項６に記載の方法。
前記少なくとも１つの所定のコンポーネントはＭＩＭＥバウンダリを有する、請求項６または７に記載の方法。
前記少なくとも１つの所定のコンポーネントはＵＲＬを有する、請求項６から８のいずれか１つに記載の方法。
ｅ）前記ステップｄ）の各電子メールを、その分類に従って選択的に処理すること、
をさらに含む、請求項１から９のいずれか１つに記載の方法。
前記ステップｅ）は、スパムであると分類された電子メールに関して是正措置を取ることを含む、請求項１０に記載の方法。
キャラクタ列のパターン表記を形成する前記ステップａ）は、スパム電子メールまたはノンスパム電子メールからキャラクタ列を抽出することと、抽出された前記キャラクタ列から前記パターン表記を生成することと、を含む、請求項１から１１のいずれか１つに記載の方法。
前記ステップａ）で複数の電子メールからキャラクタ列を抽出することによって前記ステップａ）からｃ）までが反復される、請求項１２に記載の方法。
前記複数の電子メールは、スパム電子メールとノンスパム電子メールとの両方を含んでいる、請求項１３に記載の方法。
ａ）様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成する手段と、
ｂ）前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、前記スパム電子メールのセットと前記ノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定する手段と、
ｃ）前記手段ｂ）によって分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶する手段と、
ｄ）前記手段ｃ）に記憶された少なくとも１つの前記参照パターン表記を用いて、処理すべき電子メールのそれぞれを前記スパム電子メールのセットと前記ノンスパム電子メールのセットとの一方に分類する手段と、
を備える、電子メールを処理する自動化されたシステム。
前記手段ａ）とｂ）は、各反復処理時に、前の反復処理時に用いたのとは一般性が異なる前記パターン表記を用いて反復的に動作し、前記手段ｃ）は、前記手段ｂ）によって分類するのに有効と判定された、一般性が最も高い表記を前記参照パターン表記として記憶するように動作する、請求項１５に記載のシステム。
前記反復の際、各反復処理時に用いられる前記パターン表記が、前の反復処理時よりも特殊性が高い、請求項１６に記載のシステム。
最初の反復処理時に、前記手段ａ）とｂ）は、個々のキャラクタにマッチする表現を選択するように動作する、請求項１６または１７に記載のシステム。
次の反復処理時に、前記手段ａ）とｂ）は、前記キャラクタ列内のキャラクタの個々のパターンにマッチする表現を、複数の位置のキャラクタの集合からなる前記パターンを表す表現によって置き換えるように動作する、請求項１８に記載のシステム。
前記手段ａ）は、電子メールの、少なくとも１つの所定のコンポーネントからのキャラクタ列のパターン表記を形成するように動作する、請求項１５から１９のいずれか１つに記載のシステム。
前記少なくとも１つの所定のコンポーネントはメッセージＩＤを有する、請求項２０に記載のシステム。
前記少なくとも１つの所定のコンポーネントはＭＩＭＥバウンダリを有する、請求項２０または２１に記載のシステム。
前記少なくとも１つの所定のコンポーネントはＵＲＬを有する、請求項２０から２２のいずれか１つに記載のシステム。
ｅ）前記手段ｄ）によって分類された各電子メールを、その分類に従って選択的に処理する手段、
をさらに備える、請求項１５から２３のいずれか１つに記載のシステム。
前記手段ｅ）は、スパムであると分類された電子メールに関して是正措置を取る手段を備える、請求項２４に記載のシステム。
前記手段ａ）は、スパム電子メールまたはノンスパム電子メールからキャラクタ列を抽出することによってキャラクタ列のパターン表記を形成し、抽出された前記キャラクタ列から前記パターン表記を生成するように動作する、請求項１５から２５のいずれか１つに記載のシステム。