JP2008538023A - 電子メールを処理する方法およびシステム - Google Patents
電子メールを処理する方法およびシステム Download PDFInfo
- Publication number
- JP2008538023A JP2008538023A JP2008501424A JP2008501424A JP2008538023A JP 2008538023 A JP2008538023 A JP 2008538023A JP 2008501424 A JP2008501424 A JP 2008501424A JP 2008501424 A JP2008501424 A JP 2008501424A JP 2008538023 A JP2008538023 A JP 2008538023A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- spam
- notation
- emails
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
未知の電子メール(103)がスパムであるかどうかを識別するシステム(100)。抽出部(104)が、電子メール(101)または電子メール(102)の、擬似ランダムなデータを含んでいるコンポーネントを抽出する。このデータは、当該データ内に見出されるパターン表記(205)を識別するパターン生成部(105)に受け渡される。前に遭遇したスパムメールからのコンポーネントの記憶部(106)内にあり、前に遭遇したノンスパム電子メールの記憶部(107)内にないコンポーネントとマッチすることがパターン生成部(105)によって見出されたパターン表記(205)が、パターン照合部111に受け渡される。パターン照合部(111)は、未知の電子メール(103)の、抽出部114によって抽出されたコンポーネントを分析する。未知の電子メール(103)からのいずれかのコンポーネントが、パターン照合部(111)に知らされたパターン表記(205)にマッチすることが見出された場合、その電子メール(103)は、スパムであると識別されてスパム出力(112)に信号が送られ、そうでなければ、電子メール(103)は、ノンスパムであると識別されてノンスパム出力(113)に信号が送られる。
Description
本発明は、電子メールを処理する、特に、スパム電子メールとノンスパム電子メールとを分類する方法およびシステムに関する。
スパム電子メール(すなわち、大量の未承諾電子メール)は、受信者の電子メール受信箱を不要なメッセージで溢れさせることで多大な迷惑を生じさせる。スパムの内容は、詐欺的な、または露骨な内容を含んでいる場合が多く、苦痛や金銭的な損失を生じさせる場合がある。これらのメッセージを処理するのに費やされる時間、それらを記憶し、処理するために電子メールシステム上に必要とされるリソース、および無駄になるネットワークリソースによって、多大な経済的損失が生じる場合がある。スパムを検出するために、多くの手段が提案されている。
しかしながら、スパム発信者は、スパム検知手段を回避するために電子メールを偽装して対処してきている。
本発明は、電子メールを送信するのに用いられているソフトウェアが、当該電子メール内に外見上ランダムなデータを含んでおり、それが当該ソフトウェアの特徴であるという事実を利用することに基づいている。この擬似ランダムなデータを分析することによって、スパム発信者によって用いられているソフトウェアを用いて送信された電子メールを特定するのに用いることができる記述パターンを生成することができる。
本発明の第1の態様によれば、
a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成することと、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定することと、
c)前記ステップb)で分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶することと、
d)前記ステップc)で記憶された少なくとも1つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類することと、
を含む、電子メールを処理する自動化された方法が提供される。
a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成することと、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定することと、
c)前記ステップb)で分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶することと、
d)前記ステップc)で記憶された少なくとも1つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類することと、
を含む、電子メールを処理する自動化された方法が提供される。
本発明の第2の態様によれば、
a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成する手段と、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定する手段と、
c)前記手段b)によって分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶する手段と、
d)前記手段c)に記憶された少なくとも1つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類する手段と、
を備える、電子メールを処理する自動化されたシステムが提供される。
a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成する手段と、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、スパム電子メールのセットとノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定する手段と、
c)前記手段b)によって分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶する手段と、
d)前記手段c)に記憶された少なくとも1つの参照パターン表記を用いて、処理すべき電子メールのそれぞれをスパム電子メールのセットとノンスパム電子メールのセットとの一方に分類する手段と、
を備える、電子メールを処理する自動化されたシステムが提供される。
したがって、本発明によれば、スパム電子メールかノンスパム電子メールかの電子メールの分類を可能とする。これによれば、キャラクタまたはキャラクタの集合との照合を異なる特徴度で特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなるパターン表記を用いることによって、有効な分類を可能にする。このような種類のパターン表記は、スパムの特徴である、電子メール内の擬似ランダムなデータを識別する際に特に有効である。これは、そのような擬似ランダムなデータが、スパム発信者によって、完全にランダムではなく、本発明のパターン表記によって識別することができる構造を有するように生成されているからである。
考慮されるキャラクタ列は、上述の種類のそのような擬似ランダムなデータを含む傾向がある電子メールコンポーネント、例えば、メッセージID、MIMEバウンダリ、またはURLから抽出されるのが好都合である。
本発明を、添付の図面を参照して、限定されない例によってさらに説明する。
図1および2は、スパムを検出する機械によって電子メールを自動的に処理する一実施形態のシステム100を示している。電子メールがスパムであると判定されると、適切な是正措置が取られてよいが、この是正措置の性質は本発明にとって重要ではない。是正措置は、当該電子メールの消去、あるいは、当該電子メールがスパムであることの注意喚起および/または特定のフォルダへの当該電子メールの移動を含んでいてよい。
スパムの検出は、多数のユーザのために、ISPが多数のユーザに提供することができる付加価値サービスとなっているので、図1および2に示すシステム100は主としてISPによって動作させられるように構成されており、この付加価値サービスでは、学習サブシステム100aの運転費用が多数のユーザによって分担される。また、多数のユーザのために以前に処理された電子メールがリソースとして用いられて、スパムおよびノンスパムの各コーパスが形成される。しかし、本発明は、他の状況、例えば、LANとインターネットの間のゲートウェイや、ユーザのパーソナルコンピュータ上で動作する、電子メールのクライアント用のアンチスパムフィルタで電子メールを処理する場合にも適用可能である。
図1は、本発明による一実施形態のシステム100を示している。
システム100は、学習サブシステム100aと分類サブシステム100bとの2つのサブシステムを有している。
学習サブシステム100aは、既知のスパム電子メール101を入力108の所で受け入れ、既知のノンスパム電子メール102を入力109の所で受け入れる。パターン生成部105からパターン照合部111にパターンが受け渡される。
学習サブシステム100aは、必要に応じて動作させることができ、分類サブシステム100bに左右されることはない。
分類サブシステム100bは、学習サブシステム100aが、幾つかのパターンをパターン照合部111に受け渡していることを必要とし、さもなければ、分類サブシステム100bは、学習システム100aとは独立して動作する。パターンは、パターン生成部105からパターン照合部111にいつ受け渡されてもよい。
分類サブシステム100bは、未知の電子メール103を入力110の所で受け入れ、それらを処理し、分類サブシステム100bが電子メール103をスパムと見なした場合には出力112に信号を送り、分類サブシステム100bが未知の電子メール103をノンスパムと見なした場合には出力113に信号を送る。出力112または113は、上述した是正措置を取るシステムに送られる。
システム100を、または分類サブシステム100bのみを、自立システムとして動作させてもよく、あるいは、電子メールに対する他の評価を行う、より大きなスパム検知システムの一部として動作させてもよい。
図2は、パターン生成部104内に含まれた構成要素を示すために学習サブシステム100aを示している。
パターン生成部104は、抽出部104から、キャラクタ列202、および、電子メール101または102のどのコンポーネントがキャラクタ列202を形成しているかを示す、キャラクタ列202の出所201を受け取る。
キャラクタ列202は置換部203によって段階的に分析され、置換部203は、キャラクタ列202内に見出される各キャラクタを、シノニム記憶部204によって規定される一定の特殊性を有するシノニムによって置き換えてパターン表記205を生成する。
以下の記載から明らかになるように、用語「シノニム」は、単一のキャラクタまたはキャラクタ列のパターン照合用表現を意味するものとして用いている。どの文字も、問題としている単一のキャラクタのみに厳密にマッチするパターン照合用表現から、問題としているキャラクタ、およびそのキャラクタとある意味で同じ「クラス」に属する他のキャラクタにマッチする、より一般性が高いパターン照合用表現までの様々な特殊性を有するシノニムのセットに結び付けられていてよい。例えば、文字「A」は、当該文字のみにマッチするパターン照合用表現、当該文字およびそれの小文字の相当語句「a」にマッチするパターン照合用表現、および、英数キャラクタや印刷可能なキャラクタにマッチするパターン照合用表現などによって表現されてよい。
キャラクタ列を示す、様々な特殊性を有する複数のシノニム/パターン照合用表現を用いてもよい。
パターン表記205を特に簡便に生成する方法は、いわゆる「正規表現」を用いることである。
このパターン表記205は、短縮部206によって修正されてパターン表記205の短縮形が生成され、あるいは、絞込部207によって修正されて、より特殊性が高いパターン表記205が生成され、このパターン表記205は短縮部206に受け渡されてもよい。
パターン表記205、および、短縮部206および絞込部207によって供給されるいずれの修正形も評価部208に受け渡され、評価部208は、既知のスパムコンポーネントの記憶部106、および既知のノンスパムコンポーネントの記憶部107を参照して、これらの供給されたパターン表記205のいずれかが、パターン照合部111に受け渡すべき特殊性基準に合致しているかどうかを判定する。
学習サブシステム100aは、以下のアルゴリズムに従って動作する。
1)抽出部104が、電子メール101または102のコンポーネントを抽出し、このコンポーネントは、電子メールがスパム電子メール101である場合、擬似ランダムなキャラクタデータを含んでいる場合がある。これらのコンポーネントは、そのような擬似ランダムなデータが見出されることが期待されるどのコンポーネントであってもよく、例えば、電子メール101または102のメッセージIDヘッダの内容、MIMEバウンダリヘッダの内容、電子メール101または102内に含まれる任意のURL、または他の特徴部であってよい。
2)既知のスパムコンポーネントの記憶部106、および既知のノンスパムコンポーネントの記憶部107に、抽出部104によって供給されたデータおよび当該データの出所が将来の参照のために記憶される。
3)パターン生成部105が、抽出部104からの出力を分析する。
パターン生成部105の詳細な働きを以下に示す(図2も参照)。
要約すると、抽出部104から供給されたコンポーネントからパターン生成部105によって生成されたパターン表記205は、既知のスパムコンポーネントの記憶部106、および既知のノンスパムコンポーネントの記憶部107に含まれたコンポーネントと比較されて評価される。既知のスパムコンポーネント106の記憶部106内の、パターン表記205がマッチするパターンの最低数の閾値、および、既知のノンスパムコンポーネントの記憶部107内の、パターン表記205がマッチするパターンの最大数の閾値が、所定の基準によって定められている。この基準を満たすパターン表記205が、それらの出所201と共にパターン照合部111に受け渡される。パターン表記205は直ぐに受け渡されてもよく、あるいは、後でバッチ更新の一部として受け渡すために記憶される。
要約すると、抽出部104から供給されたコンポーネントからパターン生成部105によって生成されたパターン表記205は、既知のスパムコンポーネントの記憶部106、および既知のノンスパムコンポーネントの記憶部107に含まれたコンポーネントと比較されて評価される。既知のスパムコンポーネント106の記憶部106内の、パターン表記205がマッチするパターンの最低数の閾値、および、既知のノンスパムコンポーネントの記憶部107内の、パターン表記205がマッチするパターンの最大数の閾値が、所定の基準によって定められている。この基準を満たすパターン表記205が、それらの出所201と共にパターン照合部111に受け渡される。パターン表記205は直ぐに受け渡されてもよく、あるいは、後でバッチ更新の一部として受け渡すために記憶される。
パターン生成部105は、以下のアルゴリズムに従って動作する。
1)抽出部104が、擬似ランダムなデータのキャラクタ列202、およびそのキャラクタ列202の出所201を置換部203に受け渡す。キャラクタ列201の出所は、メッセージID、MIMEバウンダリ、URL、または、当該キャラクタ列のデータの出所である他のポインタであってよい。
2)置換部203が、シノニム記憶部204を参照してキャラクタ列202のパターン表記205を生成し、この際、キャラクタ列内の各キャラクタが、シノニム、すなわちパターン照合用表現によって置き換えられる。
シノニム記憶部204は、抽出部104からのキャラクタ列の出力のテキスト内に見いだすことができる各キャラクタに対してシノニムのセットを保持している。これらのシノニムは、特殊性が最も低いものから最も高いものへと特殊性の順に配置されている。例えば、キャラクタ「A」に対するシノニムのセットは、
非空白キャラクタ、
英数キャラクタ、
大文字キャラクタ、
文字「A」、
であってよい。同様に、数「9」に対するシノニムのセットは、
非空白キャラクタ、
英数キャラクタ、
数字、
数「9」、
であってよい。
非空白キャラクタ、
英数キャラクタ、
大文字キャラクタ、
文字「A」、
であってよい。同様に、数「9」に対するシノニムのセットは、
非空白キャラクタ、
英数キャラクタ、
数字、
数「9」、
であってよい。
置換部203は、キャラクタ列202内の各キャラクタを順次分析する。置換部203は、キャラクタ列202内のキャラクタを、どのような順番で分析してもよく、例えば、左から右へ、右から左へ、あるいは、左から中央のキャラクタへ、続いて右から中央のキャラクタへと分析してよい。
置換部203は、キャラクタ列202が分析されるのと同じ順番でキャラクタ毎にパターン表記205を生成する。キャラクタ列202内の各キャラクタのために、当該キャラクタに対するシノニムがパターン表記205内に配置される。最初は、各キャラクタに対して特殊性が最も低いシノニムがシノニム記憶部204から選択される。以下に記載するように、次のパターン表記205を生成するために、このキャラクタ列に対する前のパターン表記の生成に比べて次に特殊性が低いシノニムが各キャラクタに対して選択され、したがって、反復する毎に、特殊性が最も低いシノニムから特殊性が最も高いシノニムへの移行が行われる。
シノニム記憶部204から得られる、特殊性がより高いシノニムがなくなると、パターン生成部105の動作は終了する。
3)パターン表記205を短縮部206に受け渡して、パターン表記205から短縮形を生成してもよい。これは、同じシノニムの、任意の連続を、「シノニムの連続」を表す語句により置き換えることによって達成される。
結果として得られた修正されたパターン表記205が評価部208に受け渡される。
例えば、キャラクタ列「ABCD」は、最初のパスで置換部203によって、「非空白キャラクタ、次に、非空白キャラクタ、次に、非空白キャラクタ、次に、非空白キャラクタ」というシノニムを有するパターン表記で表される。短縮部206は、これを、「非空白キャラクタの連続」に短縮する。
4)パターン表記205を絞込部207に受け渡して、特殊性がより高いパターン表記205を生成してもよい。絞込部207は、既知のスパムコンポーネントの記憶部106内の、パターン表記205と同じ出所のキャラクタ列のセットを読み出す。
絞込部207は、このキャラクタ列内の各キャラクタ位置にわたって動作し、このキャラクタを、パターン表記205の、当該キャラクタに対応する位置にあるキャラクタのシノニムと比較する。これらのキャラクタのうちの、所定のしきい値数より多くが、パターン表記205の、対応する位置に見出されたシノニムよりも特殊性が高いシノニムに相当していた場合、絞込部207は、現在のシノニムを、特殊性がより高いこのシノニムと置き換える。
各キャラクタ位置を考慮した後、結果として得られた修正されたパターン表記205を、ステップ3)と同じプロセスで短縮形にさらに修正するために短縮部206に受け渡してもよい。例えば、パターン表記「大文字キャラクタ、大文字キャラクタ、数」は、既知のスパムコンポーネントの記憶部106内に記憶されたキャラクタ列のセット「AD1」、「BE1」、「CF1」にマッチする。キャラクタのこのセットの分析によって、これらのキャラクタ列の最初の所で、キャラクタのセット「A」、「B」、「C」が得られる。2番目のキャラクタ位置からのキャラクタのセットは、セット「D」、「E」、「F」である。キャラクタ列の最後からのキャラクタのセットは、「1」、「1」、「1」である。シノニム記憶部204は、キャラクタ「A」、「B」、「C」に対しても2番目のセット「D」、「E」、「F」に対しても、それよりも特殊性が高いシノニムを含んでいない。今、パターン表記は、最後の位置のキャラクタを表すためにシノニム「数」を含んでいる。前記キャラクタのセットのこの位置には「1」、「1」、「1」が見出され、シノニム記憶部204は、キャラクタのこのセットに、現在のシノニムよりも特殊性が高いシノニム、すなわち「数1」を含んでいる。したがって、このシノニムを置き換え、パターン表記を、「大文字キャラクタ、大文字キャラクタ、数1」と書き換えてもよい。
5)置換部203によって生成されたパターン表記205、および短縮部206または絞込部207によって生成された任意の修正形が評価部208に受け渡される。
6)評価部208は、既知のスパムコンポーネントの記憶部106および既知のノンスパムコンポーネントの記憶部107内の、現在のパターン表記205と同じ出所のキャラクタ列を検索する。
パターン表記205がこれらのキャラクタ列と比較され、各記憶部についてパターン表記205にマッチさせることができるキャラクタ列の数が計算される。
評価部208は、これらの計算結果を、既知のスパムコンポーネントの記憶部106からのキャラクタ列とのマッチ数の最小値、および、既知のノンスパムコンポーネントの記憶部107からのキャラクタ列とのマッチ数の最大値についての閾値と比較する。これらの基準が満たされない場合、そのパターン表記205は不合格と判定される。
そうでない場合、評価部208は、置換部203、短縮部206、および絞込部207によって供給されたパターン表記205から最も判別に適したパターン表記205、すなわち、既知のスパムコンポーネントの記憶部106からのキャラクタ列のうちでマッチするものが最も多く、既知のノンスパムコンポーネントの記憶部107からのキャラクタ列のうちでマッチするものが最も少ないパターン表記205を、供給されたパターン表記205の中から選択する。このパターン表記205およびその出所201が、分類サブシステム100bで用いるためにパターン照合部111に受け渡される。
評価部208は、その動作完了を示す信号を置換部203に返す。置換部203は、ステップ2のプロセスを継続して、特殊性がより高いシノニムのセットを有する新たなパターン表記205を生成し、あるいは、シノニム記憶部204からシノニムをもはや得られなければ動作を終了する。
分類サブシステム100bは以下のアルゴリズムに従って動作する。
1)抽出部114は、電子メール103の、擬似ランダムなデータを含むコンポーネントを特定する。これらのコンポーネントは、電子メールのメッセージIDヘッダの内容、MIMEバウンダリヘッダの内容、または、電子メール内に含まれるいずれのURLであってもよい。これらのデータおよびその出所はパターン照合部111に出力される。
2)図2にステップ115によって示すように、パターン照合部111は、抽出部114によって供給されたキャラクタ列を、特定のデータの出所について、学習サブシステム100aのパターン生成部105によってパターン照合部111に事前に供給されたパターン表記205のいずれかにマッチするパターンを求めて検索する。
そのようなパターンが見つかった場合、未知の電子メール103内に含まれるデータは、評価部208によって与えられた規準に従って、複数の既知のスパム電子メール内で前に見つかり、また、ある度合いで、既知のノンスパム電子メール内で実質的に見つかっていないパターンに一致している。このような場合、パターン照合部111は、スパム出力112に信号を送る。
そのようなパターンが見つからなかった場合、パターン照合部111はノンスパム出力113に信号を送る。
次に、例示のために実施例を示す。
既知のスパム電子メール101が学習サブシステム100aに送られる。
抽出部104は、その電子メールのメッセージIDヘッダを、
メッセージID:12345678
と識別する。
メッセージID:12345678
と識別する。
抽出部104は、「メッセージID」という出所201、および「12345678」というキャラクタ列202をパターン生成部に受け渡す。
置換部203は、キャラクタ列を左から右に処理する。
最初のキャラクタは「1」である。シノニム記憶部204は、「非空白」という、このキャラクタについて特殊性が最も低いシノニムを返す。
キャラクタ列の各キャラクタが順に分析され、これによって、「非空白、非空白、非空白、非空白、非空白、非空白、非空白、非空白」というパターン表記205が生成される。
このパターン表記205は短縮部206に受け渡され、短縮部206は、「非空白の連続」という修正されたパターン表記205を生成する。
絞込部207は、既知のスパムコンポーネントの記憶部106に問い合わせを行って、出所がメッセージIDである全てのキャラクタ列のセットを読み出す。返されたキャラクタ列のキャラクタには、有意義な類似性を見出すことはできない。
2つのパターン表記205が評価部に受け渡される。
評価部208は、既知のスパムコンポーネントの記憶部106と既知のノンスパムコンポーネントの記憶部107との両方における、出所がメッセージIDである全てのキャラクタ列が、パターン表記205とマッチすることを見出す。
評価部208は、さらなる動作を行うことなく、置換部203に動作を戻す。
置換部203は、続いて、キャラクタに対して、次に特殊性が高いシノニムを要求する。これによって、「数字、数字、数字、数字、数字、数字、数字、数字」というパターン表記205が得られる。
短縮部206は、これを、「数字の連続」に修正する。
絞込部207は、既知のスパムコンポーネントの記憶部106に問い合わせを行って、出所がメッセージIDである全てのキャラクタ列のセットを読み出す。これらのキャラクタ列の全ての場合において、最初のキャラクタは数「1」である。
絞込部207は、パターン表記205を、「数1、数字、数字、数字、数字、数字、数字、数字」に修正する。
これらのパターン表記205は評価部208に受け渡される。
評価部208は、「数字、数字、数字、数字、数字、数字、数字、数字」と「数字の連続」との両方のパターンが、既知の全てのスパムコンポーネントの記憶部106内に保持された、メッセージIDについてのキャラクタ列の5%とマッチし、既知の全てのノンスパムコンポーネントの記憶部107内に保持された、メッセージIDについてのキャラクタ列の1%とマッチすることを見出す。「数1、数字、数字、数字、数字、数字、数字、数字」というパターン表記205は、既知の全てのスパムコンポーネントの記憶部106内に保持された、メッセージIDについてのキャラクタ列の5%とマッチし、既知の全てのノンスパムコンポーネントの記憶部107に保持された、メッセージIDについてのキャラクタ列とは全くマッチしない。
これらのパターン表記205の全ては、パターン照合器111に受け渡すための基準を満たしている。「数1、数字、数字、数字、数字、数字、数字、数字」というパターン表記205が、判別に最も適しているので、これがパターン照合部111に受け渡される。
評価部208は置換部203に動作を戻す。
未知の電子メール103が分類サブシステム100bに送られる。
抽出部114は、電子メール103内のメッセージIDとURLを識別する。URLは、
http://www.domain.com/counter.gif?tracker_id=24543z&user_id=qs45wt
である。メッセージIDは、
メッセージID:12470235
である。
http://www.domain.com/counter.gif?tracker_id=24543z&user_id=qs45wt
である。メッセージIDは、
メッセージID:12470235
である。
これらのキャラクタ列とその出所はパターン照合部に受け渡される。
パターン照合部111は、前記のURLを、パターン照合部111に知らされている、出所がURLであるキャラクタ列に関係する全てのパターン表記205とマッチさせることを試みる。全くマッチしないことが見出される。
パターン照合部111は、前記のメッセージIDのキャラクタ列を、パターン照合部111に知らされている、出所がメッセージIDであるキャラクタ列に関係する全てのパターン表記205とマッチさせることを試みる。
「数1、数字、数字、数字、数字、数字、数字、数字」のパターン表記205が、前記のキャラクタ列とマッチすることが見出される。
未知の電子メール103はスパムに分類される。スパム出力112に信号が送られて、次の電子メール処理システムに分類サブシステム100bの評価が知らされる。
Claims (26)
- a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成することと、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、前記スパム電子メールのセットと前記ノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定することと、
c)前記ステップb)で分類するのに有効と判定された前記パターン表記を、参照パターン表記として記憶することと、
d)前記ステップc)で記憶された少なくとも1つの前記参照パターン表記を用いて、処理すべき電子メールのそれぞれを前記スパム電子メールのセットと前記ノンスパム電子メールのセットとの一方に分類することと、
を含む、電子メールを処理する自動化された方法。 - 各反復処理時に、前の反復処理時に用いたのとは一般性が異なる前記パターン表記を用いて前記ステップa)と前記ステップb)を反復することと、結果として得られ、前記ステップb)で分類するのに有効と判定された、一般性が最も高い表記を参照パターン表記として記憶することと、を含む、請求項1に記載の方法。
- 前記ステップa)とb)の前記反復の際、各反復処理時に用いられる前記パターン表記が、前の反復処理時よりも特殊性が高い、請求項2に記載の方法。
- 前記ステップa)とb)の最初の反復処理時に、個々のキャラクタにマッチする前記表現が選択される、請求項2または3に記載の方法。
- 前記ステップa)とb)の、次の反復処理時に、前記キャラクタ列内のキャラクタの個々のパターンにマッチする前記表現が、複数の位置のキャラクタの集合からなる前記パターンを表す表現によって置き換えられる、請求項4に記載の方法。
- 前記ステップa)は、電子メールの、少なくとも1つの所定のコンポーネントからのキャラクタ列のパターン表記を形成することを含む、請求項1から5のいずれか1つに記載の方法。
- 前記少なくとも1つの所定のコンポーネントはメッセージIDを有する、請求項6に記載の方法。
- 前記少なくとも1つの所定のコンポーネントはMIMEバウンダリを有する、請求項6または7に記載の方法。
- 前記少なくとも1つの所定のコンポーネントはURLを有する、請求項6から8のいずれか1つに記載の方法。
- e)前記ステップd)の各電子メールを、その分類に従って選択的に処理すること、
をさらに含む、請求項1から9のいずれか1つに記載の方法。 - 前記ステップe)は、スパムであると分類された電子メールに関して是正措置を取ることを含む、請求項10に記載の方法。
- キャラクタ列のパターン表記を形成する前記ステップa)は、スパム電子メールまたはノンスパム電子メールからキャラクタ列を抽出することと、抽出された前記キャラクタ列から前記パターン表記を生成することと、を含む、請求項1から11のいずれか1つに記載の方法。
- 前記ステップa)で複数の電子メールからキャラクタ列を抽出することによって前記ステップa)からc)までが反復される、請求項12に記載の方法。
- 前記複数の電子メールは、スパム電子メールとノンスパム電子メールとの両方を含んでいる、請求項13に記載の方法。
- a)様々な特殊性で、キャラクタ、またはキャラクタの集合とマッチしているかどうかを特定できる表現のセットからそれぞれ選択されたパターン照合用表現の集合からなる、電子メールのキャラクタ列のパターン表記を形成する手段と、
b)前記パターン表記を、スパム電子メールのセットおよびノンスパム電子メールのセットに属する電子メールから抽出されたキャラクタ列の学習用セットと比較して評価し、前記パターン表記が、それらの電子メールのそれぞれを、前記スパム電子メールのセットと前記ノンスパム電子メールのセットとのそれぞれに分類するのに有効かどうかを判定する手段と、
c)前記手段b)によって分類するのに有効と判定されたパターン表記を、参照パターン表記として記憶する手段と、
d)前記手段c)に記憶された少なくとも1つの前記参照パターン表記を用いて、処理すべき電子メールのそれぞれを前記スパム電子メールのセットと前記ノンスパム電子メールのセットとの一方に分類する手段と、
を備える、電子メールを処理する自動化されたシステム。 - 前記手段a)とb)は、各反復処理時に、前の反復処理時に用いたのとは一般性が異なる前記パターン表記を用いて反復的に動作し、前記手段c)は、前記手段b)によって分類するのに有効と判定された、一般性が最も高い表記を前記参照パターン表記として記憶するように動作する、請求項15に記載のシステム。
- 前記反復の際、各反復処理時に用いられる前記パターン表記が、前の反復処理時よりも特殊性が高い、請求項16に記載のシステム。
- 最初の反復処理時に、前記手段a)とb)は、個々のキャラクタにマッチする表現を選択するように動作する、請求項16または17に記載のシステム。
- 次の反復処理時に、前記手段a)とb)は、前記キャラクタ列内のキャラクタの個々のパターンにマッチする表現を、複数の位置のキャラクタの集合からなる前記パターンを表す表現によって置き換えるように動作する、請求項18に記載のシステム。
- 前記手段a)は、電子メールの、少なくとも1つの所定のコンポーネントからのキャラクタ列のパターン表記を形成するように動作する、請求項15から19のいずれか1つに記載のシステム。
- 前記少なくとも1つの所定のコンポーネントはメッセージIDを有する、請求項20に記載のシステム。
- 前記少なくとも1つの所定のコンポーネントはMIMEバウンダリを有する、請求項20または21に記載のシステム。
- 前記少なくとも1つの所定のコンポーネントはURLを有する、請求項20から22のいずれか1つに記載のシステム。
- e)前記手段d)によって分類された各電子メールを、その分類に従って選択的に処理する手段、
をさらに備える、請求項15から23のいずれか1つに記載のシステム。 - 前記手段e)は、スパムであると分類された電子メールに関して是正措置を取る手段を備える、請求項24に記載のシステム。
- 前記手段a)は、スパム電子メールまたはノンスパム電子メールからキャラクタ列を抽出することによってキャラクタ列のパターン表記を形成し、抽出された前記キャラクタ列から前記パターン表記を生成するように動作する、請求項15から25のいずれか1つに記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0506844A GB2424969A (en) | 2005-04-04 | 2005-04-04 | Training an anti-spam filter |
PCT/GB2006/001229 WO2006106318A1 (en) | 2005-04-04 | 2006-04-04 | A method of, and a system for, processing emails |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008538023A true JP2008538023A (ja) | 2008-10-02 |
Family
ID=34586693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008501424A Withdrawn JP2008538023A (ja) | 2005-04-04 | 2006-04-04 | 電子メールを処理する方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080168144A1 (ja) |
EP (1) | EP1866840A1 (ja) |
JP (1) | JP2008538023A (ja) |
AU (1) | AU2006232612A1 (ja) |
GB (1) | GB2424969A (ja) |
WO (1) | WO2006106318A1 (ja) |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080005249A1 (en) * | 2006-07-03 | 2008-01-03 | Hart Matt E | Method and apparatus for determining the importance of email messages |
US7945627B1 (en) * | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
GB2443469A (en) * | 2006-11-03 | 2008-05-07 | Messagelabs Ltd | Detection of image spam |
US8135780B2 (en) * | 2006-12-01 | 2012-03-13 | Microsoft Corporation | Email safety determination |
US8572184B1 (en) | 2007-10-04 | 2013-10-29 | Bitdefender IPR Management Ltd. | Systems and methods for dynamically integrating heterogeneous anti-spam filters |
US8010614B1 (en) | 2007-11-01 | 2011-08-30 | Bitdefender IPR Management Ltd. | Systems and methods for generating signatures for electronic communication classification |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8695100B1 (en) | 2007-12-31 | 2014-04-08 | Bitdefender IPR Management Ltd. | Systems and methods for electronic fraud prevention |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8170966B1 (en) | 2008-11-04 | 2012-05-01 | Bitdefender IPR Management Ltd. | Dynamic streaming message clustering for rapid spam-wave detection |
US8718318B2 (en) | 2008-12-31 | 2014-05-06 | Sonicwall, Inc. | Fingerprint development in image based spam blocking |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9465789B1 (en) * | 2013-03-27 | 2016-10-11 | Google Inc. | Apparatus and method for detecting spam |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10579212B2 (en) | 2014-05-30 | 2020-03-03 | Apple Inc. | Structured suggestions |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10565219B2 (en) | 2014-05-30 | 2020-02-18 | Apple Inc. | Techniques for automatically generating a suggested contact based on a received message |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US11025565B2 (en) * | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10003938B2 (en) | 2015-08-14 | 2018-06-19 | Apple Inc. | Easy location sharing |
US10445425B2 (en) | 2015-09-15 | 2019-10-15 | Apple Inc. | Emoji and canned responses |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180171B1 (en) | 2018-05-07 | 2020-07-14 | Apple Inc | USER INTERFACES FOR SHARING CONTEXTUALLY RELEVANT MEDIA CONTENT |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11194467B2 (en) | 2019-06-01 | 2021-12-07 | Apple Inc. | Keyboard management user interfaces |
US11074408B2 (en) | 2019-06-01 | 2021-07-27 | Apple Inc. | Mail application features |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6424997B1 (en) * | 1999-01-27 | 2002-07-23 | International Business Machines Corporation | Machine learning based electronic messaging system |
US6714967B1 (en) * | 1999-07-30 | 2004-03-30 | Microsoft Corporation | Integration of a computer-based message priority system with mobile electronic devices |
GB2373130B (en) * | 2001-03-05 | 2004-09-22 | Messagelabs Ltd | Method of,and system for,processing email in particular to detect unsolicited bulk email |
US7076527B2 (en) * | 2001-06-14 | 2006-07-11 | Apple Computer, Inc. | Method and apparatus for filtering email |
US6769016B2 (en) * | 2001-07-26 | 2004-07-27 | Networks Associates Technology, Inc. | Intelligent SPAM detection system using an updateable neural analysis engine |
US20040083270A1 (en) * | 2002-10-23 | 2004-04-29 | David Heckerman | Method and system for identifying junk e-mail |
US7272853B2 (en) * | 2003-06-04 | 2007-09-18 | Microsoft Corporation | Origination/destination features and lists for spam prevention |
-
2005
- 2005-04-04 GB GB0506844A patent/GB2424969A/en not_active Withdrawn
-
2006
- 2006-04-04 WO PCT/GB2006/001229 patent/WO2006106318A1/en not_active Application Discontinuation
- 2006-04-04 AU AU2006232612A patent/AU2006232612A1/en not_active Abandoned
- 2006-04-04 JP JP2008501424A patent/JP2008538023A/ja not_active Withdrawn
- 2006-04-04 EP EP06726633A patent/EP1866840A1/en not_active Withdrawn
- 2006-04-04 US US11/884,939 patent/US20080168144A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2006106318A1 (en) | 2006-10-12 |
AU2006232612A1 (en) | 2006-10-12 |
US20080168144A1 (en) | 2008-07-10 |
GB2424969A (en) | 2006-10-11 |
EP1866840A1 (en) | 2007-12-19 |
GB0506844D0 (en) | 2005-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008538023A (ja) | 電子メールを処理する方法およびシステム | |
US8489689B1 (en) | Apparatus and method for obfuscation detection within a spam filtering model | |
US8065379B1 (en) | Line-structure-based electronic communication filtering systems and methods | |
US8010614B1 (en) | Systems and methods for generating signatures for electronic communication classification | |
JP4810915B2 (ja) | データ検索装置及び方法、並びにコンピュータ・プログラム | |
KR100943870B1 (ko) | 잠재적 수신자를 식별하는 방법 및 장치 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
US8112484B1 (en) | Apparatus and method for auxiliary classification for generating features for a spam filtering model | |
Kontsewaya et al. | Evaluating the effectiveness of machine learning methods for spam detection | |
US20230306289A1 (en) | Machine learning and validation of account names, addresses, and/or identifiers | |
US20060149821A1 (en) | Detecting spam email using multiple spam classifiers | |
Renuka et al. | Improving E-mail spam classification using ant colony optimization algorithm | |
Govil et al. | A machine learning based spam detection mechanism | |
Trivedi et al. | A combining classifiers approach for detecting email spams | |
CN114866966B (zh) | 一种基于大数据的短信用户管理方法 | |
Kaur et al. | Improved email spam classification method using integrated particle swarm optimization and decision tree | |
US8356076B1 (en) | Apparatus and method for performing spam detection and filtering using an image history table | |
Marza et al. | Classification of spam emails using deep learning | |
Reddy et al. | Classification of Spam Messages using Random Forest Algorithm | |
EP3913882B1 (en) | Method and information processing apparatus for flagging anomalies in text data | |
Singh et al. | Enhancing spam detection on SMS performance using several machine learning classification models | |
JP4686724B2 (ja) | 迷惑メールのフィルタ機能を有する電子メールシステム | |
KR102005420B1 (ko) | 전자메일 저자 분류 방법 및 장치 | |
Kalaibar et al. | Spam filtering by using genetic based feature selection | |
Sonare et al. | E-mail Spam Detection Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090626 |