JP2007532054A - 電子通信を分類する方法及び装置 - Google Patents

電子通信を分類する方法及び装置 Download PDF

Info

Publication number
JP2007532054A
JP2007532054A JP2007504094A JP2007504094A JP2007532054A JP 2007532054 A JP2007532054 A JP 2007532054A JP 2007504094 A JP2007504094 A JP 2007504094A JP 2007504094 A JP2007504094 A JP 2007504094A JP 2007532054 A JP2007532054 A JP 2007532054A
Authority
JP
Japan
Prior art keywords
routing information
tokens
header
electronic communication
headers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007504094A
Other languages
English (en)
Inventor
ヴィップル ヴェド プラカシュ
Original Assignee
クラウドマーク インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クラウドマーク インコーポレイテッド filed Critical クラウドマーク インコーポレイテッド
Publication of JP2007532054A publication Critical patent/JP2007532054A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/214Monitoring or handling of messages using selective forwarding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

【課題】電子通信の分類に関する技術を提供する。
【解決手段】電子通信を分類する方法及び装置。一実施形態では、本方法は、電子通信内の1セットの1つ又はそれよりも多くのヘッダをトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させる段階と、トークンの第1のセットを1つ又はそれよりも多くのトークンの第2のセットと比較して、電子通信が所定のカテゴリに入るか否かを判断する段階とを含む。他の実施形態も特許請求して説明する。
【選択図】図1A

Description

関連出願の参照
本出願は、「ホーソン・ライト」という名称の2004年3月16日出願の米国特許仮出願第60/553,743号の利益を主張するものである。
本発明は、電子通信に関し、より具体的には、電子通信の分類に関する。
今日、電子通信の使用は、個人的な目的及び仕事関連の目的の両方のために益々一般的になってきている。本明細書で使用する「電子通信」という用語は、ボイスメール通信、ショートメッセージサービス(SMS)通信、マルチメディアメッセージングサービス(MMS)通信、ファクシミリ通信などを含むあらゆるタイプの電子通信又はメッセージを含むように広義に解釈されるものとする。電子通信の増大する一般性と共に、より多くのマーケティング担当者は、彼らの製品及び/又はサービスを宣伝するためにスパムを送信している。本明細書で使用する「スパム」という用語は、要求されていない及び/又は合意でない電子通信を意味している。「要求していない広告電子メール」(UCE)、「要求していない大量電子メール」(UBE)、「グレーメール」、及びごく普通の「ジャンクメール」としても公知のスパムは、典型的には製品を宣伝するために使用される。
しかし、スパムの大量配信は、多くのユーザに迷惑だけでなく同様に浪費の問題も引き起こしている。従って、着信電子通信からスパムをフィルタで除くための多くのソフトウエアアプリケーションが開発されてきた。残念ながら、これらのスパムフィルタリングソフトウエアアプリケーションの1つの典型的な副次的な作用は、スパムフィルタリングソフトウエアアプリケーションによって発生された偽陽性のために一部の正当な電子通信がスパムと共に誤ってフィルタで除かれる場合があるということである。例えば、一部の既存のスパムフィルタリングソフトウエアアプリケーションは、受信者の大きなリストのような正当な電子ニュースレター内の一部のスパムのような特徴のために正当な電子ニュースレターを誤って阻止する場合がある。ユーザは、良くても、スパムに対して指定された位置から正当な電子通信を手作業で検索し、及び/又はスパムフィルタリングソフトウエアによる判断を無効にする必要があるであろう。最悪の場合、ユーザは、スパムフィルタリングソフトウエアがユーザに通知することなく正当な電子通信を削除させた場合には、正当な電子通信が誤ってフィルタで除かれたことさえ知らない場合がある。
米国特許仮出願第60/553,743号
本発明は、電子通信を分類する方法及び装置を含む。一実施形態では、本方法は、電子通信内の1つ又はそれよりも多くのヘッダの1セットをトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させる段階と、トークンの第1のセットを1つ又はそれよりも多くのトークンの第2のセットと比較して、電子通信が所定のカテゴリに入るか否かを判断する段階とを含む。
本発明の他の特徴は、添付の図面及び以下の詳細な説明から明らかになるであろう。
本発明は、例示的に示すものであり、同じ参照番号が類似の要素を示す添付図面の図には制限されない。
電子通信を分類する方法及び装置を説明する。一実施形態では、本方法は、電子通信内の1つ又はそれよりも多くのヘッダの1セットをトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させる段階と、トークンの第1のセットを1つ又はそれよりも多くのトークンの第2のセットと比較して、電子通信が所定のカテゴリに入るか否かを判断する段階とを含む。
以下の説明では、多数の特定の詳細が示されている。しかし、本発明の実施形態は、これらの特定の詳細なしに実施することができることが理解される。他の場合には、公知の構成要素、構造、及び技術は、この説明の理解を曖昧にしないように詳しく示されていない。
本明細書での「一実施形態」又は「実施形態」への言及は、その実施形態に関連して説明した特定の特徴、構造、又は特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。本明細書の様々な箇所での「一実施形態では」という語句の出現は、必ずしも全てが同じ実施形態を参照するものではない。
図1Aは、電子通信を分類するための処理の一実施形態の流れ図を示している。この処理は、ハードウエア(例えば、回路、専用ロジックなど)、ソフトウエア(汎用コンピュータシステム又は専用マシン上で実行されるような)、又は両方を結合したものを含むことができる処理ロジックによって実行される。
処理ロジックは、電子通信クライアントアプリケーション(例えば、電子メールソフトウエア)で受信した電子通信内の1つ又はそれよりも多くのヘッダの1セットをトークン化し、1つ又はそれよりも多くのトークンの第1のセットを発生する(処理ブロック110)。電子通信は、偽造しにくい様々なタイプのヘッダを包含することができる。電子メール通信に対しては、偽造しにくいヘッダは受信ヘッダである。この結果、以下の説明は、「受信」ヘッダに的を絞ることになる。しかし、本明細書に開示する技術は、適切な場合にはヘッダの他のタイプに適用可能であることが理解されるものである。
トークン化中に、処理ロジックは、ヘッダから一部の所定の情報を抽出することができる。しかし、一実施形態では、ある一定の値がヘッダの1つで失われている場合、処理ロジックは、このヘッダを無視し、このヘッダからトークンを発生しないであろう。処理ロジックは、電子通信内の全「受信」ヘッダを調べることにより、ヘッダ内で関連情報が利用可能なだけ多くのトークンを発生することができる。
個々のヘッダ内の情報に加えて、処理ロジックは、電子通信におけるヘッダのセット内のヘッダの順序を抽出し、抽出された順序をトークンに符号化することができる。「受信」ヘッダに関して、ヘッダの順序は、クライアントアプリケーションに到達するのに電子通信が取った経路を判断するのに有用である。図1Bは、この概念を例証するために電子通信ネットワークの例示的な実施形態を示している。
図1Bを参照すると、電子通信ネットワーク100は、いくつかのサーバ(例えば、サーバA1110、サーバB1112、サーバN1118)とクライアントアプリケーション1190とを含む。電子通信1101、1102、1108は、サーバを通じてクライアントアプリケーション1190に経路指定される。1つの電子通信がサーバを通じて経路指定される場合、サーバは、サーバの様々な情報(例えば、ホスト名、IPアドレスなど)を含む「受信」ヘッダを電子通信内に追加する。例えば、サーバA1110は、「ヘッダA」を電子通信1101内に追加し、サーバB1112は、「ヘッダB」を電子通信1102に追加し、サーバNx18は、「ヘッダN」を電子通信1108に追加する。電子通信1108におけるヘッダの順序(例えば、「ヘッダA」、「ヘッダB」、「ヘッダN」)は、電子通信1108がサーバを通過した順序に対応することに注意されたい。従って、クライアントアプリケーション1190は、電子通信x08内のヘッダの順序を使用して電子通信1108がクライアントアプリケーション1190に到達するために取った経路を判断することができる。従って、処理ロジックは、ヘッダから発生されたトークン内のヘッダの順序を符号化する。ヘッダのトークン化に関する詳細は、図2に関して以下に説明する。
再び図1Aを参照すると、処理ロジックは、トークンの第1のセットをトークンの第2のセットと比較することができる(処理ブロック120)。一実施形態では、トークンの第2のセットは、第1の所定のカテゴリ内の別の既知の電子通信から発生される。一実施形態では、第1の所定のカテゴリは、正当な電子通信を含み、従って、第2セットは「ホワイトリスト」と呼ばれる。例えば、第1の所定のカテゴリは、クライアントアプリケーションのユーザが受信したい正当な電子ニュースレターを含むことができ、トークンの第2のセットは、これらの正当な電子ニュースレターのうちの1つにおける1セットの1つ又はそれよりも多くのヘッダから発生される。
処理ロジックは、次に、トークンの第1及び第2セットの間の類似性が95%のような第1の所定の閾値を超えるか否かを判断する(処理ブロック130)。類似性が第1の所定の閾値を超える場合、処理ロジックは、第1フラグを設定する(処理ブロック135)。そうでない場合、第1フラグは未設定のままである。様々な手法を用いて2つのセットのトークンの間の類似性を判断することができる。例えば、トークンの2セット、A及びBの間の類似性に対して以下の計量メトリック「sim」を使用することができる。
sim=|intersect(A,B)|/sqrt(|A|)*sqrt(|B|)
ここで、|x|は、セットxのサイズを意味する。
上述の式によると、類似性に対する計量メトリックは、トークンの2つのセット(すなわち、セットA及びセットB)の内積を2つのセットのマグニチュードの積で割ったものとして考えることができる。更に、トークンの2つのセットに共通して発生する特徴に重きを置かずに比較的まれな特徴を強調するために、トークンの2つのセット間の類似性を判断するのにtf−idf重み付けを使用することができる。
上述のように、トークンは、電子通信が取った経路に対応すると考えられるヘッダの順序を含むことができる。従って、トークンの第1のセットが既知の正当な電子通信のトークンに実質的に類似している場合、受信された電子通信は、既知の正当な電子通信によって使用されたサーバの多くを通じて実質的に類似した順序で経路指定された可能性が高い。従って、電子通信1101も同様に正当である可能性が高い。しかし、スパム内のヘッダを偽造することによってスパム発信者が機構を負かすことを防ぐために、処理ロジックはまた、トークンの第1のセットをトークンの第3セットと比較することができる(処理ブロック140)。順序符号化はまた、電子メールに正当性を与えるために巧妙に作られた偽のヘッダを挿入することができるであろうスパム発信者からの攻撃を防ぐものである。スパム発信者は、彼らのヘッダが現れることになる順序に対して制御できず、かつスパム発信者は、正当な通信に存在する同じ順序を強いることはできない。
一実施形態では、トークンの第3セットは、第2の所定のカテゴリ内の別の既知の電子通信から発生される。第2の所定のカテゴリは、スパムのようなフィルタで除かれる電子通信を含むことができる。従って、トークンの第3セットはまた、「ブラックリスト」と呼ぶことができる。処理ロジックは、トークンの第1セットとトークンの第3セットの間の類似性が第2の所定の閾値を超えるか否かを判断することができる(処理ブロック150)。一実施形態では、第2の所定の閾値は、約95%又はそれよりも上である。しかし、第1及び第2の所定の閾値は、同じであっても又は同じでなくてもよいことを認めるべきである。類似性が第2の所定の閾値を超える場合、処理ロジックは、第2フラグを設定することができる(処理ブロック155)。更に、処理ロジックがトークンの第1セットを「ホワイトリスト」又は「ブラックリスト」と比較する順序を一部の実施形態では切り換えることができることを理解されるべきである。
トークンの第1セットを「ホワイトリスト」又は「ブラックリスト」と比較した結果に基づいて、処理ロジックは、次に電子通信を分類することができる。第1フラグは設定されるが第2フラグは設定されない場合、処理ロジックは、第1の所定のカテゴリに入る電子通信を分類することができる(処理ブロック165)。例えば、トークンの第2セットが、既知の正当なニュースレターから発生し、トークンの第3セットが、既知のスパムから発生される。第1フラグを設定することは、電子通信のトークンが正当なニュースレターのトークンに実質的に類似していることを示している。従って、この電子通信は、正当なニュースレターによって使用されたサーバの多くを通じて実質的に類似した順序で経路指定された可能性が高い。
再び図1Aを参照すると、第2フラグが設定されて第1フラグが設定されていない場合、処理ロジックは、第2の所定のカテゴリに入る電子通信を分類することができる(処理ブロック175)。しかし、第1及び第2フラグの両方が設定されているか又は両方のフラグが設定されていない場合、処理ロジックは、電子通信がトークンの比較に基づいて第1又は第2の所定のカテゴリに入るか否かを判断できない。従って、処理ロジックは、電子通信を分類するために電子通信フィルタリング機構に依存する場合がある(処理ブロック180)。一実施形態では、処理ロジックは、カリフォルニア州サンフランシスコ所在の「Cloudmark、Inc」によって提供される「SpamNet」のようなある一定のカテゴリの電子通信を報告するユーザのコミュニティによって提供される分類に依存することができる。
図2は、電子通信内のヘッダ(例えば、「受信」ヘッダ)をトークン化する処理の一実施形態の流れ図を示している。処理は、ハードウエア(例えば、回路、専用ロジックなど)、ソフトウエア(汎用コンピュータシステム又は専用マシン上で実行されるような)、又は両方を結合させたものを含むことができる処理ロジックによって行われる。
図2を参照すると、処理ロジックは、ヘッダを構文解析する(処理ブロック210)。次に、処理ロジックは、「受信」ヘッダからのホスト名及び「インターネットプロトコル(IP)」アドレスのような一部の所定の情報を構文解析されたヘッダから抽出する(処理ブロック220)。
前記情報の抽出に加えて、処理ロジックは、1つ又はそれよりも多くのヘッダ名、1つ又はそれよりも多くの情報タイプ、ヘッダ内の情報の順序、及び電子通信内のヘッダセット間のヘッダの順序をヘッダから抽出することができる(処理ブロック220)。電子通信内のヘッダセット間のヘッダの順序は、上述のように、電子通信が移動した経路を判断するのに有用である。一実施形態では、処理ロジックは、電子通信が移動した経路が1つ又はそれよりも多くの既知の電子通信(例えば、スパム、正当な電子ニュースレターなど)の経路にどのくらい類似しているかに基づいて受信した電子通信を分類する。
次に、処理ロジックは、抽出された情報、ヘッダ名、情報タイプ、ヘッダ内の情報の順序、及びヘッダセット間のヘッダの順序を1つ又はそれよりも多くのトークンのセットに符号化する(処理ブロック230)。一実施形態では、トークンの構造は、[ヘッダ_名称]−[情報_タイプ]−[情報]の形式である。
ヘッダ内の一部の所定の情報は、複数のトークンに符号化することができる。一実施形態では、「受信」ヘッダ内のホスト名及びIPアドレスは、複数のトークンに分割することができ、部分的に適合しているホスト名及び/又はIPアドレスの識別を可能にする。図3Aは、代表的な電子メールにおける「受信」ヘッダのセットの一例を示している。図3Bは、本発明の一実施形態により図3Aの「受信」ヘッダから発生されたトークンのサンプルセットを示している。図3Aを参照すると、第1の「受信」ヘッダのホスト名310は、図3Bの複数のトークン312に分割される。
一部の実施形態では、ヘッダ内の一部の情報の所定の部分を落とすことができ、そのために、落とされた部分からトークンが発生しない。例えば、「受信」ヘッダ内のホストのホスト名部分及び/又はIPアドレスの最も低いオクテットは、「受信」ヘッダから一部の潜在的なノイズ源を取り除くために落とすことができる。図3A及び3Bを再び参照すると、「受信」ヘッダ内のホストのホスト名部分は、ヘッダから潜在的なノイズ源を取り除くために落とすことができる(例えば、図3Aの第1の「受信」ヘッダ内の「munitions2」)。同様に、IPアドレスの最も低いオクテット(例えば、図3Aの第1の「受信」ヘッダ内の「1」)も落とされ得る。
図4は、本発明と共に使用可能な電子通信システムの一実施形態を示している。システム400は、ネットワーク410、電子通信サーバ420、及びクライアントマシン430を含む。ネットワーク410は、電子通信を経路指定するための付加的な電子通信サーバを含むことができる。電子通信サーバ420は、クライアントマシン430に接続されている。クライアントマシン430は、パーソナルコンピュータを含むことができる。
一実施形態では、クライアントマシン430は、記憶装置432、プロセッサ434、構文解析装置436、及び符号器438を含む。クライアントマシン430内の構成要素は、ハードウエア(例えば、専用回路)、ソフトウエア(汎用マシン上で実行されるような)、又はその両方の組合せによって実施することができることに注意されたい。ネットワークインタフェース431は、サーバ420から電子通信を受信するように作動可能である。構文解析装置436は、受信した電子通信内の1つ又はそれよりも多くのヘッダの1セットを構文解析して情報のいくつかの所定のタイプを抽出することができる。符号器438は、抽出された情報を符号化して、受信した電子通信に対するトークンのセットを発生することができる。記憶装置432は、所定のトークンの1つ又はそれよりも多くのセットを記憶することができる。プロセッサ436は、記憶されたトークンを受信した電子通信内のヘッダから発生されたトークンと比較するように作動可能である。この比較に基づいて、プロセッサ436は、所定のカテゴリに入る受信した電子通信を分類することができる。電子通信を分類する処理及びヘッダをトークン化する処理の一部の実施形態を以上のように説明した。
図4に示す構成要素のいずれか又は全て、及びそれに関連するハードウエアは、ネットワーク化されたシステム400の様々な実施形態に使用することができることに注意されたい。一実施形態では、ネットワーク化されたシステム400は、分散型システムとすることができる。ネットワーク化されたシステム400(例えば、電子通信サーバ420)の構成要素の一部又は全ては、ローカル又はリモートとすることができる。しかし、ネットワーク化されたシステムの他の構成が、図4に示されていない1つ又はそれよりも多くの付加的な装置を含む場合があることを認めるべきである。
電子通信内のヘッダから発生されたトークンに基づいて電子通信を分類する1つの利点は、比較的大きなメールリストを有する正当な電子ニュースレター又は電子通信を誤ってスパムとして分類することを防ぐことである。
上述の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズム及び記号表示の面から呈示したものである。これらのアルゴリズム的記述及び表示は、他の当業者に作業の内容を最も効率良く伝達するためにデータ処理技術の業者によって使用されるツールである。ここでの及び一般的なアルゴリズムは、望ましい結果をもたらす演算の自己矛盾のないシーケンスであると考えられる。演算は、物理的な量の物理的な操作を必要とするようなものである。通常は、必ずというわけではないが、これらの量は、記憶、転送、結合、比較、及びそれ以外の操作が可能な電気又は磁気信号の形式を取る。主に一般的に使用する理由で、これらの信号をビット、値、要素、記号、文字、用語、又は数字などとして言及することが時に便利であることが分かっている。
しかし、これらの及び類似の用語の全ては、適切な物理量に関連付けられるものであり、かつこれらの量に適用される単なる便利なラベルであることを念頭に置くべきである。以下の説明から明らかなように特に断らない限り、本説明を通して「処理する」又は「演算する」又は「計算する」又は「判断する」又は「表示する」などのような用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理的(電子的)な量として表わされたデータを操作して、コンピュータシステムメモリ又はレジスタ又は他のこのような情報記憶、送信、又は表示装置内の物理的な量として同様に表わされた他のデータに変換するコンピュータシステム又は類似の電子コンピュータ装置の作用及び処理を意味することが認められる。
本発明はまた、本明細書で説明した演算を実行するための装置に関する。この装置は、要求される目的のために特別に構成することができ、又はそれは、コンピュータに記憶されたコンピュータプログラムによって選択的に作動又は再設定される汎用コンピュータを含むことができる。このようなコンピュータプログラムは、以下に限定されるものではないが、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、及び磁気光学ディスクを含むあらゆるタイプのディスク、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気又は光カード、又は電子命令を記憶するのに適するあらゆるタイプの媒体であって各々がコンピュータシステムバスに接続されているもののようなコンピュータ可読記憶媒体に記憶することができる。
本明細書に呈示した処理及び表示は、いずれかの特定のコンピュータ又は他の装置と固有に関連付けられるものではない。様々な汎用システムを本明細書の教示に従ってプログラムと共に使用することができ、又は説明された演算を行うために更に特化された装置を構成することが便利であることを示すことができる。多種多様なこれらのシステムに対して要求される構造は、以下の説明から明らかであろう。更に、本発明は、いかなる特定のプログラミング言語に関しても説明していない。多種多様なプログラミング言語を使用して、本明細書で説明するような本発明の教示を実施することができることが認められるであろう。
マシンアクセス可能媒体は、マシン(例えば、コンピュータ)によって可読の形式で情報を記憶又は送信するためのあらゆる機構を含む。例えば、マシン可読媒体は、読取専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)と、磁気ディスク記憶媒体と、光記憶媒体と、フラッシュメモリ装置と、電気、光、音響、又は他の形式の伝播信号(例えば、搬送波、赤外線信号、デジタル信号など)と、その他とを含む。
以上の説明は、単に本発明の一部の例示的な実施形態を説明したものである。当業者は、このような説明、添付図面、及び特許請求の範囲から、本発明の精神及び範囲から逸脱することなく様々な修正を行うことができることを容易に認識するであろう。
電子通信を分類する処理の一実施形態を示す流れ図である。 1つの例示的な電子通信ネットワークを示す図である。 電子通信内のヘッダをトークン化する処理の一実施形態を示す流れ図である。 例示的な電子メール内の1セットの「受信」ヘッダの一例を示す図である。 本発明の一実施形態に従って図3Aに示す「受信」ヘッダから発生された例示的なトークンの1セットを示す図である。 電子通信システムの一実施形態を示す図である。

Claims (19)

  1. 電子通信に包含されるか又は関連付けられた1セットの経路指定情報をトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させる段階と、
    前記1つ又はそれよりも多くのトークンの第1のセットを所定のカテゴリを表す1つ又はそれよりも多くのトークンの第2のセットと比較することにより、前記電子通信を該所定のカテゴリに分類する段階と、
    を含むことを特徴とする方法。
  2. 各々が前記電子通信を分類するための所定のカテゴリを表す複数の1つ又はそれよりも多くのトークンのセットと、前記1つ又はそれよりも多くのトークンの第1のセットを比較する段階、
    を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記1つ又はそれよりも多くのトークンの第1及び第2のセットの間の類似性が所定の閾値を超える場合に、第1の電子通信を前記1つ又はそれよりも多くのトークンの第2セットによって表された前記所定のカテゴリに分類する段階、
    を更に含むことを特徴とする請求項1に記載の方法。
  4. 前記経路指定情報は、1つ又はそれよりも多くの「RFC822」電子メールヘッダの1セットであることを特徴とする請求項1に記載の方法。
  5. 前記1つ又はそれよりも多くのヘッダのセットは、1つ又はそれよりも多くの「受信」ヘッダを含むことを特徴とする請求項4に記載の方法。
  6. 前記経路指定情報は、前記電子通信が経路指定されて通る1つ又はそれよりも多くのサーバの1つ又はそれよりも多くのホスト名及び1つ又はそれよりも多くの「インターネットプロトコル(IP)」アドレスを含むことを特徴とする請求項1に記載の方法。
  7. 前記経路指定情報をトークン化する段階は、
    前記経路指定情報のセットを構文解析する段階と、
    前記経路指定情報のセットの各々から、1つ又はそれよりも多くの経路指定情報ヘッダ名、経路指定情報ヘッダに包含されたデータ、1つ又はそれよりも多くのデータタイプ、対応する経路指定情報ヘッダ内のデータの順序、及び前記1つ又はそれよりも多くのヘッダのセット内の該対応する経路指定情報ヘッダの順序を抽出する段階と、
    を含む、
    ことを特徴とする請求項1に記載の方法。
  8. 前記経路指定情報のセットをトークン化する段階は、1つ又はそれよりも多くの経路指定情報ヘッダ名と、経路指定情報ヘッダに包含されたデータと、1つ又はそれよりも多くのデータタイプと、前記対応する経路指定情報ヘッダ内の前記データの順序と、対応する経路指定情報の順序とを包含する前記抽出された経路指定情報を符号化する段階を更に含むことを特徴とする請求項7に記載の方法。
  9. 命令を供給するマシンアクセス可能媒体であって、
    命令は、プロセッサによって実行された場合に、
    電子通信に包含されるか又は関連付けられた1セットの経路指定情報をトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させる段階と、
    前記1つ又はそれよりも多くのトークンの第1のセットを所定のカテゴリを表す1つ又はそれよりも多くのトークンの第2のセットと比較することにより、前記電子通信を該所定のカテゴリに分類する段階と、
    を含む演算を前記プロセッサに実行させる、
    ことを特徴とする媒体。
  10. 前記演算は、
    各々が前記電子通信を分類するための所定のカテゴリを表す1つ又はそれよりも多くのトークンの複数のセットと、前記1つ又はそれよりも多くのトークンの第1のセットを比較する段階、
    を更に含む、
    ことを特徴とする請求項9に記載のマシンアクセス可能媒体。
  11. 前記演算は、
    前記1つ又はそれよりも多くのトークンの第1及び第2のセットの間の類似性が所定の閾値を超える場合に、第1の電子通信を前記1つ又はそれよりも多くのトークンの第2セットによって表された前記所定のカテゴリに分類する段階、
    を更に含む、
    ことを特徴とする請求項9に記載のマシンアクセス可能媒体。
  12. 前記1つ又はそれよりも多くのヘッダのセットをトークン化する段階は、
    前記経路指定情報のセットを構文解析する段階と、
    前記経路指定情報のセットの各々から、1つ又はそれよりも多くの経路指定情報ヘッダ名、経路指定情報ヘッダに包含されたデータ、1つ又はそれよりも多くのデータタイプ、対応する経路指定情報ヘッダ内のデータの順序、及び前記1つ又はそれよりも多くのヘッダのセット内の該対応する経路指定情報ヘッダの順序を抽出する段階と、
    を含む、
    ことを特徴とする請求項9に記載のマシンアクセス可能媒体。
  13. 前記1つ又はそれよりも多くのヘッダのセットをトークン化する段階は、
    1つ又はそれよりも多くの経路指定情報ヘッダ名と、経路指定情報ヘッダに包含されたデータと、1つ又はそれよりも多くのデータタイプと、前記対応する経路指定情報ヘッダ内の前記データの順序と、対応する経路指定情報の順序とを包含する前記抽出された経路指定情報を符号化する段階、
    を更に含む、
    ことを特徴とする請求項12に記載のマシンアクセス可能媒体。
  14. 前記1つ又はそれよりも多くのヘッダのセットは、1つ又はそれよりも多くの「受信」ヘッダを含むことを特徴とする請求項12に記載のマシンアクセス可能媒体。
  15. 前記情報は、前記電子通信が経路指定されて通る1つ又はそれよりも多くのサーバの1つ又はそれよりも多くのホスト名及び1つ又はそれよりも多くの「インターネットプロトコル(IP)」アドレスを含むことを特徴とする請求項14に記載のマシンアクセス可能媒体。
  16. 電子通信に包含されるか又は関連付けられた1セットの経路指定情報をトークン化して、1つ又はそれよりも多くのトークンの第1のセットを発生させるための手段と、
    前記1つ又はそれよりも多くのトークンの第1のセットを所定のカテゴリを表す1つ又はそれよりも多くのトークンの第2のセットと比較することにより、前記電子通信を該所定のカテゴリに分類するための手段と、
    を含むことを特徴とするシステム。
  17. クライアントマシンが、
    前記経路指定情報のセットを構文解析するための手段と、
    前記経路指定情報のセットの各々から、1つ又はそれよりも多くの経路指定情報ヘッダ名、経路指定情報ヘッダに包含されたデータ、1つ又はそれよりも多くのデータタイプ、対応する経路指定情報ヘッダ内のデータの順序、及び前記1つ又はそれよりも多くのヘッダのセット内の該対応する経路指定情報ヘッダの順序を抽出するための手段と、
    を更に含む、
    ことを特徴とする請求項16に記載のシステム。
  18. 前記クライアントマシンは、1つ又はそれよりも多くの経路指定情報ヘッダ名と、経路指定情報ヘッダに包含されたデータと、1つ又はそれよりも多くのデータタイプと、前記対応する経路指定情報ヘッダ内の前記データの順序と、対応する経路指定情報の順序とを包含する前記抽出された経路指定情報を符号化するための手段を更に含むことを特徴とする請求項17に記載のシステム。
  19. 前記1つ又はそれよりも多くのトークンの第1及び第2のセットの間の類似性が所定の閾値を超える場合に、第1の電子通信を前記1つ又はそれよりも多くのトークンの第2セットによって表された前記所定のカテゴリに分類するための手段を更に含むことを特徴とする請求項18に記載のシステム。
JP2007504094A 2004-03-16 2005-03-16 電子通信を分類する方法及び装置 Pending JP2007532054A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US55374304P 2004-03-16 2004-03-16
US11/081,287 US20050289239A1 (en) 2004-03-16 2005-03-15 Method and an apparatus to classify electronic communication
PCT/US2005/008864 WO2005091580A1 (en) 2004-03-16 2005-03-16 A method and an apparatus to classify electronic communication

Publications (1)

Publication Number Publication Date
JP2007532054A true JP2007532054A (ja) 2007-11-08

Family

ID=34963143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007504094A Pending JP2007532054A (ja) 2004-03-16 2005-03-16 電子通信を分類する方法及び装置

Country Status (6)

Country Link
US (1) US20050289239A1 (ja)
EP (1) EP1733521B1 (ja)
JP (1) JP2007532054A (ja)
AT (1) ATE453990T1 (ja)
DE (1) DE602005018621D1 (ja)
WO (1) WO2005091580A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080134285A1 (en) * 2006-12-04 2008-06-05 Electronics And Telecommunications Research Institute Apparatus and method for countering spam in network for providing ip multimedia service
KR101367102B1 (ko) * 2007-04-09 2014-02-25 삼성전자주식회사 방송 서비스 정보를 처리하는 방법 및 이를 이용한하이브리드 tv
US9407463B2 (en) * 2011-07-11 2016-08-02 Aol Inc. Systems and methods for providing a spam database and identifying spam communications
TWI544764B (zh) * 2014-11-17 2016-08-01 緯創資通股份有限公司 垃圾郵件判定方法及其郵件伺服器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348161A (ja) * 2002-05-23 2003-12-05 Nec Corp メールサーバ,メールシステムおよび迷惑メール削除方法ならびにプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US8176125B2 (en) * 2002-02-22 2012-05-08 Access Company, Ltd. Method and device for processing electronic mail undesirable for user
US7096498B2 (en) * 2002-03-08 2006-08-22 Cipher Trust, Inc. Systems and methods for message threat management
US20040093382A1 (en) * 2002-11-13 2004-05-13 Kulkarni Suhas Sudhakar Method of transmitting an electronic mail message
US20040177120A1 (en) * 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7272853B2 (en) * 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
GB2405229B (en) * 2003-08-19 2006-01-11 Sophos Plc Method and apparatus for filtering electronic mail

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348161A (ja) * 2002-05-23 2003-12-05 Nec Corp メールサーバ,メールシステムおよび迷惑メール削除方法ならびにプログラム

Also Published As

Publication number Publication date
ATE453990T1 (de) 2010-01-15
DE602005018621D1 (de) 2010-02-11
WO2005091580A1 (en) 2005-09-29
EP1733521B1 (en) 2009-12-30
US20050289239A1 (en) 2005-12-29
EP1733521A1 (en) 2006-12-20

Similar Documents

Publication Publication Date Title
JP4546761B2 (ja) 高度なスパム検出技法
US8935348B2 (en) Message classification using legitimate contact points
US8363568B2 (en) Message filtering method
US7571319B2 (en) Validating inbound messages
TWI353146B (en) Origination/destination features and lists for spa
Gansterer et al. E-mail classification for phishing defense
US20070226804A1 (en) Method and system for preventing an unauthorized message
JP2007528686A (ja) 迷惑メール遮断システム及び方法
JP2020166824A (ja) スパム電子メールを識別するためのヒューリスティックルールを生成するシステムおよび方法
US20100287244A1 (en) Data communication using disposable contact information
US20080235798A1 (en) Method for filtering junk messages
KR101238527B1 (ko) 불필요하고 요청되지 않은 전자 메시지를 감소시키는 방법
US7257773B1 (en) Method and system for identifying unsolicited mail utilizing checksums
JP2007532054A (ja) 電子通信を分類する方法及び装置
JP4963099B2 (ja) 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
WO2005086438A1 (en) A method and apparatus to use a statistical model to classify electronic communications
US20070038709A1 (en) Method and system for identifying spam email
Zaidan et al. Spam influence on business and economy: Theoretical and experimental studies for textual anti-spam filtering using mature document processing and naive Bayesian classifier
KR20080093084A (ko) 스팸메일 차단 시스템
KR100477956B1 (ko) 특수 문자를 이용하여 편집한 메시지의 필터링 방법 및시스템
JP2005149124A (ja) 電子メッセージフィルタシステム及びコンピュータプログラム
JP2010092251A (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100928

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110307