JP4297345B2 - マスメイル検出方式およびメイルサーバ - Google Patents

マスメイル検出方式およびメイルサーバ Download PDF

Info

Publication number
JP4297345B2
JP4297345B2 JP2004006918A JP2004006918A JP4297345B2 JP 4297345 B2 JP4297345 B2 JP 4297345B2 JP 2004006918 A JP2004006918 A JP 2004006918A JP 2004006918 A JP2004006918 A JP 2004006918A JP 4297345 B2 JP4297345 B2 JP 4297345B2
Authority
JP
Japan
Prior art keywords
mail
mass
electronic mail
similar
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004006918A
Other languages
English (en)
Other versions
JP2005202590A (ja
Inventor
克之 山崎
裕充 藤川
昭浩 中島
輝彰 本間
健一 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004006918A priority Critical patent/JP4297345B2/ja
Priority to US11/033,111 priority patent/US7853654B2/en
Publication of JP2005202590A publication Critical patent/JP2005202590A/ja
Application granted granted Critical
Publication of JP4297345B2 publication Critical patent/JP4297345B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は電子メイルのスパム処理に係わり,特に携帯電話やISPなど、大規模な電子メイルサーバを運用する事業者が電子メイルサーバを経由して配送される電子メイルに含まれている未承諾広告などの迷惑メイルを検出するのに好適なマスメイル検出方式および該マスメイル検出方式を備えたメイルサーバに関する。
電子メイルの普及に従い電子メイルを搬送手段とした迷惑メイルが増加し、社会問題となっている。従来、このような迷惑メイルを防止する手段としては、電子メイルの受信者が受信に用いる端末に迷惑メイルを検知する仕組を用意し、その仕組によって迷惑メイルを自動的に削除するなどの方法が一般的であった。
例えば、SpamAssassinはルールベース方式を用いたソフトであり、bogofilterは機械学習方式を用いたソフトであり、どちらも主としてPCユーザの間で有効な仕組として使われている。なお、これらのソフトは、それぞれ、非特許文献1,2に示されている。
http://www.au.spamassassin.org/presentations/SAGE_IE_2002/ http://bogofilter.sourceforge.net/bogofilter_man.html
上記した従来技術は、電子メイルの受信者がPCのように一定の水準以上の情報処理能力を持つ受信端末を使用することが前提であり、携帯電話などのような比較的低い能力の受信端末には不向きである。携帯電話などのような比較的低い能力の受信端末を支援するには、事業者側のメイルサーバにマスメイルを検出する手段を備える事が望ましかった。
しかし、上記の従来技術は、サーバで用いるには処理速度が遅く大規模な設備を必要とするという問題点があった。また、大人数のユーザに共通したマスメイルの検知ルールや機械学習結果を作成するのが困難であり、かつ、新種のスパムに対応するための維持管理のコストが膨大であるといった問題点もあった。
本発明の目的は、前記した問題点を解決するために、事前のルール作成や学習が不要で、かつ、高速に動作するマスメイル検出方式および該マスメイル検出方式を備えたメイルサーバを提供することにある。
上記した目的を達成するために、本発明は、配送対象の電子メイルを収集する電子メイル収集手段と、該収集した電子メイルを特徴量に変換する特徴量変換手段と、該変換した特徴量を使ってマスメイルを検出するマスメイル検出手段とを具備し、前記特徴量変換手段は電子メイルの本文から部分文字列を抽出し、その部分文字列から計算したハッシュ値の集まりを特徴量として用い、前記マスメイル検出手段は、特徴量データベースと特徴量データベースへのポインタを具備し、新規電子メイルの特徴量のハッシュ値が該ポインタにエントリされているか否かを判断し、エントリされている場合には、該ポインタを用いて特徴量データベースをアクセスし、該特徴量データベースに既に登録されている電子メイルのハッシュ値と比較することにより、新規電子メイルと既登録の電子メイルとの類似度を判定し、一定数以上のハッシュ値が一致した電子メイルを類似電子メイルと判定し、該類似電子メイルが所定数検出された時に該類似電子メイルをマスメイルと判定するようにした点に第1の特徴がある。
また、本発明は、前記マスメイル検出手段が、記憶領域に記憶しておく電子メイルとして頻繁に配送される電子メイルを優先的に記憶するための手段をもち、該手段としてdirected map cache方式またはLRU方式を用いるようにした点に第2の特徴がある。
本発明によれば,携帯電話やISPなど、大規模な電子メイルサーバを運用する事業者が電子メイルサーバを経由して配送される電子メイルに含まれている未承諾広告などの迷惑メイルを検出するのに好適なマスメイル検出方式を提供できる。
以下に、図面を参照して本発明を詳細に説明する。図1は、本発明が適用されるシステム構成の一例を示すブロック図である。
図において、1は例えば通信事業者(プロバイダ)のメイルサーバ群、2はインターネット、3はこれらの間のデータ配送に用いられるスイッチングハブであり、メイルサーバ群1はユーザ端末4と接続されている。また、スイッチングハブ3には、本発明のマスメイル検出装置5が接続されている。
本実施形態は、メイルサーバ群1とインターネット2の間でSMTPプロトコルを用いて配送される電子メイルの中から、前記マスメイル検出装置5を用いてマスメイルを検出するものである。
該マスメイル検出装置5は、電子メイル収集手段51,特徴量変換手段52およびマスメイル検出手段53から構成されている。電子メイル収集手段51は配送対象の電子メイルを収集するものであり適切な計算機上のプログラムで良い。特徴量変換手段52は電子メイル収集手段51で収集した電子メイルを特徴量に変換するものであり適切な計算機上のプログラムで良い。マスメイル検出手段53は変換した特徴量を使ってマスメイルを検出するものであり適切な計算機上のプログラムで良い。55は検出結果のマスメイルである。
次に、本実施形態の動作を説明する。電子メイル収集手段51は、ネットワーク上に流れる電子メイル配送プロトコルを解析し、ネットワーク上に流れる電子メイルトラフィックから電子メイル本文を抽出する。次に、特徴量変換手段52が電子メイル本文から、例えば幾つかのハッシュ値を計算し該メイルの特徴量とする。最後に、マスメイル検出手段53が記憶しておいた過去の電子メイルと新たに受信した電子メイルとを、前記特徴量を用いて比較し、特定の基準に従って類似度を判定し、類似している場合はマスメイルの候補(類似メイル)として判定し、一定数以上の類似メイルが検出されるとこれをマスメイルと判定する。
図2は、前記電子メイル収集手段51の処理手続きの一例を示すフローチャートである。メイルサーバ群1とインターネット2の間では複数のメイルが並行して配送されている。そこで、ステップS10では、電子メイル収集手段51は、スイッチングハブ3でタッピングすることでTCPパケットを受信する。該受信したTCPパケットは、複数の電子メイルの情報が混ったものである。ステップS15では、電子メイル収集手段51は、パケットの種類を判断する。すなわち、パケットがメイルであるか否か、メイルであれば、新規メイルのパケットであるか、処理中メイルのパケットであるか、あるいは処理中メイルの終了パケットであるかの判断をする。
そして、受信したパケットが新規メイルのものであれば、ステップS11に進んで、新規メイル用記憶領域を初期設定する。一方、受信したパケットが処理中のメイルの終了を意味するパケットであれば、ステップS13に進み、処理中のメイル本文を特徴量変換手段52に送信し、次にステップS14に進んで、処理中のメイル用記憶領域を廃棄/解放する。また、受信したパケットが終了以外の処理中のメイルパケットであれば、ステップS12に進んで、処理中のメイル用記憶領域にTCPパケットに含まれるメイルの内容を記録する。前記ステップS15で、メイル以外のパケットであると判断された場合には、何も処理を行わず終了する。図2では便宜的にエンド(終了)と記したが、実際の処理は終了することなく、ステップS10〜S14の処理が継続的に繰り返されることは明らかである。
図3は前記特徴量変換手段52の処理の一例を示す説明図であり、図4は該特徴量変換手段52の処理手続きの一例を示すフローチャートである。
本実施形態においては、メイル本文の特徴量として、事前に定めた長さLの文字列(例えば、4文字)のハッシュ値の集合を用いる。具体的には、図4の手順に従い、始にステップS21にて、メイル本文100の先頭から順番にL文字づつ取り出し、そのハッシュ値を計算する。次に、ステップS22に進み、計算したハッシュ値をソートし、始めのN個(例えば100個)を特徴量としてマスメイル検出手段53に送信する。
例えば、図3に示されているように、長さLが4で、メイル本文100が「メイル本文の文章」であったとすれば、「メイル本」(図3の101)、「イル本文」、「ル本文の」、「本文の文」(図3の102)などのハッシュ値201〜202を計算する(図4のステップS21)。次いで、該ハッシュ値201〜202をソートした後、始めのN個を特徴量200としてマスメイル検出手段53に送信する(図4のステップS22)。該ハッシュ値としては、例えば64ビットの整数で表すことができる。
図5は前記マスメイル検出手段53が利用するデータ構造の例である。300は、頻繁に配送される電子メイルを特徴量データベース310の中に優先的に記憶するためのデータ構造Directed Map Cache(以下、DMC)、すなわち管理マップキャッシュ方式を示す。該DMC300は、特徴量データベース310と、該特徴量データベース310へのポインタ311を有する。特徴量データベース310は、電子メイル毎に、特徴量(ハッシュ値1〜N)、該当電子メイルの類似メイル数、およびポインタ311のエントリで該当メイルを参照しているポインタの数(DMC被参照数)を記憶した計算機上のデータ構造である。該ポインタ311の各々は、例えば64ビットで表現することができる。
電子メイル収集手段51が電子メイルを抽出すると、特徴量変換手段52がその電子メイル本文から特徴量200(図3参照)を計算し、最後にマスメイル検出手段53が図6に例示した手順に従い、多量に配送されている類似したメイルをマスメイルとして検知する。具体的には、1通の電子メイルに対して特徴量変換手段52が計算する特徴量200はN個(Nは、正の整数)のハッシュ値を持つが、マスメイル検出手段53は各メイルに対して図6の手順に従いステップS31からステップS41までの処理を最大N回繰り返す。
ステップS30では、前記特徴量200を基に、前記電子メイル収集手段51で収集された電子メイルに類似するメイルが既にあるか否かの判定が行われる。この処理の一具体例を、図7のフローチャートを参照して説明する。
ステップS301では、前記特徴量200の番号を示す数mを1と置き、ステップS302では新規のメイルの特徴量200の中のm番目のハッシュ値を抽出する。ステップS303では、該ハッシュ値がポインタ311にエントリされているか否かの判断がなされる。この判断が肯定の場合にはステップS304に進んで、現在のポインタ311から参照されている特徴量データベース310中のエントリと類似度の判定を行う。そして、例えば80%の類似があれば類似メイル、80%より小さければ非類似メイルと判定する。ステップS305では、m=Nが成立したか否かの判断がなされ、否定の場合には、ステップS306に進んでmに1が加算される。次に、ステップS302に戻って、2番目のハッシュ値が抽出される。以下、同様にして、前記した処理が繰り返し行われ、ステップS305の判断が肯定になると、前記ステップS30の処理は終了する。
前記ステップS304の類似度判定は、例えば新規の電子メイルのハッシュ値200(図3参照)と特徴量データベース310内のハッシュ値が一致した数を利用する。例えば、特徴量の数Nが100個、類似度の閾値が80%の時、80個のハッシュ値が一致すると類似のメイルと判断する。一致した数の計測処理を速めるために、予め前記ハッシュ値はソートしておくと好適である。なお、図7ではN個のハッシュ値について類似度を判定したが、必ずしもN個のハッシュ値について類似度を判定する必要はなく、N個より少ないハッシュ値で類似度を判定しても良い。
図6に戻って説明を続けると、ステップS31において前記mを再度m=1とし、ステップS32において、特徴量200中のm番目のハッシュ値を抽出する。次いで、ステップS33に進み、該m番目のハッシュ値が類似メイルのハッシュ値であるか否かの判断がなされる。この判断が否定、すなわち新規の電子メイル(非類似メイル)の場合には、類似メイルは特徴量データベース310に記憶されていないので、ステップS34に進んで、該当メイルの特徴量が特徴量データベース310の新規エントリとして登録される。具体的には、新規電子メイルの特徴量200(図3参照)を特徴量データベース310のハッシュ値1〜ハッシュ値Nとして記憶する。次に、ステップS35に進み、特徴量のベクトル値でDMC300の内容を更新する。
前記ステップS33の判断が肯定の場合、すなわち類似メイルがある場合には、ステップS37に進む。該ステップS37では、特徴量データベース310に既に記憶されているメイルの類似メイル数(図5参照)を1加算する。次に、ステップS38に進んで、該特徴量データベース310に記憶されたベクトル値でDMC300の内容を更新する。なお、該ステップS38は前記ステップS35と同一の処理であり、その具体例を図8を参照して後述する。
ステップS39では、前記類似メイル数が予め定められた値S以上になったか否かの判断がなされ、S以上になった場合にはステップS40に進んで該当メイルをスパムと判定する。一方、ステップS39の判断が否定の時にはステップS36に進む。ステップS36では、m=Nになったか否かの判断がなされ、この判断が否定の時には、ステップS41に進んで、mに1が加算される。そして、再度ステップS32からの動作が繰り返される。
図8は図6のステップS35、S38のDMC更新処理の手順を例示したものである。マスメイル検出手段53は各電子メイルの処理にあたり、まずステップS351の判断をする。すなわち、当該ハッシュ値は、現在のポインタ311から特徴量データベース310の古いエントリを参照しているか否かの判断をする。この判断が否定の時には、ステップS352に進んで、ポインタ311の対応エントリが新しい特徴量データベース310のエントリを指すように設定し、該特徴量データベースの被参照数に1を加算する。
一方、前記ステップS351の判断が肯定の時、すなわち当該ハッシュ値が現在のポインタ311から特徴量データベース310の古いエントリを参照している時には、ステップS353に進んで、該ハッシュ値が自分自身のエントリを参照しているか否かの判断をする。すなわち、当該ハッシュ値が前記類似メイルの中に含まれているか否かの判断をする。この判断が肯定の時には、何の処理も行わずに図6の処理に抜ける。
ステップS353の判断が否定の時、すなわち当該ハッシュ値が前記類似メイルの中に含まれていない時には、ステップS354に進み、現在のポインタ311から参照されている特徴量データベース310中の古いエントリのDMC被参照数を1減算する。次いで、ステップS355に進み、DMC被参照数が0であるか否かの判断がなされる。この判断が肯定の時には、ステップS356に進んで、DMC被参照数が0になった過去のメイルのエントリを、特徴量データベース310から削除する。前記ステップS355の判断が否定の時には前記ステップS352に進み、ポインタ311の対応エントリが新しい特徴量データベース310のエントリを指すように設定すると共に、該特徴量データベースの被参照数を1加算する。
以上の処理によると、類似したメイルが多いメイルは頻繁に図6のステップS38から起動されて図8の更新処理(より具体的には、ステップS352)が動くのでDMC被参照数は0になりにくいが、類似メイルがないものはハッシュ値がぶつかったデータを上書きする事で時間の経過とともにDMC被参照数が減少し、前記ステップS356で最終的には削除される。
次に、前記した図6〜図8の動作を具体例を、図9〜図13を参照して参照して説明する。今、インターネットを介して新規のメイルが図9に示されているように、メイル1、2、3、4の順に収集されたものとし、該メイルの特徴量(前記図3の特徴量200)が、メイル1に関してはハッシュ値h1,h2,h3,h4、メイル2に関してはハッシュ値h2,h3,h6,h7、メイル3に関してはハッシュ値h4,h8,h9,h0、メイル4に関してはハッシュ値h1,h2,h3,h0であるとする。ここで、類似メイルと判定する基準を75%以上の一致とすると、メイル4はメイル1と類似になる。この判定は図7の処理により行われる。なお、ここでは、説明を簡単にするために、各メイルの特徴量が4個であるとした。
さて、まずインターネットを介してメイル1が抽出されると、図6のステップS33の判断は否定になるので、ステップS34,S35の処理が行われる。ステップS34の処理により特徴量データベース310は図10(b)のハッシュ値1〜4にh1〜h4が登録され、ステップS35の処理によりDMC300のポインタ311は同図(a)のようになると共に、DMC被参照数が4となる。
次に、メイル2が抽出されると、前記ステップS33の判断は否定になるので、ステップS34,S35の処理に進む。ステップS34の処理により特徴量データベース310は図11(b)のメイル2のハッシュ値1〜4にh2、h3、h6、h7が登録され、ステップS35の処理によりDMC300のポインタ311は同図(a)のようになると共に、メイル1のDMC被参照数が2となり、メイル2のDMC被参照数が4となる。
続いて、メイル3が抽出されると、前記ステップS33の判断は否定になるので、ステップS34,S35の処理が行われる。ステップS34の処理により特徴量データベース310は図12(b)のように、メイル3のハッシュ値1〜4にh4、h8、h9、h0が登録され、ステップS35の処理によりDMC300のポインタは同図(a)のようになると共に、メイル1,2,3のDMC被参照数がそれぞれ、1,4,4となる。
さらに、メイル4が抽出されると、このメイル4は既登録のメイル1と類似するものであるので、前記ステップS33の判断は肯定になり、ステップS37,S38の処理が行われる。ステップS37の処理により特徴量データベース310のメイル1の類似メイル数に1が加算され、図13(b)のようになる。また、ステップS38の処理により、DMC300のポインタは同図(a)のようになると共に、メイル1,2,3のDMC被参照数はそれぞれ、4,2,3となる。
つまり、類似メイルが到着すると、前記ステップS37でメイル1の類似メイル数に1が加算される。次に、ステップS38の処理、つまり図8の処理において、ハッシュ値h1はポインタ31が自分自身のメイル1を指しているのでステップS353の判断は肯定になり図8の処理を抜ける。次のハッシュ値h2,h3は、ポインタが共にメイル2を指しているので、ステップS353の判断は否定となり、ステップS354以下の処理に移る。そして、ステップS354でメイル2のDMC被参照数が1減算され、ステップS352でメイル1のDMC被参照数が1加算される。次のハッシュ値h0についても、同様に処理される。
以上のようにして、類似したメイルが多いメイルは頻繁に図6のステップS38から起動されて図8の更新処理が起動され、DMC被参照数が増加する。一方では、メイル2を見れば明らかなように、類似メイルがないものはハッシュ値がぶつかったデータを上書きする事で時間の経過とともにDMC被参照数が減少する。
なお、本発明は前記実施形態に限定されることなく、次のように変形することも可能である。上記の実施形態においては、電子メイル収集手段51はネットワーク上に流れる電子メイルをスイッチングハブ3でタッピングする事で収集していたが、メイルサーバのソフトを変更し、メイルサーバが配送対象のメイルを直接特徴量変換手段52に送信するようにしてもよい。またメイルの配送プロトコルはSMTPを想定していたが、HTTPを用いたWWWメイルのような別の配送形態であってもかまわない。
また、メイルサーバが配送対象のメイルを特徴量変換手段52に送信する時に既にスパムと判定したメイルについてはスパムであるとのマークをつけて送り、その情報を使ってマスメイル検出手段53が、マークのついたメイルと類似したメイルは即座にスパムと判定してもかまわない。また、メイルサーバは前記特徴量変換手段52までを含むように構成し、該特徴量変換手段52にて変換された特徴量がネットワーク経由でマスメイル検出手段53に送信される構成にしてもよい。
また、上記の実施形態においては、マスメイル検出手段53が、記憶領域に頻繁に配送される電子メイルを優先的に記憶するための仕組みとしてDMC300(図5参照)を利用していたが、LRU方式のような別の仕組みを利用するのでもかまわない。LRUを使う場合、具体的には特徴量データベース310のエントリを管理するLRUリストを作成し、前記ステップS37(図6参照)で処理対象とした特徴量データベース310のエントリをLRUの先頭に移動する処理までステップS37に含める。また、ステップS34で特徴量データベース310に新規のエントリを作る時に必要な記憶領域はLRUの最後のエントリを廃棄して確保し、新規のエントリをLRUの先頭に加える。
また、上記の実施形態においては、特徴量変換手段52の前処理については説明しなかったが、図1の電子メイル収集手段51と特徴量変換手段52との間に前処理手段を設けても良い。この前処理手段は、文字列を抽出する手段であってもよく、この前処理手段により、メールアドレス、電話番号などを抽出するようにしてもよい。また、その他の何らかの前処理を行う手段でもかまわない。この前処理は、電子メイルが受信者に表示されるときの仕様に従って行うものであってもかまわない。この前処理は、例えば受信者の端末の初めの部分(例えば、始めの2頁分)に表示される文字を処理の対象として選択するのでもかまわない。この時に想定される仕様としては、表示に影響を与えるHTMLやMIMEの処理などが上げられるが、これ以外でもかまわない。また、表示の時に大文字と小文字、全角文字と半角文字などを似た文字として扱い、同じ特徴量が計算される仕組みを持つ(例えば、事前に全ての全角大文字を半角小文字に変換する仕組みを持つ)ものでもかまわない。
また、上記の実施形態においては、特徴量として電子メイル本文に含まれる文字列のハッシュ値を用いたが、バイグラムや単語の出現頻度など、その他の特徴量を用いてもかまわない。
図14は、本発明の他の実施形態の構成を示すブロック図であり、本発明をメイルサーバに組み込んだ構成例である。なお、図14において図1と同一または同等物には同じ符号が付されており、図1と重複する説明は省略する。
図14(a)のメイルサーバ群1が複数のメイルサーバ1a、1b、1cなどから構成されているとすると、本実施形態は、同図(b)に示されているように、電子メイル収集手段51、特徴量変換手段52、マスメイル検出手段53およびメイル処理手段57を、各メイルサーバ1a、1b、1cに組み込んだ点に特徴がある。
本実施形態では、マスメイルであるか否かの検出結果は、メイル処理手段57へ送られる。メイル処理手段57の行う処理は、マスメイル検出結果に基づいて、当該マスメイルの削除、メイル表題部へのマスメイルの表示などを行う。また、メイルサーバ運用者へのマスメイルの通知であってもかまわない。
以上の説明から明らかなように、本発明によれば、事前のルール作成や学習が不要である。また、単に電子メイルの特徴量を比較することにより類似メイルを検出し、該類似メイルが一定数に達するとマスメイルと判定するので、高速にマスメイル検出動作を行うことができる。
本発明を含むシステム構成を示すブロック図である。 電子メイル収集手段の処理手続きの一例を示すフローチャートである。 特徴量変換手段の処理の一例を示す説明図である。 特徴量変換手段の処理手続きの一例を示すフローチャートである。 マスメイル検出手段が利用するデータ構造の一例であるDirected Mapped Cacheを示す。 マスメイル検出手段の処理の一例を示すフローチャートである。 図6のステップS30の一具体例を示すフローチャートである。 図6のステップS35およびS38の一具体例を示すフローチャートである。 順次抽出されるメイル1、2、3、4の特徴量の説明図である。 メイル1に対するDirected Mapped Cacheのデータ例を示す説明図である。 メイル1、2に対するDirected Mapped Cacheのデータ例を示す説明図である。 メイル1、2、3に対するDirected Mapped Cacheのデータ例を示す説明図である。 メイル1、2、3、4に対するDirected Mapped Cacheのデータ例を示す説明図である。 本発明の他の実施形態の要部を示すブロック図である。
符号の説明
1・・・メイルサーバ群、2・・・インターネット、3・・・スイッチングハブ、5・・・マスメイル検出装置、51・・・電子メイル収集手段、52・・・特徴量変換手段、53・・・マスメイル検出手段、55・・・マスメイル検出結果、300・・・Directed Mapped Cache、310・・・特徴量データベース、311・・・ポインタ。

Claims (4)

  1. 配送対象の電子メイルを収集する電子メイル収集手段と、
    該収集した電子メイルを特徴量に変換する特徴量変換手段と、
    該変換した特徴量を使ってマスメイルを検出するマスメイル検出手段とを具備し、
    前記特徴量変換手段は電子メイルの本文から部分文字列を抽出し、その部分文字列から計算したハッシュ値の集まりを特徴量として用い、
    前記マスメイル検出手段は、特徴量データベースと特徴量データベースへのポインタを具備し、新規電子メイルの特徴量のハッシュ値が該ポインタにエントリされているか否かを判断し、エントリされている場合には、該ポインタを用いて特徴量データベースをアクセスし、該特徴量データベースに既に登録されている電子メイルのハッシュ値と比較することにより、新規電子メイルと既登録の電子メイルとの類似度を判定し、一定数以上のハッシュ値が一致した電子メイルを類似電子メイルと判定し、該類似電子メイルが所定数検出された時に該類似電子メイルをマスメイルと判定することを特徴とするマスメイル検出方式。
  2. 前記特徴量データベースには、類似メイル数と、前記ポインタにより参照される被参照数と、電子メイルのハッシュ値とが登録され、
    類似メイルが受信された時には、既登録の類似メイルにおける類似メイル数が1増加し、被参照数が前記類似メイルと既登録の類似メイルとのハッシュ値の一致した数に応じて増加することを特徴とする請求項に記載のマスメイル検出方式。
  3. 前記マスメイル検出手段が、directed map cache方式(管理マップキャッシュ方式)またはLRU方式を利用する事を特徴とする請求項2に記載のマスメイル検出方式。
  4. 前記請求項1ないしのいずれかのマスメイル検出方式を備えたメイルサーバ。
JP2004006918A 2004-01-14 2004-01-14 マスメイル検出方式およびメイルサーバ Expired - Lifetime JP4297345B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004006918A JP4297345B2 (ja) 2004-01-14 2004-01-14 マスメイル検出方式およびメイルサーバ
US11/033,111 US7853654B2 (en) 2004-01-14 2005-01-12 Mass mail detection system and mail server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004006918A JP4297345B2 (ja) 2004-01-14 2004-01-14 マスメイル検出方式およびメイルサーバ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009053823A Division JP4780684B2 (ja) 2009-03-06 2009-03-06 マスメイル検出方式およびメイルサーバ

Publications (2)

Publication Number Publication Date
JP2005202590A JP2005202590A (ja) 2005-07-28
JP4297345B2 true JP4297345B2 (ja) 2009-07-15

Family

ID=34820750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004006918A Expired - Lifetime JP4297345B2 (ja) 2004-01-14 2004-01-14 マスメイル検出方式およびメイルサーバ

Country Status (2)

Country Link
US (1) US7853654B2 (ja)
JP (1) JP4297345B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4559295B2 (ja) * 2005-05-17 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ データ通信システム及びデータ通信方法
JP4687978B2 (ja) * 2006-02-15 2011-05-25 横河電機株式会社 パケット解析システム
JP2008257444A (ja) 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
JP4970301B2 (ja) * 2008-02-08 2012-07-04 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP2009211403A (ja) * 2008-03-04 2009-09-17 Hitachi Software Eng Co Ltd ファイル検索プログラム
WO2009146536A1 (en) * 2008-06-02 2009-12-10 Corporation De L'ecole Polytechnique De Montreal File presence detection and monitoring
JP5731740B2 (ja) * 2009-03-25 2015-06-10 シマンテック コーポレーションSymantec Corporation 電子メールコンテンツ包含を検出するシステム及び方法
JP5291523B2 (ja) * 2009-04-21 2013-09-18 株式会社データ変換研究所 類似データ検索装置及びそのプログラム
US8925087B1 (en) * 2009-06-19 2014-12-30 Trend Micro Incorporated Apparatus and methods for in-the-cloud identification of spam and/or malware
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents
JP5261776B2 (ja) * 2010-04-21 2013-08-14 日本電信電話株式会社 類似データ判別装置、類似データ判別方法およびプログラム
US8584235B2 (en) * 2011-11-02 2013-11-12 Bitdefender IPR Management Ltd. Fuzzy whitelisting anti-malware systems and methods
JP2015530665A (ja) * 2012-09-07 2015-10-15 ティヴァーサ アイピー インコーポレイテッド ファイル共有ネットワークにおけるスニペット照合
CN110557352A (zh) * 2018-05-30 2019-12-10 深信服科技股份有限公司 一种群发垃圾邮件的检测方法、装置及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6460050B1 (en) * 1999-12-22 2002-10-01 Mark Raymond Pace Distributed content identification system
US7412462B2 (en) * 2000-02-18 2008-08-12 Burnside Acquisition, Llc Data repository and method for promoting network storage of data
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US6842773B1 (en) * 2000-08-24 2005-01-11 Yahoo ! Inc. Processing of textual electronic communication distributed in bulk
US7321922B2 (en) * 2000-08-24 2008-01-22 Yahoo! Inc. Automated solicited message detection
GB2366706B (en) * 2000-08-31 2004-11-03 Content Technologies Ltd Monitoring electronic mail messages digests
WO2003067473A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus for sociological data mining
US6732157B1 (en) * 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
US20040148280A1 (en) * 2002-12-30 2004-07-29 Moriyuki Chimura Management information processing method and keyword determination method
US20040177120A1 (en) * 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7483947B2 (en) * 2003-05-02 2009-01-27 Microsoft Corporation Message rendering for identification of content features
US20050132197A1 (en) * 2003-05-15 2005-06-16 Art Medlar Method and apparatus for a character-based comparison of documents

Also Published As

Publication number Publication date
JP2005202590A (ja) 2005-07-28
US20050188032A1 (en) 2005-08-25
US7853654B2 (en) 2010-12-14

Similar Documents

Publication Publication Date Title
JP4297345B2 (ja) マスメイル検出方式およびメイルサーバ
US10178115B2 (en) Systems and methods for categorizing network traffic content
US8055078B2 (en) Filter for blocking image-based spam
US20060047634A1 (en) Filtering information at a data network based on filter rules associated with consumer processing devices
JP4916316B2 (ja) 電子的通信のurlベース選別のための方法及びシステム
US8914355B1 (en) Display-content alteration for user interface devices
JP2007503660A (ja) 類似性測度に基づいて電子メール・スパムをフィルタ処理するための方法および装置
US7624274B1 (en) Decreasing the fragility of duplicate document detecting algorithms
CN104933363A (zh) 检测恶意文件的方法和装置
JP2008502998A (ja) サーバーへの電子メッセージのコンテンツについての通信情報
CN106649617B (zh) 一种解析WindowsPhone手机短信数据结构的方法
CN106790206A (zh) 业务***的协议解析方法及装置
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
US8364666B1 (en) Method and system for context-aware data prioritization using a common scale and logical transactions
US8473556B2 (en) Apparatus, a method, a program and a system for processing an e-mail
CN107959576A (zh) 流量计费方法和***以及缓存装置
CN101251853A (zh) 基于用户交互记录来挖掘用户属性的方法及***
JP4780684B2 (ja) マスメイル検出方式およびメイルサーバ
JP2005284454A (ja) 迷惑メール配信防止システム、当該システムにおける情報端末及び電子メールサーバ
CN108510320A (zh) 一种业务投放的方法及装置
JP2007233468A (ja) 情報処理装置、及び、情報処理方法
KR102321584B1 (ko) 안심키워드를 이용한 메시지 전송 서비스 제공 시스템
JP2004040304A (ja) 電子メールアドレス管理方法およびプログラム、電子メール端末装置
JP2005092579A (ja) メッセージ送信処理装置及びメッセージ送信処理方法
JP2004302926A (ja) 用語検索方法、及びコンピュータに、その方法を行わせるプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090409

R150 Certificate of patent or registration of utility model

Ref document number: 4297345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150424

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term