JP6714142B2 - 攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム - Google Patents

攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム Download PDF

Info

Publication number
JP6714142B2
JP6714142B2 JP2019502889A JP2019502889A JP6714142B2 JP 6714142 B2 JP6714142 B2 JP 6714142B2 JP 2019502889 A JP2019502889 A JP 2019502889A JP 2019502889 A JP2019502889 A JP 2019502889A JP 6714142 B2 JP6714142 B2 JP 6714142B2
Authority
JP
Japan
Prior art keywords
attack pattern
character string
extraction
attack
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019502889A
Other languages
English (en)
Other versions
JPWO2018159361A1 (ja
Inventor
慎吾 折原
慎吾 折原
佐藤 徹
徹 佐藤
陽介 嶋田
陽介 嶋田
悠太 岩城
悠太 岩城
揚 鐘
揚 鐘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018159361A1 publication Critical patent/JPWO2018159361A1/ja
Application granted granted Critical
Publication of JP6714142B2 publication Critical patent/JP6714142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラムに関する。
近年、インターネットの普及に伴い、Webサーバに対する攻撃が急増している。このような攻撃の対策としてIDS(Intrusion Detection System)、IPS(Intrusion Prevention System)、WAF(Web Application Firewall)等によるネットワークへの不正侵入検知・防御システムが知られている。これらは主に、攻撃パターンをシグネチャとして覚えておき、シグネチャとマッチした通信を検知するものである。従って、新たな攻撃に対応するには、攻撃パターンに合わせてシグネチャを作成する必要がある。
従来、シグネチャ等の攻撃パターンの生成においては、攻撃コードに共通した特徴を元にパラメータの形態素解析を行い、その結果の最長共通部分列(LCS:Longest Common Subsequence)を算出して生成する手法が知られている。
越智 勇貴、安部 剛、"Exploitに対するWAFシグネチャ自動生成の研究"、Computer Security Symposium 2016、pp.958-963.
しかしながら、上記した従来の技術では、適切な攻撃パターンを生成することができない場合があるという課題があった。つまり、従来の技術では、既知の攻撃コードの特徴を元にしているため、未知の攻撃には形態素解析が適切に行われず、適切な攻撃パターンを生成できない場合があった。また、LCS算出の際に、共通部分の文字列長を考慮していないため、偶然一致した短い文字列を有意な攻撃パターンとして生成してしまう可能性があるという課題があった。
上述した課題を解決し、目的を達成するために、本発明の攻撃パターン抽出装置は、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出部と、前記抽出部によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成部とを備えたことを特徴とする。
また、本発明の攻撃パターン抽出方法は、攻撃パターン抽出装置で実行される攻撃パターン抽出方法であって、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出工程と、前記抽出工程によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成工程とを含んだことを特徴とする。
また、本発明の攻撃パターン抽出プログラムは、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出ステップと、前記抽出ステップによって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成ステップとをコンピュータに実行させることを特徴とする。
本発明によれば、適切な攻撃パターンを生成することができるという効果を奏する。
図1は、第一の実施の形態に係る攻撃パターン抽出装置の概要を示す構成図である。 図2は、テーブル初期化処理について説明する図である。 図3は、テーブル更新処理について説明する図である。 図4は、結果文字列更新処理について説明する図である。 図5は、通常のLCSを用いた場合について説明する図である。 図6は、区切り文字入りLCSを用いた場合について説明する図である。 図7は、第一の実施の形態に係る攻撃パターン抽出装置におけるクラスタリング処理の流れを示すフローチャートである。 図8は、第一の実施の形態に係る攻撃パターン抽出装置におけるLCS算出処理の流れを示すフローチャートである。 図9は、攻撃パターン抽出プログラムを実行するコンピュータを示す図である。
以下に、本願に係る攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラムが限定されるものではない。
[第一の実施の形態]
以下の実施の形態では、第一の実施の形態に係る攻撃パターン抽出装置10の構成、攻撃パターン抽出装置10の処理の流れを順に説明し、最後に第一の実施の形態による効果を説明する。
[攻撃パターン抽出装置の構成]
まず、図1を用いて、攻撃パターン抽出装置10の構成を説明する。図1は、第一の実施の形態に係る攻撃パターン抽出装置の概要を示す構成図である。図1に示すように、この攻撃パターン抽出装置10は、入力部11、出力部12、制御部13および記憶部14を有する。
入力部11は、各種情報の入力操作を受け付けるデバイスであり、例えば、攻撃と判定されたWebサーバへのアクセスログの入力を受け付ける。出力部12は、各種情報を出力するデバイスであり、例えば、攻撃パターンを出力する。
また、記憶部14は、制御部13による各種処理に必要なデータおよびプログラムを格納するが、特に本発明に密接に関連するものとしては、ログ記憶部14aを有する。例えば、記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
ログ記憶部14aは、攻撃と判定されたWebサーバへのアクセスログを記憶する。アクセスログは、例えば、データ項目として、「発IP」、「日時」、「リクエスト」を含むものとする。あるいはアクセスログから、リクエストに含まれるパラメータのみを抽出してデータ項目としても良い。
制御部13は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、抽出部13aおよび攻撃パターン生成部13bを有する。ここで、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
抽出部13aは、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する。抽出部13aは、パラメータ同士で共通する文字列であって、且つ、連続しない文字列間を区切る区切り文字を入れたまま最長共通部分列を算出し、該最長共通部分列を用いて、共通した文字列を抽出する。
抽出部13aは、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出するために、以下のクラスタリング処理を行う。以下に、クラスタリング処理について詳しく説明するが、以降の説明では、文字列Xの長さを「len(X)」と表記し、文字列Xのi番目の文字(1から数える)を「X[i]」と表記する。また、複数のパラメータをp,p,・・・,pと表記する。最初に、抽出部13aは、複数のパラメータp,p,・・・,pをクラスタリングする。
まず、抽出部13aは、クラスタ集合Cを初期化する。クラスタ集合C(C={C,C,...,C})に含まれるクラスタC(1≦i≦n)を、{lcs:パラメータp自身、strings:pのみからなる配列}からなる連想配列(C={lcs:p,strings:[p]}(1≦i≦n))とする。また、抽出部13aは、結果リストRも空の配列で初期化する。
続いて、抽出部13aは、処理対象クラスタ抽出処理を行う。具体的には、抽出部13aは、クラスタ集合Cから処理対象クラスタ(例えば最後の要素)を1つ抽出し、Cとする。クラスタ集合CをC\{C}で更新する。ここで“\”は差集合を表す。すなわち、クラスタ集合Cから要素Cを取り除いたものでCを更新する。
そして、抽出部13aは、処理対象クラスタと他クラスタのLCS算出を行う。具体的には、抽出部13aは、クラスタ集合Cの各要素C(1≦i≦|C|)のlcs要素と、Cのlcs要素とのLCS(最長共通部分列)を順次算出する。LCSの算出は、後述の手順で行い、連続しない部分は区切り文字(例:“|”)で区切られた結果が得られる。具体的を挙げて説明すると、抽出部13aは、要素Cのlcs要素“abCDeFGh”とCのlcs要素“xyCzDFG”とのLCSの算出結果として、“C|D|FG”が得られる。
そして、抽出部13aは、処理対象クラスタとクラスタ集合Cの各クラスタとのLCS算出を行うと、LCSを区切り文字で分割した文字列の長さのうち、最長のものをCとCのスコアs(C,C)とする。
つまり、スコアs(C,C)は、クラスタC,Cのlcs要素同士の区切り文字入りLCSを算出し、それを区切り文字で分割した文字列の長さのうち、最長のものである。例えば、クラスタC「C={lcs:“AB|CD”,strings:[“AB12CD”,“ABCD”]}」とクラスタC「C={lcs:“AB|C|E”,strings:[“ABxCE”,“AByCdE”]}」とでは、“AB|CD”と“AB|C|E”の区切り文字入りLCSとして、“AB|C”が得られる。そして、“AB|C”を区切り文字で分割し、“AB”,“C”の文字列長(2、1)のうち最長の“2”がスコアs(C,C)となる。スコアs(C,C)が最大となるC(1≦i≦|C|)をCとする。なお、スコアs(C,C)が最大となるCが複数ある場合には、スコアs(C,C)が最大となる複数のCのうち任意の一つをCとする。
続いて、抽出部13aは、最大スコア確認処理を行う。具体的には、抽出部13aは、CとCのスコアs(C,C)(最大スコア)が最小文字列長閾値以上かを確認する。抽出部13aは、確認の結果、閾値未満の場合には、処理対象クラスタCを結果リストRに追加し、処理対象クラスタ抽出処理に戻って、新しい処理対象クラスタを抽出して上記の処理を繰り返す。一方、抽出部13aは、確認の結果、閾値以上の場合には、CとCを以下の通りマージしてCを作成する。Cのlcs:CのlcsとCのlcsの区切り文字入りLCS、Cのstrings:CのstringsとCのstringsを配列として連結する。その後、抽出部13aは、Cを(C\{C})∪{C}で更新し、処理対象クラスタ抽出処理に戻って、新しい処理クラスタを抽出して上記の処理を繰り返す。
そして、抽出部13aは、クラスタ集合Cのサイズが1になるまで、前述した処理対象クラスタ抽出処理、LCS算出処理および最大スコア確認処理を繰り返す。その後、抽出部13aは、クラスタ集合のサイズが1になった場合には、最後のクラスタを結果リストRに追加する。そして、抽出部13aは、結果リストRを攻撃パターン生成部13bに通知する。
ここで、上述したLCS算出処理について詳しく説明する。抽出部13aは、LCS算出処理において、2つの文字列x,yが与えられた時、これらの最長共通部分列(LCS)を算出する。抽出部13aは、算出の際、連続しない部分は区切り文字(例えば、“|”)で区切る。なお、区切り文字はx,yに現れない文字であれば何でもよい。以降の説明では、x=“aBCd”,y=“BeC”を例として説明する。
まず、抽出部13aは、LCS算出対象の2つの文字列x,yを入力として受け取る。そして、抽出部13aは、テーブル初期化処理を行う。例えば、抽出部13aは、図2に例示するように、(len(y)+1)×(len(x)+1)の配列tを用意し、0行目、0列目の全ての要素を0で初期化する。図2は、テーブル初期化処理について説明する図である。
そして、抽出部13aは、テーブル更新処理を行う。具体的には、抽出部13aは、i=1,2,・・・,len(y)、j=1,2,・・・,len(x)とし、以下の(1)、(2)の規則に従って、テーブルを更新する。(1)x[j]=y[i]の場合には、t[i][j]=t[i−1][j−1]+1と更新し、(2)x[j]=y[i]以外の場合には、t[i][j]=max(t[i−1][j], t[i][j−1])と更新する。
ここで、図3の例を用いて、テーブル更新処理を説明する。図3は、テーブル更新処理について説明する図である。図3の例を挙げて説明すると、例えば、抽出部13aは、3列目(x[3])の文字「C」と、3行目(y[3])の文字「C」とが同じである場合には、2行2列目の要素「t[2,2]=1」に1を加算した値「2」を、3行目3列目の要素t[3,3]として更新する。また、抽出部13aは、4列目(x[4])の文字「d」と、3行目(y[3])の文字「C」とが異なる場合には、3行3列目の要素「t[3,3]=2」と、2行4列目の要素「t[2,4]=1」とのうち、最大の「2」を、3行4列目の要素t[3,4]として更新する。
そして、抽出部13aは、結果文字列を空文字列“”で初期化する。続いて、抽出部13aは、i>0かつj>0の間、以下の(1)、(2)を繰り返し、結果文字列を更新する。(1)x[j]=y[i]の場合には、結果文字列にx[j]を追記し、i,jをともに1減ずる。(2)x[j]=y[i]以外の場合には、t[i−1][j]>t[i][j−1]ならばiを1減じ、そうでないならばjを1減ずる。結果文字列の末尾が区切り文字でなければ区切り文字を追記、末尾が区切り文字ならば何もしない。
ここで、図4の例を用いて、結果文字列更新処理について説明する。図4は、結果文字列更新処理について説明する図である。図4の例を挙げて説明すると、例えば、抽出部13aは、4列目(x[4])の文字「d」と、3行目(y[3])の文字「C」とが異なる場合には、2行4列目の要素「t[2,4]=1」と3行3列目の要素「t[3,3]=2」とを比較し、3行3列目の要素「t[3,3]=2」が大きい場合には、jを1減ずる。なお、結果文字列の末尾が区切り文字ではないので、結果文字列を“”から“|”に更新する。
続いて、抽出部13aは、3列目(x[3])の文字「C」と、3行目(y[3])の文字「C」とが同じである場合には、結果文字列を“|”から“|C”に更新し、i,jをともに1減ずる。そして、抽出部13aは、2列目(x[2])の文字「B」と、2行目(y[2])の文字「e」とが異なる場合には、1行2列目の要素「t[1,2]=1」と2行1列目の要素「t[2,1]=0」とを比較し、1行2列目の要素「t[1,2]=1」が大きい場合には、iを1減ずる。また、結果文字列の末尾が区切り文字ではないので、結果文字列を“|C”から“|C|”に更新する。
そして、抽出部13aは、2列目(x[2])の文字「B」と、1行目(y[1])の文字「B」とが同じである場合には、結果文字列を“|C|”から“|C|B”に更新し、i,jをともに1減ずる。
その後、抽出部13aは、結果文字列を反転する。例えば、抽出部13aは、結果文字列が“|C|B”である場合には、結果文字列を“B|C|”に反転させる。
図1の説明に戻って、攻撃パターン生成部13bは、抽出部13aによって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する。また、攻撃パターン生成部13bは、文字列長が所定の文字列長以上の文字列が複数ある場合には、複数の文字列と各文字列の出現順序とを基に攻撃パターンを生成する。また、攻撃パターン生成部13bは、抽出部13aによって抽出された連続する文字列が既に生成された攻撃パターンに含まれる場合には、何もしない。
具体的には、攻撃パターン生成部13bは、結果リストR=[C’,C’,・・・,C’]の各要素について、strings要素の個数が最小クラスタサイズ閾値以上であるものを抽出する。抽出した要素のlcs要素が、抽出したい共通部分である。攻撃パターン生成部13bは、共通部分を区切り文字で分割し、最小文字列長閾値以上の長さの文字列を“*”で連結した正規表現が、最終的に求める攻撃パターンとなる。なお、閾値として最小文字列長閾値とは別の新しい閾値を採用してもよい。
具体例を挙げて説明すると、攻撃パターン生成部13bは、例えば、lcs:“a|BCD|ef|g|HIJK”を区切り文字で分割して、“a”,“BCD”,“ef”,“g”,“HIJK”とし、閾値(例えば、「3」)以上の長さの文字列を出現順に“*”で連結して攻撃パターンとして“BCD*HIJK”を生成する。また、“BCD*HIJK”が攻撃パターンとして既に生成されている場合には、何もしない。
このように、攻撃パターン抽出装置10は、LCSを算出する際、文字が連続しない箇所に区切り文字を入れながら算出し、閾値以上の長さのものを抽出するため、極端に短い共通部分を攻撃パターンとして抽出することがない。
また、攻撃パターン抽出装置10は、クラスタをマージする際、区切り文字を入れたままでLCSを算出するため、「共通部が連続している」という情報を失うことなく、3つ以上のパラメータから共通部を効率よく抽出することができる。
ここで、図5および図6の例を用いて、区切り文字列のない通常のLCSを用いた場合と比較することで、区切り文字列入りLCSを用いた場合の効果について説明する。図5は、通常のLCSを用いた場合について説明する図である。図6は、区切り文字入りLCSを用いた場合について説明する図である。図5および図6では、AB12CD,ABCD,ABxCE,AByCdEから、連続する最長の共通部分列を抽出する場合を例示している。
図5に示すように、区切り文字列のない通常のLCSを用いた場合には、4つの文字列のLCSを算出後、元の文字列全てと比較し直さないと、連続する最長の共通部分列“AB”が分からない。これに対して、図6に示すように、区切り文字入りLCSを用いた場合には、4つの文字列のLCSを算出した時点で、もとの文字列でどこが連続していたかが分かるため、すぐに連続する最長の共通部分列“AB”が得られる。このため、区切り文字入りLCSを用いた場合には、共通部分列を効率よく抽出することができる。
[攻撃パターン抽出装置の処理の一例]
次に、図7および図8を用いて、攻撃パターン抽出装置10における処理の流れを説明する。図7は、第一の実施の形態に係る攻撃パターン抽出装置におけるクラスタリング処理の流れを示すフローチャートである。図8は、第一の実施の形態に係る攻撃パターン抽出装置におけるLCS算出処理の流れを示すフローチャートである。
まず、図7を用いて、攻撃パターン抽出装置10におけるクラスタリング処理の流れを説明する。図7に示すように、攻撃パターン抽出装置10の抽出部13aは、クラスタ集合Cを初期化する(ステップS101)。そして、抽出部13aは、クラスタ集合Cのサイズが2以上であるか否かを判定する(ステップS102)。
この結果、抽出部13aは、クラスタ集合のサイズが2以上であると判定した場合には(ステップS102肯定)、処理対象クラスタ抽出処理を行う(ステップS103)。具体的には、抽出部13aは、クラスタ集合Cから処理対象クラスタ(例えば最後の要素)を1つ抽出し、Cとする。クラスタ集合CをC\{C}で更新する。ここで“\”は差集合を表す。すなわち、クラスタ集合Cから要素Cを取り除いたものでCを更新する。
そして、抽出部13aは、処理対象クラスタと他クラスタのLCS算出を行う(ステップS104)。具体的には、抽出部13aは、クラスタ集合Cの各要素C(1≦i≦|C|)のlcs要素と、Cのlcs要素とのLCS(最長共通部分列)を順次算出する。CとのLCSの一致部分文字列長が最長となるCをCとする。
そして、抽出部13aは、最長一致部分文字列長が最小文字列長閾値以上かを判定する(ステップS105)。この結果、抽出部13aは、最長一致部分文字列長が最小文字列長閾値以上であると判定した場合には(ステップS105肯定)、クラスタのマージを行って(ステップS106)、ステップS102の処理に戻る。具体的には、抽出部13aは、CとCを以下の通りマージしてCを作成する。Cのlcs:CのlcsとCのlcsの区切り文字入りLCS、Cのstrings:CのstringsとCのstringsを配列として連結する。
また、抽出部13aは、最長一致部分文字列長が最小文字列長閾値未満であると判定した場合には(ステップS105否定)、処理対象クラスタCを結果リストRに追加し(ステップS107)、ステップS102の処理に戻る。
また、ステップS102において、抽出部13aは、クラスタ集合のサイズが1であると判定した場合には(ステップS102否定)、最後のクラスタを結果リストに追加する(ステップS108)。そして、攻撃パターン生成部13bは、クラスタサイズが閾値以上のものを抽出する(ステップS109)。具体的には、攻撃パターン生成部13bは、結果リストR=[C’,C’,・・・,C’]の各要素について、strings要素の個数が最小クラスタサイズ閾値以上であるものを抽出する。抽出した要素のlcs要素が、抽出したい共通部分である。攻撃パターン生成部13bは、共通部分を区切り文字で分割し、最小文字列長閾値以上の長さの文字列を“*”で連結した正規表現が、最終的に求める攻撃パターンとなる。
次に、図8を用いて、攻撃パターン抽出装置10におけるLCS算出処理の流れを説明する。図8に例示するように、抽出部13aは、LCS算出対象の2つの文字列x,yを入力として受け取る(ステップS201)。そして、抽出部13aは、テーブル初期化処理を行う(ステップS202)。例えば、抽出部13aは、(len(y)+1)×(len(x)+1)のテーブル(配列)tを用意し、0行目、0列目の全ての要素を0で初期化する。
そして、抽出部13aは、i=1,2,・・・,len(y)、j=1,2,・・・,len(x)として、ステップS203〜ステップS209のテーブルを更新する処理を繰り返す。ステップS205において、抽出部13aは、x[j]=y[i]であるか判定し(ステップS205)、x[j]=y[i]の場合には(ステップS205肯定)、t[i][j]=t[i−1][j−1]+1と更新し(ステップS207)、x[j]=y[i]以外の場合には(ステップS205否定)、t[i][j]=max(t[i−1][j],t[i][j−1])と更新する(ステップS206)。
続いて、抽出部13aは、結果文字列を空文字列“”で初期化する(ステップS210)。そして、抽出部13aは、i>0かつj>0の間、ステップS211〜S219の処理を繰り返す。ステップS212において、抽出部13aは、x[j]=y[i]であるか否かを判定する(ステップS212)。この結果、抽出部13aは、x[j]=y[i]の場合には(ステップS212肯定)、結果文字列にx[j]を追記し(ステップS217)、i,jをともに1減ずる(ステップS218)。
また、抽出部13aは、x[j]=y[i]以外の場合には(ステップS212否定)、t[i−1][j]>t[i][j−1]であるか判定する(ステップS213)。この結果、抽出部13aは、t[i−1][j]>t[i][j−1]である場合には(ステップS213肯定)、iを1減じ(ステップS214)t[i−1][j]>t[i][j−1]でない場合には(ステップS213否定)、jを1減ずる(ステップS215)。そして、抽出部13aは、結果文字列の末尾が区切り文字でなければ区切り文字を追記する(ステップS216)。
その後、抽出部13aは、結果文字列を反転する(ステップS220)。例えば、抽出部13aは、結果文字列が“|C|B”である場合には、結果文字列を“B|C|”に反転させる。
[第一の実施の形態の効果]
このように、第一の実施の形態に係る攻撃パターン抽出装置10は、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する。そして、攻撃パターン抽出装置10は、抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する。このため、第一の実施の形態に係る攻撃パターン抽出装置10は、適切な攻撃パターンを生成することが可能である。
また、攻撃パターン抽出装置10は、LCSを算出する際、文字が連続しない箇所に区切り文字を入れながら算出し、閾値以上の長さのものを抽出するため、極端に短い共通部分を攻撃パターンとして抽出せずに、適切な攻撃パターンを生成することが可能である。
また、攻撃パターン抽出装置10は、クラスタをマージする際、区切り文字を入れたままでLCSを算出するため、「共通部が連続している」という情報を失うことなく、3つ以上のパラメータから共通部を効率よく抽出することが可能である。
[第二の実施の形態]
上述した第一の実施の形態では、CとCのスコアs(C,C)(最大スコア)が最小文字列長閾値以上である場合に、クラスタをマージすることを説明したが、クラスタをマージする際、共通部の長さが極端に短くなる(スコアが大きく下がる)場合は、マージを抑制することで、攻撃パターンとして残すべき文字列長の長い共通部分が失われることを防ぐようにしてもよい。
そこで、以下の第二の実施の形態では、クラスタをマージする際、共通部の長さが極端に短くなる(スコアが大きく下がる)場合は、マージを抑制する場合について説明する。なお、第一の実施の形態と同様の構成や処理については説明を省略する。
第二の実施の形態に係る攻撃パターン抽出装置の抽出部13aは、共通した文字列の長さが、所定の比率以下に低下する場合は、当該文字列からの共通した文字列の抽出を抑制する。具体的には、抽出部13aは、最大スコア確認処理において、CとCのスコアs(C,C)(最大スコア)が最小文字列長閾値以上の場合、マージする前に、Cのstringsの要素数が最小クラスタサイズ閾値以上であり、かつマージ後のスコア低下率がスコア低下率閾値以上となる場合、マージは行わず、Cを結果リストRに追加し、処理対象クラスタ抽出処理に戻る。ここで、スコア低下率はCのlcs要素を区切り文字で分割した文字列の最長文字列長Lとスコアs(C,C)を比較して算出する。例えば、1−s(C,C)/Lをスコア低下率とする。
このため、第二の実施の形態では、既に十分な量のパラメータから十分に長い共通部が得られている場合に、さらにマージを行うことで得られる共通部が短くなってしまうことを防ぐことができる。
例えば、第一の実施の形態では、{lcs:“PATTERN”,strings:[“PATTERN1”,“PATTERN2”,“PATTERN3”]}というクラスタが得られている場合に、“TERN”というパラメータからなるクラスタもマージされて、{lcs:“TERN”,strings:[“PATTERN1”,“PATTERN2”,“PATTERN3”,“TERN”]}というクラスタが生成されてしまう。ここで、最小文字列長閾値は「4」とする。
攻撃パターンとしては、できるだけ長い共通部分を抽出したいので、この場合はマージせずに“PATTERN”という共通部が得られた時点で、マージを終了してクラスタを確定させたほうが良い。これに対して、第二の実施の形態では、“PATTERN”が“TERN”になるとスコアが大きく低下するので、マージを抑制して、所望の共通部を得ることができる。
[第二の実施の形態の効果]
このように、第二の実施の形態では、クラスタをマージする際、共通部の長さが極端に短くなる場合は、マージを抑制することで、攻撃パターンとして残すべき文字列長の長い共通部分が失われることを防ぐことが可能である。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。例えば、抽出部13aと攻撃パターン生成部13bとを統合してもよい。
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
また、上記実施形態において説明した攻撃パターン抽出装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る攻撃パターン抽出装置10が実行する処理をコンピュータが実行可能な言語で記述した攻撃パターン抽出プログラムを作成することもできる。この場合、コンピュータが攻撃パターン抽出プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる攻撃パターン抽出プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された攻撃パターン抽出プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
図9は、攻撃パターン抽出プログラムを実行するコンピュータ1000を示す図である。図9に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図9に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図9に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図9に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図9に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図9に例示するように、例えばディスプレイ1130に接続される。
ここで、図9に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の攻撃パターン抽出プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、攻撃パターン抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、攻撃パターン抽出プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 攻撃パターン抽出装置
11 入力部
12 出力部
13 制御部
13a 抽出部
13b 攻撃パターン生成部
14 記憶部
14a ログ記憶部

Claims (6)

  1. 攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出部と、
    前記抽出部によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成部と
    を備え
    前記抽出部は、パラメータ同士で共通する文字列であって、且つ、連続しない文字列間を区切る区切り文字を入れたまま最長共通部分列を算出し、該最長共通部分列を用いて、共通した文字列を抽出することを特徴とする攻撃パターン抽出装置。
  2. 前記攻撃パターン生成部は、文字列長が所定の文字列長以上の文字列が複数ある場合には、複数の文字列と各文字列の出現順序とを基に攻撃パターンを生成することを特徴とする請求項1に記載の攻撃パターン抽出装置。
  3. 前記攻撃パターン生成部は、前記抽出部によって抽出された連続する文字列が既に生成された攻撃パターンに含まれる場合には、抽出された連続する文字列を基に攻撃パターンを生成しないことを特徴とする請求項1に記載の攻撃パターン抽出装置。
  4. 前記抽出部は、抽出した共通文字列の長さが、抽出前の文字列の長さに対して、所定の比率以下に低下する場合は、当該文字列からの共通した文字列の抽出を抑制することを特徴とする請求項1に記載の攻撃パターン抽出装置。
  5. 攻撃パターン抽出装置で実行される攻撃パターン抽出方法であって、
    攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出工程と、
    前記抽出工程によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成工程と
    を含み、
    前記抽出工程は、パラメータ同士で共通する文字列であって、且つ、連続しない文字列間を区切る区切り文字を入れたまま最長共通部分列を算出し、該最長共通部分列を用いて、共通した文字列を抽出することを特徴とする攻撃パターン抽出方法。
  6. 攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出ステップと、
    前記抽出ステップによって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成ステップと
    をコンピュータに実行させ
    前記抽出ステップは、パラメータ同士で共通する文字列であって、且つ、連続しない文字列間を区切る区切り文字を入れたまま最長共通部分列を算出し、該最長共通部分列を用いて、共通した文字列を抽出するための攻撃パターン抽出プログラム。
JP2019502889A 2017-03-03 2018-02-19 攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム Active JP6714142B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017041122 2017-03-03
JP2017041122 2017-03-03
PCT/JP2018/005772 WO2018159361A1 (ja) 2017-03-03 2018-02-19 攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム

Publications (2)

Publication Number Publication Date
JPWO2018159361A1 JPWO2018159361A1 (ja) 2019-06-27
JP6714142B2 true JP6714142B2 (ja) 2020-06-24

Family

ID=63370017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019502889A Active JP6714142B2 (ja) 2017-03-03 2018-02-19 攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム

Country Status (3)

Country Link
US (1) US11244048B2 (ja)
JP (1) JP6714142B2 (ja)
WO (1) WO2018159361A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020054818A1 (ja) * 2018-09-14 2020-03-19 株式会社 東芝 通信制御装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3672242B2 (ja) * 2001-01-11 2005-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーション パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
JP2004192279A (ja) * 2002-12-10 2004-07-08 Matsushita Electric Ind Co Ltd Url管理装置及びurl管理方法並びにurl管理プログラム
ES2423491T3 (es) 2003-11-12 2013-09-20 The Trustees Of Columbia University In The City Of New York Aparato, procedimiento y medio para detectar una anomalía de carga útil usando la distribución en n-gramas de datos normales
JP4363214B2 (ja) 2004-02-17 2009-11-11 日本電気株式会社 アクセスポリシ生成システム、アクセスポリシ生成方法およびアクセスポリシ生成用プログラム
JP2007242002A (ja) * 2006-02-10 2007-09-20 Mitsubishi Electric Corp ネットワーク管理装置及びネットワーク管理方法及びプログラム
KR100809416B1 (ko) * 2006-07-28 2008-03-05 한국전자통신연구원 보안 시스템을 위한 최적 시그니처 자동 생성 장치 및 방법
WO2008067371A2 (en) * 2006-11-29 2008-06-05 Wisconsin Alumni Research Foundation System for automatic detection of spyware
US8001136B1 (en) * 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
US20090235357A1 (en) * 2008-03-14 2009-09-17 Computer Associates Think, Inc. Method and System for Generating a Malware Sequence File
US8494985B1 (en) * 2011-05-17 2013-07-23 Narus, Inc. System and method for using network application signatures based on modified term transition state machine
US20140380471A1 (en) * 2013-06-21 2014-12-25 Barracuda Networks, Inc. Binary Document Content Leak Prevention Apparatus, System, and Method of Operation
US9858413B1 (en) * 2013-07-03 2018-01-02 Trend Micro Inc. Reduction of false positives in malware detection using file property analysis
US10616038B2 (en) * 2014-06-24 2020-04-07 Vmware, Inc. Method and system for clustering event messages and managing event-message clusters
US10530790B2 (en) * 2014-09-25 2020-01-07 Oracle International Corporation Privileged session analytics
KR102390355B1 (ko) * 2015-11-16 2022-04-26 한국전자통신연구원 시그니처 기반 네트워크 공격 탐지 및 공격 시그니처 생성 방법 및 장치
US10547627B2 (en) * 2016-03-08 2020-01-28 Palo Alto Networks, Inc. Malicious HTTP cookies detection and clustering
JP6643211B2 (ja) * 2016-09-14 2020-02-12 株式会社日立製作所 異常検知システム及び異常検知方法

Also Published As

Publication number Publication date
WO2018159361A1 (ja) 2018-09-07
JPWO2018159361A1 (ja) 2019-06-27
US20190384910A1 (en) 2019-12-19
US11244048B2 (en) 2022-02-08

Similar Documents

Publication Publication Date Title
US10044750B2 (en) Code labeling based on tokenized code samples
CN107408181B (zh) 恶意软件感染终端的检测装置、恶意软件感染终端的检测***、恶意软件感染终端的检测方法以及记录介质
CN111971931B (zh) 在区块链网络中验证交易的方法以及构成该网络的节点
Kirat et al. Sigmal: A static signal processing based malware triage
JP6680945B2 (ja) ログ分析装置、ログ分析方法およびログ分析プログラム
JP6697123B2 (ja) プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
US20120311529A1 (en) System, method, and computer program product for applying a regular expression to content based on required strings of the regular expression
CN106997367B (zh) 程序文件的分类方法、分类装置和分类***
US20160219068A1 (en) Method and apparatus for automatically identifying signature of malicious traffic using latent dirichlet allocation
CN111160021A (zh) 日志模板提取方法及装置
US20160321289A1 (en) Method and Apparatus for Generating a Plurality of Indexed Data Fields
WO2020108357A1 (zh) 一种程序分类模型训练方法、程序分类方法及装置
JP6714142B2 (ja) 攻撃パターン抽出装置、攻撃パターン抽出方法および攻撃パターン抽出プログラム
CN113449299A (zh) 作为对机器学习模型字符串填充抑制的经投影的向量修改
JP6777612B2 (ja) コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法
CN106657128B (zh) 基于通配符掩码规则的数据包过滤方法及装置
JP6954466B2 (ja) 生成方法、生成装置および生成プログラム
US20190364066A1 (en) Apparatus and method for reconfiguring signature
US20190303605A1 (en) Information processing apparatus, control method, and program
US20140297663A1 (en) Filter regular expression
CN112995218A (zh) 域名的异常检测方法、装置及设备
Reviriego et al. On the security of the k minimum values (KMV) sketch
KR102100393B1 (ko) 악성 도메인을 판단하는 방법, 이를 이용하는 컴퓨팅 장치, 및 프로그램
KR102233217B1 (ko) 분할순위패턴매칭 알고리즘
WO2023238240A1 (ja) 検証装置、検証方法及び検証プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200604

R150 Certificate of patent or registration of utility model

Ref document number: 6714142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150