JP2019102960A - サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム - Google Patents

サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム Download PDF

Info

Publication number
JP2019102960A
JP2019102960A JP2017231552A JP2017231552A JP2019102960A JP 2019102960 A JP2019102960 A JP 2019102960A JP 2017231552 A JP2017231552 A JP 2017231552A JP 2017231552 A JP2017231552 A JP 2017231552A JP 2019102960 A JP2019102960 A JP 2019102960A
Authority
JP
Japan
Prior art keywords
feature
feature amount
packet
unit
attack detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017231552A
Other languages
English (en)
Other versions
JP6835703B2 (ja
Inventor
雄太 風戸
Yuta Kazeto
雄太 風戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017231552A priority Critical patent/JP6835703B2/ja
Publication of JP2019102960A publication Critical patent/JP2019102960A/ja
Application granted granted Critical
Publication of JP6835703B2 publication Critical patent/JP6835703B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】機械学習を用いたサイバー攻撃検知において、現実時間内で最適な特徴量を選定し、計算量削減と攻撃検知精度の向上を実現する。【解決手段】サイバー攻撃検知システムにおいて、既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部と、前記特徴量抽出部により抽出される判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別部とを備える。【選択図】図7

Description

本発明は、サイバー攻撃検知技術に関連するものであり、特に、ネットワークにおいて転送されるパケットのヘッダ情報に含まれる特徴量を選定して、機械学習手法によってサイバー攻撃を検知する技術に関連するものである。
背景技術として、まず、ネットワークを転送するパケットとサイバー攻撃検知について説明する。
ネットワークで転送されるパケットの構造は、一般的にヘッダ部分とペイロード部分に分けられる。図1に、ヘッダ部分とペーロード部分を有するパケットの構造の一例を示す。ヘッダ部分として、例えば、イーサネット(登録商標)ヘッダ、IPヘッダ、TCP、UDP、ARPなどのプロトコルヘッダがある。また、パケットに含まれる情報にはカテゴリデータと数値データが存在する。カテゴリデータとは、定性的に決められた離散量のデータであり、パケットのヘッダ情報としてプロトコルの種類やサービス種類、IPアドレス、ポート番号、ステータス状態などがある。数値データとしては、例えば、パケットの生存時間TTL値、ウィンドウサイズなどがある。
サイバー攻撃とは、サーバやパソコン端末、ネットワークに対する攻撃行為であり、代表的な攻撃としてDDoS攻撃、不正アクセス攻撃、マルウェアによる不正通信、攻撃などが存在する。一般ユーザがインターネットサービス等を正常な目的で利用する際に発生する通信を正常通信と呼び、これらのサイバー攻撃に関わるような通信を攻撃通信と呼ぶ。
サイバー攻撃を検知する方法として、端末側での攻撃検知とネットワーク側での攻撃検知が従来から存在する。端末側での攻撃検知にはアンチウイルスソフトやホストIDS/IPSが用いられ、端末に攻撃検知用のソフトウェアをインストールして利用する。一方でネットワーク側ではネットワークIDS/IPS、FW、WAFなどの装置又はソフトウェアが利用されており、これらの装置、ソフトウェアはネットワークを転送するパケットを用いて攻撃検知を行うことが一般的である。
また、攻撃通信の発見方法として、シグネチャ型とアノマリ型の攻撃検知方法がある。シグネチャ型の攻撃検知方法は、パケットに含まれるパターンが事前に定義していた既知の攻撃のシグネチャと一致する場合、攻撃通信として検知する方法である。シグネチャ型はシグネチャパターンとマッチングする攻撃を確実に検知できる一方、亜種や未知の攻撃を検知できない問題点がある。
アノマリ型の攻撃検知方法は、機械学習や統計的手法を用いる攻撃検知の方法であり、例えば正常通信又は攻撃通信の特徴を予めパターンとして学習しておくことで、攻撃の特徴と類似したパターンのパケットを攻撃通信として検知する。アノマリ型はシグネチャ型の課題であった未知の攻撃に対する攻撃検知が可能である。
続いて、背景技術として機械学習によるサイバー攻撃検知について説明する。機械学習とは、データからパターンや特徴を反復的に学習し、学習モデルを基に分類や異常検知を行う人工知能分野の手法であり、ナイーブベイズ、サポートベクタマシン、決定木、ロジスティック回帰、ニューラルネットなど様々な手法・アルゴリズムが存在する。
機械学習の手法には、大きく分けて教師あり学習と教師なし学習がある。教師あり学習とは、事前に既知である正解ラベル付き教師データを用意し、これらのデータからパターンを学習した学習モデルを作成し、判別対象のデータに対して、予測を行うものである。教師なし学習とは、事前に教師データを利用せず、判別対象のデータの特性からクラスタリングや外れ値を求めることで、予測を行うものである。
機械学習によるサイバー攻撃検知において、学習時には正解ラベルのある攻撃通信と正常通信が既知である学習用データをもとに特徴量を抽出し、特徴量をもとに学習モデルを作成する。予測時には未知のデータに対して、特徴量を抽出の上、学習済みのモデルを攻撃判別器として用いて予測を行い、攻撃検知の結果を得る。
この時、学習モデル作成用に利用する特徴量について、利用する特徴量が多すぎる場合、攻撃検知に不必要な特徴量を利用してしまうことで攻撃検知精度が低下する、あるいは学習モデルの作成に時間を要する等の可能性が発生する。また、利用する特徴量が少なすぎる場合、攻撃検知に必要な特徴量を利用しない可能性があり、同じく攻撃検知精度が低下する可能性がある。
従って、機械学習によるサイバー攻撃検知において、攻撃検知用の学習モデル作成の前段である特徴量の選定が攻撃検知精度や実システム運用において非常に重要であるといえる。
次に、機械学習を用いた攻撃検知の従来技術について説明する。ネットワークでの攻撃検知に機械学習手法を用いる場合、スケーラビリティの観点からヘッダ情報を利用して攻撃検知をする従来技術が存在する。この場合に、インプットとなるヘッダ情報からどの特徴量を機械学習のモデル学習に利用するかを選定することが、アウトプットとなる攻撃検知とその検知精度へ大きく影響する。例えば攻撃検知に関係性が低い特徴量を多く選ぶことで検知精度が悪く、かつ学習に時間を要する場合や、選定した特徴量が少なすぎるため、十分な攻撃検知精度を得られない可能性がある。このように、ヘッダ情報を特徴量とした攻撃検知においても、特徴量の選定と削減が重要となる。
パケットのヘッダ情報を特徴量として用いて、攻撃検知に有効な特徴量を選定する従来技術として非特許文献1に記載された技術(従来技術1と呼ぶ)と非特許文献2に記載された技術(従来技術2と呼ぶ)があり、これらの技術では、有効な特徴量を選定することで攻撃検知精度の向上を行なっている。
従来技術1では、攻撃検知に有効な特徴量について、アソシエーション・ルール・マイニング手法(ARM)を用いて、信頼度と支持度を繰り返し計算することで重要な特徴量を選定している。従来技術2では、攻撃検知に有効な特徴量の組み合わせをランダムに選定、評価を繰り返し行うことで最適な組み合わせを選定する焼きなまし法を特徴量選定に用いている。
Moustafa, Nour, and Jill Slay. "The significant features of the UNSW-NB15 and the KDD99 data sets for Network Intrusion Detection Systems." BADGERS, 2015 4th International Workshop on. IEEE, 2015. Chowdhury, Md Nasimuzzaman, Ken Ferens, and Mike Ferens. "Network Intrusion Detection Using Machine Learning." Proceedings of the International Conference on Security and Management (SAM) WorldComp2016.
しかし、従来技術ではヘッダ情報の特徴量選定において、ランダムな組み合わせで繰り返し評価計算を行う特徴量選定手法を用いるため、現実時間内での最適な特徴量の選定が困難であり、その結果として攻撃検知精度が十分ではないという課題がある。
例えば、従来技術2の特徴量選定手法では、焼きなまし法によってランダムな特徴量の組み合わせを選択し、SVM手法を用いて攻撃検知精度の評価を繰り返し行い、最終的に攻撃検知精度が最も高い結果を得た特徴量の組み合わせを選定している。
このように、繰り返し評価計算を行うことで攻撃検知精度の評価が最も良い特徴量の組み合わせを選定することができるが、一方で特徴量の数が非常に多い場合には現実時間内での最適な特徴量の選定が困難である。また、新たな特徴を持った攻撃が発生した等で学習用データを変更した際にも繰り返しの評価再計算が必要となる。その結果、十分な攻撃検知精度が得られないといえる。
本発明は上記の点に鑑みてなされたものであり、機械学習を用いたサイバー攻撃検知において、現実時間内で最適な特徴量を選定し、計算量削減と攻撃検知精度の向上を実現することを可能とする技術を提供することを目的とする。
開示の技術によれば、既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、
前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、
前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部と、
前記特徴量抽出部により抽出される判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別部と
を備えることを特徴とするサイバー攻撃検知システムが提供される。
開示の技術によれば、機械学習を用いたサイバー攻撃検知において、現実時間内で最適な特徴量を選定し、計算量削減と攻撃検知精度の向上を実現することを可能とする技術が提供される。
パケットの構造の例を示す図である。 本発明の実施の形態におけるサイバー攻撃検知システム100の構成図である。 サイバー攻撃検知システム100における全体の処理の流れを説明するための図である。 サイバー攻撃検知システム100における各機能部の詳細構成を示す図である。 決定木の例を示す図である。 特徴量の重要度の例を示す図である。 カテゴリデータ特徴量を数値データ特徴量とは別の特徴量として扱うことを説明するための図である。 カテゴリデータをダミー変数化することを説明するための図である。 サイバー攻撃検知システム100のハードウェア構成例を示す図である。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
(システム構成)
図2に、本実施の形態におけるサイバー攻撃検知システム100の機能構成図を示す。図2に示すように本実施の形態におけるサイバー攻撃検知システム100は、特徴量抽出部110(既知パケット用と判別対象パケット用が含まれる)、特徴量選定部120(カテゴリデータ用と数値データ用が含まれる)、特徴量学習部130、攻撃判別部140を含む。なお、サイバー攻撃検知システム100は、ネットワーク上のパケットを取得可能であれば、ネットワークのどこに設置しても構わない。
図2に示すサイバー攻撃検知システム100の処理動作の概要を図3のフロー図の手順に沿って説明する。なお、図3は、教師あり学習を行う場合の例であるが、本発明は、教師なし学習を行う場合にも適用可能である。また、図3に示す全体の流れ自体は従来のものと同様であるが、本実施の形態は従来技術にない特徴的な部分を含む。以下では概要を説明し、詳細は後述する。下記の手順において、S101〜S104は学習フェーズであり、S105〜S107は検知判別フェーズである。
S101において、特徴量抽出部110(既知パケット用)に、既知パケットが正解ラベル付きデータとして入力される。特徴量抽出部110(既知パケット用)は、パケットのヘッダ部の情報から特徴量を抽出し、特徴量を特徴量選定部120に出力する。
S102において、特徴量選定部120は、特徴量抽出部110(既知パケット用)から入力された既知パケットの特徴量を数値データの特徴量とカテゴリデータの特徴量に分けて、各特徴量の情報の重要度を算出し、重要度に基づき、特徴量学習部130で使用する特徴量を選定する。
S103及びS104において、特徴量学習部130は、特徴量選定部120により選定された特徴量に基づいて、機械学習により学習モデルを作成し、作成した学習モデルを攻撃判別部140に出力する。
S105において、特徴量抽出部110(判別対象パケット用)に、判別対象パケットが予測対象データとして入力され、特徴量抽出部110(判別対象パケット用)は、特徴量選定部120による特徴量選定結果に基づいて、判別対象パケットのヘッダ部の情報から特徴量を抽出する。
S106において、攻撃判定部140は、特徴量学習部130により作成された学習モデルを使用して、特徴量抽出部110(判別対象パケット用)により抽出された特徴量に基づいて、判別対象パケットがサイバー攻撃に該当するか否かの判別を行う。S107において、攻撃判定部140は、判別結果を出力する。
なお、サイバー攻撃検知システム100において、特徴量選定、学習、攻撃検知の全ての機能を含むことは必須ではない。例えば、サイバー攻撃検知システム100は、既知パケットを利用した特徴量選定に係る機能のみを含み、学習と攻撃検知は別システムで行うこととしてもよい。既知パケットを利用した特徴量選定に係る機能のみを含むシステムを特徴量選定システムと称してもよい。
(詳細構成)
図4は、サイバー攻撃検知システム100の詳細構成図を示す。図4を参照して、サイバー攻撃検知システム100における各機能部の詳細を説明する。
<特徴量抽出部110>
図4に示すように、特徴量抽出部110は、パケット入力部111、既知パケット特徴量抽出部112、判別パケット特徴量抽出部113、カテゴリデータ特徴量変換部114、特徴量出力部115を備える。
パケット入力部111は、パケットが送受信されるネットワークからパケットを入力する。既知パケット特徴量抽出部112は、既知パケット(攻撃通信あるいは正常通信として既知のパケット)からヘッダ部分の情報から特徴量を取得する。判別パケット特徴量抽出部113は、判別対象パケットのヘッダ部分の情報から特徴量を取得する。
本実施の形態で特徴量として抽出されるヘッダ部分の情報は、カテゴリデータと数値データに分けられる。カテゴリデータとは、定性的に決められた離散量のデータであり、例えば、プロトコルの種類、サービス種類、IPアドレス、ポート番号、ステータス状態などである。数値データは、例えば、パケットの生存時間TTL値、ウィンドウサイズなどである。
カテゴリデータ特徴量変換部114は、既知パケット特徴量抽出部112/判別パケット特徴量抽出部113により抽出された特徴量のうちのカテゴリデータの特徴量をダミー変数化する。ダミー変数化するとは、定性的に決められた離散量のデータを数値で表すことである。
ダミー変数化の一例を説明する。プロトコルA、プロトコルB、プロトコルCを利用する通信フローを想定した場合において、プロトコルという特徴量をダミー変数化することで、プロトコルA_特徴量、プロトコルB_特徴量、プロトコルC_特徴量という新しい特徴量が作成される。当該特徴量は、0又は1をとるダミー変数である。この場合において、プロトコルAであれば{プロトコルA_特徴量,プロトコルB_特徴量,プロトコルC_特徴量}={1,0,0}、プロトコルBであれば{プロトコルA_特徴量,プロトコルB_特徴量,プロトコルC_特徴量}={0,1,0}になる。
特徴量出力部115は、既知パケットから抽出した特徴量を特徴量選定部120へ出力し、判別対象のパケットから抽出した特徴量を攻撃判別部140へ出力する。
<特徴量選定部120>
特徴量選定部120は、特徴量入力部121、既知パケット特徴量重要度算出部122、既知パケット特徴量選定部123、選定特徴量出力部124を備える。
特徴量入力部121は、既知パケットの特徴量を特徴量抽出部110から入力する。既知パケット特徴量重要度算出部122は、既知パケットの特徴量を数値データの特徴量とカテゴリデータの特徴量に分けて、数値データの特徴量とカテゴリデータの特徴量のぞれぞれについて、各特徴量の情報の重要度を算出する。重要度の算出方法は特定の方法に限定されないが、本実施の形態では、例えば、ランダムフォレストのアルゴリズムを使用し、決定木を作成するときの分岐による情報利得に基づき、特徴量の重要度を算出する。
既知パケット特徴量選定部123は、既知パケットの特徴量算出結果を基に上位の重要度である特徴量を選定する。選定特徴量出力部124は、既知パケット特徴量選定部123により選定された特徴量を特徴量学習部130と特徴量抽出部110へ出力する。
<特徴量学習部130>
特徴量学習部130は、特徴量選定結果入力部131、特徴量学習処理部132、学習モデル出力部133を備える。
特徴量選定結果入力部131は、特徴量選定部120により選定された特徴量を入力する。特徴量学習処理部132は、特徴量選定結果に基づいて、既知のパケットから抽出された特徴量を用いて機械学習の学習モデルを作成する。なお、学習モデルは、例えば、特徴量を変数とし、判別結果(攻撃か否か)を出力する関数である。
本実施の形態において適用される機械学習の手法は特定の方法に限定されない。ナイーブベイズ、サポートベクタマシン、決定木、ロジスティック回帰、ニューラルネットなど種々の手法を適用できる。また、教師あり学習と教師なし学習のいずれも使用することができる。
学習モデル出力部133は、特徴量学習処理部132により作成された学習モデルを攻撃判別部140へ出力する。
<攻撃判別部140>
攻撃判別部140は、学習モデル入力部141、学習モデル記録部142、特徴量入力部143、攻撃判別部144、及び判別結果出力部145を備える。
学習モデル入力部141は、特徴量学習部130から学習モデルを入力する。学習モデル記録部142は、入力された学習モデルを記録する。特徴量入力部143は、特徴量抽出部110から判別対象のパケットの特徴量を入力する。攻撃判別部144は、学習モデルと特徴量とに基づいて、判別対象のパケットがサイバー攻撃に係るパケットか否かの判別を行う。判別結果出力部145は、攻撃の判別結果を攻撃判別結果として出力する。
以下、上述した構成における、従来技術にない特徴的なポイント1〜3を説明する。
<ポイント1>
ポイント1は、特徴量の情報の重要度を算出するだけで、攻撃検知に有効な特徴量を選定する点である。
前述したように、既知パケット特徴量重要度算出部122は、 各特徴量の情報の重要度を算出する。算出には、例えば、決定木を作成するグラフ構造の機会学習手法を用いることができる。図5に決定木の一例を示す。既知パケット特徴量重要度算出部122は、特徴量を各ノードにあてはめた決定木を多数作成し、分岐に関わるジニ係数やエントロピーを算出することで各特徴量の攻撃検知に関する重要度を求める。
図6は、特徴量の情報の重要度の例を示す。既知パケット特徴量重要度算出部122は、例えば、重要度が最高のものから所定数の上位の特徴量を選定する。図6の例では、上位3つの特徴量が選択されたことが示されている。このように、重要度が上位である特徴量を選定することで攻撃検知に有効な特徴量の組み合わせを決定できる。
<ポイント2>
ポイント2は、攻撃検知に関して重要な意味合いを持つカテゴリデータ特徴量を数値データ特徴量とは別の特徴量として扱う点である。
この点に関する処理イメージを図7に示す。図7に示すとおり、既知パケット特徴量重要度算出部122は、既知パケットの特徴量を数値データの特徴量とカテゴリデータの特徴量に分けて、数値データの特徴量とカテゴリデータの特徴量のぞれぞれについて、各特徴量の情報の重要度を算出し、特徴量の選定を行う。特徴量学習部130は、選定された学習モデルの組み合わせを用いて、学習モデルを作成する。
<ポイント3>
ポイント3は、カテゴリデータをダミー変数化することで、カテゴリデータ内の重要な特徴量を選定することとしている点である。図8は、ダミー変数化の概念を示す図である。図8に示すように、数量ではない情報(male, female等)を変数として表現する。
このようなダミー変数化により、特徴量の情報の損失を防ぐことが可能となるとともに、カテゴリデータ内での情報の重要度を用いた特徴量選定が可能となる。
上記のようなポイントにより、従来技術において課題であった「特徴量を組み合わせた繰り返し評価」を行うことなく、特徴量選定及び学習モデル作成を実現できる。
(ハードウェア構成例)
上述したサイバー攻撃検知システム100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。また、特徴量選定システムも同様に、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。ここでは、サイバー攻撃検知システム100や特徴量選定システム等の本発明に係る機能を含むシステムを処理システムと呼ぶことにする。
すなわち、処理システムは、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、処理システムで実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図9は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図9のコンピュータは、それぞれバスBで相互に接続されているドライブ装置150、補助記憶装置152、メモリ装置153、CPU154、インターフェース装置155、表示装置156、及び入力装置157等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD−ROM又はメモリカード等の記録媒体151によって提供される。プログラムを記憶した記録媒体151がドライブ装置150にセットされると、プログラムが記録媒体151からドライブ装置150を介して補助記憶装置152にインストールされる。但し、プログラムのインストールは必ずしも記録媒体151より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置152は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置153は、プログラムの起動指示があった場合に、補助記憶装置152からプログラムを読み出して格納する。CPU154は、メモリ装置153に格納されたプログラムに従って処理システムに係る機能を実現する。インターフェース装置155は、ネットワークに接続するためのインターフェースとして用いられる。表示装置156はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置157はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。なお、ユーザとのインターフェースを必要としない場合は、表示装置156や入力装置157を備えないこととしてもよい。
(システムの動作例)
次に、サイバー攻撃検知システム100が不正アクセス攻撃を検知する動作例を説明する。なお、サイバー攻撃検知システム100は、サイバー攻撃全般を検知対象とすることが可能である。以下、学習フェーズと検知判別フェーズのそれぞれについて説明する。
<学習フェーズ>
学習フェーズでは、正常通信と攻撃通信の正解ラベル付きデータセットを特徴量選定及び機械学習の特徴量学習の学習用データとして利用する。また、攻撃通信には不正アクセス攻撃に関する既知のパケットも含んでおり、攻撃通信のパケットがどのような攻撃と関連するものかの正解ラベルが付与されている。
初めに、特徴量抽出部110において学習用データセットのパケットを入力し、各パケットのヘッダ部分から特徴量を抽出する。次に、カテゴリデータ特徴量変換部114は、特徴量のうち、カテゴリデータの特徴量をダミー変数化する。例えば、プロトコルのカテゴリデータ特徴量に含まれる項目数が10個であれば、これらの項目の情報を10個の新しい特徴量に変換する。
次に、特徴量選定部120において攻撃検知に有効な特徴量の選定を行う。特徴量選定部121はまず正常通信と攻撃通信の既知パケットの特徴量から特徴量の重要度を算出する。特徴量の重要度を算出後、重要度の値が上位である特徴量を、攻撃検知に利用する最適な特徴量として選定する。
その後、特徴量学習部130は、特徴量選定部120により選定された特徴量に基づいて攻撃検知用の学習モデルを作成する。当該学習モデルは単数又は複数の機械学習手法により作成される学習モデルである。
また、新しい攻撃通信や正常通信を利用して学習を行う場合、上記の特徴量選定処理を再度実施し、選定結果が変わる場合には、当該変更後の新たな選定特徴量を用いて学習モデルを再作成し、攻撃判別用の学習モデルとして使用する。
<検知判別フェーズ>
検知判別フェーズでは、特徴量抽出部110において、判別対象のパケットのヘッダ部分から特徴量選定部120で選定された特徴量のみを抽出する。この際に、カテゴリデータの特徴量の場合、ダミー変数化した後に、選定した特徴量の抽出を行う。
次に、攻撃判別部140において、判別対象パケットから選定した特徴量に基づいて攻撃の判別を行う。この時、攻撃判別部140は、判別対象パケットの特徴量に基づいて学習モデルで予測を行い、その判別結果を出力する。これにより、不正アクセス攻撃に係る判別対象パケットが、不正アクセス攻撃に係るパケットであることを検知することが可能である。
(実施の形態の効果)
従来技術では、攻撃検知に用いるヘッダ情報の特徴量選定において、現実時間内での最適な選定が困難であり、攻撃検知精度が十分でない課題があったが、本実施の形態の技術によると、特徴量に関する情報の重要度の算出のみで現実時間内での最適な特徴量選定を実現し、計算量削減と攻撃検知精度の向上が可能となる。
また、ネットワークでの攻撃検知において重要な意味合いを持つカテゴリデータの特徴量を有効的に利用することで、攻撃検知精度の向上が可能となる。
更に、最適な特徴量の選定により特徴量空間の次元数を削減でき、攻撃検知に利用する機械学習手法の学習時間を短縮することが可能となる。
(実施の形態のまとめ)
以上、説明したように、本実施の形態により、既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部と、前記特徴量抽出部により抽出される判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別部とを備えることを特徴とするサイバー攻撃検知システムが提供される。
前記特徴量抽出部は、例えば、前記判別対象パケットの特徴量として、当該判別対象パケットのヘッダ情報から前記特徴量選定部により選定された特徴量を抽出する。
前記特徴量選定部は、例えば、特徴量を抽出する対象となるパケットのヘッダ情報に含まれる特徴量のうち、カテゴリデータの特徴量をダミー変数化し、数値データの特徴量とカテゴリーデータの特徴量のそれぞれについて、特徴量の選定を行う。
また、本実施の形態により、サイバー攻撃検知のために使用される特徴量を選定する特徴量選定システムであって、既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部とを備えることを特徴とする特徴量選定システムが提供される。
特徴量選定システムの前記特徴量選定部は、例えば、前記既知パケットのヘッダ情報に含まれる特徴量のうち、カテゴリデータの特徴量をダミー変数化し、数値データの特徴量とカテゴリーデータの特徴量のそれぞれについて、特徴量の選定を行う。
また、本実施の形態により、サイバー攻撃検知システムが実行するサイバー攻撃検知方法であって、既知パケットのヘッダ情報から特徴量を抽出する学習用特徴量抽出ステップと、前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定ステップと、前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習ステップと、判別対象パケットのヘッダ情報から特徴量を抽出する判別用特徴量抽出ステップと、前記判別用特徴量抽出ステップにより抽出された判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別ステップとを備えることを特徴とするサイバー攻撃検知方法が提供される。
また、本実施の形態により、コンピュータを、前記サイバー攻撃検知システムにおける各部として機能させるためのプログラムが提供される。また、本実施の形態により、コンピュータを、前記特徴量選定システムにおける各部として機能させるためのプログラムが提供される。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 サイバー攻撃検知システム
110 特徴量抽出部
111 パケット入力部
112 既知パケット特徴量抽出部
113 判別パケット特徴量抽出部
114 カテゴリデータ特徴量変換部
115 特徴量出力部
120 特徴量選定部
121 特徴量入力部
122 既知パケット特徴量重要度算出部
123 既知パケット特徴量選定部
124 選定特徴量出力部
130 特徴量学習部
131 特徴量選定結果入力部
132 特徴量学習処理部
133 学習モデル出力部
140 攻撃判別部
141 学習モデル入力部
142 学習モデル記録部
143 特徴量入力部
144 攻撃判別部
145 判別結果出力部
150 ドライブ装置
151 記録媒体
152 補助記憶装置
153 メモリ装置
154 CPU
155 インターフェース装置
156 表示装置
157 入力装置

Claims (8)

  1. 既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、
    前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、
    前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部と、
    前記特徴量抽出部により抽出される判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別部と
    を備えることを特徴とするサイバー攻撃検知システム。
  2. 前記特徴量抽出部は、前記判別対象パケットの特徴量として、当該判別対象パケットのヘッダ情報から前記特徴量選定部により選定された特徴量を抽出する
    ことを特徴とする請求項1に記載のサイバー攻撃検知システム。
  3. 前記特徴量選定部は、特徴量を抽出する対象となるパケットのヘッダ情報に含まれる特徴量のうち、カテゴリデータの特徴量をダミー変数化し、数値データの特徴量とカテゴリーデータの特徴量のそれぞれについて、特徴量の選定を行う
    ことを特徴とする請求項1又は2に記載のサイバー攻撃検知システム。
  4. サイバー攻撃検知のために使用される特徴量を選定する特徴量選定システムであって、
    既知パケットのヘッダ情報から特徴量を抽出する特徴量抽出部と、
    前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定部と、
    前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習部と
    を備えることを特徴とする特徴量選定システム。
  5. 前記特徴量選定部は、前記既知パケットのヘッダ情報に含まれる特徴量のうち、カテゴリデータの特徴量をダミー変数化し、数値データの特徴量とカテゴリーデータの特徴量のそれぞれについて、特徴量の選定を行う
    ことを特徴とする請求項4に記載の特徴量選定システム。
  6. サイバー攻撃検知システムが実行するサイバー攻撃検知方法であって、
    既知パケットのヘッダ情報から特徴量を抽出する学習用特徴量抽出ステップと、
    前記既知パケットの各特徴量の情報の重要度を算出し、重要度が上位の特徴量を選定する特徴量選定ステップと、
    前記選定した特徴量から機械学習の学習モデルを作成する特徴量学習ステップと、
    判別対象パケットのヘッダ情報から特徴量を抽出する判別用特徴量抽出ステップと、
    前記判別用特徴量抽出ステップにより抽出された判別対象パケットの特徴量と前記学習モデルとから、当該判別対象パケットがサイバー攻撃に係るパケットか否かを判別して判別結果を出力する攻撃判別ステップと
    を備えることを特徴とするサイバー攻撃検知方法。
  7. コンピュータを、請求項1ないし3のうちいずれか1項に記載のサイバー攻撃検知システムにおける各部として機能させるためのプログラム。
  8. コンピュータを、請求項4又は5に記載の特徴量選定システムにおける各部として機能させるためのプログラム。
JP2017231552A 2017-12-01 2017-12-01 サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム Active JP6835703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017231552A JP6835703B2 (ja) 2017-12-01 2017-12-01 サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017231552A JP6835703B2 (ja) 2017-12-01 2017-12-01 サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019102960A true JP2019102960A (ja) 2019-06-24
JP6835703B2 JP6835703B2 (ja) 2021-02-24

Family

ID=66974306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017231552A Active JP6835703B2 (ja) 2017-12-01 2017-12-01 サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6835703B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110830499A (zh) * 2019-11-21 2020-02-21 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和***
CN111314310A (zh) * 2020-01-19 2020-06-19 浙江大学 一种基于机器学习的不可解析网络数据特征选择的攻击检测方法
CN111507385A (zh) * 2020-04-08 2020-08-07 中国农业科学院农业信息研究所 一种可扩展的网络攻击行为分类方法
WO2021048902A1 (ja) * 2019-09-09 2021-03-18 楽天株式会社 学習モデル適用システム、学習モデル適用方法、及びプログラム
JP2021093689A (ja) * 2019-12-12 2021-06-17 Kddi株式会社 情報処理システムおよび情報処理方法
CN113505826A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于联合特征选择的网络流量异常检测方法
JP7273942B1 (ja) 2021-12-28 2023-05-15 尚承科技股▲フン▼有限公司 ネットワーク行為特徴を学習するネットワーク機器、処理システムおよび方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821002A (zh) * 2011-06-09 2012-12-12 ***通信集团河南有限公司信阳分公司 网络流量异常检测方法和***
JP6177410B1 (ja) * 2016-11-07 2017-08-09 株式会社オプティマイザー 電力需要調達支援システム、情報処理装置、情報処理方法および情報処理プログラム
US20170250954A1 (en) * 2016-02-26 2017-08-31 Microsoft Technology Licensing, Llc Hybrid hardware-software distributed threat analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102821002A (zh) * 2011-06-09 2012-12-12 ***通信集团河南有限公司信阳分公司 网络流量异常检测方法和***
US20170250954A1 (en) * 2016-02-26 2017-08-31 Microsoft Technology Licensing, Llc Hybrid hardware-software distributed threat analysis
JP6177410B1 (ja) * 2016-11-07 2017-08-09 株式会社オプティマイザー 電力需要調達支援システム、情報処理装置、情報処理方法および情報処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
小久保 博崇 HIROTAKA KOKUBO: "攻撃通信検知のための合成型機械学習手法の一検討", 情報処理学会論文誌 論文誌ジャーナル VOL.53 NO.9 [CD−ROM] IPSJ JOURNAL, vol. 第53巻, JPN6020040240, 15 September 2012 (2012-09-15), JP, pages 2086 - 2093, ISSN: 0004435124 *
小池 泰輔 DAISUKE KOIKE: "ランダムフォレストアルゴリズムを用いたネットワーク侵入検出システムの性能解析", 第76回(平成26年)全国大会講演論文集(3) ネットワーク セキュリティ, JPN6020040238, 11 March 2014 (2014-03-11), pages 3 - 619, ISSN: 0004375411 *
高原 尚志 HISASHI TAKAHARA: "Random ForestとK−Means法を組み合わせたハイブリッド型攻撃検知方式の検証評価 Eval", CSS2017 コンピュータセキュリティシンポジウム2017 論文集 合同開催 マルウェア対策研究人, vol. 第2017巻, JPN6020040242, 16 October 2017 (2017-10-16), JP, pages 21 - 28, ISSN: 0004435125 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021048902A1 (ja) * 2019-09-09 2021-09-27 楽天グループ株式会社 学習モデル適用システム、学習モデル適用方法、及びプログラム
TWI778411B (zh) * 2019-09-09 2022-09-21 日商樂天集團股份有限公司 學習模型應用系統、學習模型應用方法及程式產品
JP7015927B2 (ja) 2019-09-09 2022-02-03 楽天グループ株式会社 学習モデル適用システム、学習モデル適用方法、及びプログラム
WO2021048902A1 (ja) * 2019-09-09 2021-03-18 楽天株式会社 学習モデル適用システム、学習モデル適用方法、及びプログラム
CN110830499B (zh) * 2019-11-21 2021-08-27 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和***
CN110830499A (zh) * 2019-11-21 2020-02-21 中国联合网络通信集团有限公司 一种网络攻击应用检测方法和***
JP2021093689A (ja) * 2019-12-12 2021-06-17 Kddi株式会社 情報処理システムおよび情報処理方法
JP7050042B2 (ja) 2019-12-12 2022-04-07 Kddi株式会社 情報処理システムおよび情報処理方法
CN111314310A (zh) * 2020-01-19 2020-06-19 浙江大学 一种基于机器学习的不可解析网络数据特征选择的攻击检测方法
CN111507385A (zh) * 2020-04-08 2020-08-07 中国农业科学院农业信息研究所 一种可扩展的网络攻击行为分类方法
CN111507385B (zh) * 2020-04-08 2023-04-28 中国农业科学院农业信息研究所 一种可扩展的网络攻击行为分类方法
CN113505826A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于联合特征选择的网络流量异常检测方法
CN113505826B (zh) * 2021-07-08 2024-04-19 西安电子科技大学 基于联合特征选择的网络流量异常检测方法
JP7273942B1 (ja) 2021-12-28 2023-05-15 尚承科技股▲フン▼有限公司 ネットワーク行為特徴を学習するネットワーク機器、処理システムおよび方法
JP2023097531A (ja) * 2021-12-28 2023-07-10 尚承科技股▲フン▼有限公司 ネットワーク行為特徴を学習するネットワーク機器、処理システムおよび方法

Also Published As

Publication number Publication date
JP6835703B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
JP6835703B2 (ja) サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム
Karatas et al. Increasing the performance of machine learning-based IDSs on an imbalanced and up-to-date dataset
Rabbani et al. A hybrid machine learning approach for malicious behaviour detection and recognition in cloud computing
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
Karami An anomaly-based intrusion detection system in presence of benign outliers with visualization capabilities
JP6622928B2 (ja) 悪意のあるbgpハイジャックの正確なリアルタイム識別
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
Nagarajan et al. IADF-CPS: Intelligent anomaly detection framework towards cyber physical systems
US9762593B1 (en) Automatic generation of generic file signatures
JP6053568B2 (ja) ネットワークフローデータプロファイルからのスパムメール送信ホストの検知方式とシステム
WO2019168072A1 (ja) トラフィック異常検知装置、トラフィック異常検知方法、及びトラフィック異常検知プログラム
CN111382434A (zh) 用于检测恶意文件的***和方法
JP6491356B2 (ja) 分類方法、分類装置および分類プログラム
Laftah Al-Yaseen et al. Hybrid Modified K‐Means with C4. 5 for Intrusion Detection Systems in Multiagent Systems
CN110768946A (zh) 一种基于布隆过滤器的工控网络入侵检测***及方法
Dinh et al. ECSD: Enhanced compromised switch detection in an SDN-based cloud through multivariate time-series analysis
Saurabh et al. Nfdlm: A lightweight network flow based deep learning model for ddos attack detection in iot domains
CN117061254B (zh) 异常流量检测方法、装置和计算机设备
Manzano et al. Design of a machine learning based intrusion detection framework and methodology for iot networks
Martins et al. Automatic detection of computer network traffic anomalies based on eccentricity analysis
Sabeel et al. Unknown, Atypical and Polymorphic Network Intrusion Detection: A Systematic Survey
JP2019029798A (ja) 異常検知システム及び異常検知方法
EP3799367B1 (en) Generation device, generation method, and generation program
Li et al. Improving the performance of neural networks with random forest in detecting network intrusions
WO2016204839A2 (en) System and method to detect attacks on mobile wireless networks based on network controllability analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210204

R150 Certificate of patent or registration of utility model

Ref document number: 6835703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150