WO2022107296A1

WO2022107296A1 - 推定装置、推定方法、および、推定プログラム

Info

Publication number: WO2022107296A1
Application number: PCT/JP2020/043291
Authority: WO
Inventors: 智大永井; 真徳山田; 知克高橋; 泰大寺本; 友貴山中
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-05-27
Also published as: EP4228221A4; JPWO2022107296A1; AU2020477732B2; JP7444287B2; AU2020477732A1; US20230412624A1; CN116458119A; EP4228221A1

Abstract

推定装置（１０）は、異常か正常かが判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより特徴量を生成し、生成した特徴量に当該パケットが異常か正常かの判定結果を付与する。推定装置（１０）は、上記のパケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習によりモデルの学習を行う。推定装置（１０）は、学習後のモデルにおける分類への寄与度が所定値以上の特徴量の次元数を抽出する。そして、推定装置（１０）は、抽出した特徴量の次元数を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、その推定の結果を出力する。

Description

推定装置、推定方法、および、推定プログラム

　本発明は、異常と判定されたパケットについて、当該パケットのペイロードのどの部分が原因で異常と判定されたのかを推定する、推定装置、推定方法、および、推定プログラムに関する。

　従来、深層学習等を用いた異常検知器が提案されている。この異常検知器による異常検知の原因を説明できれば、検知された異常に対しユーザが適切な対処をするための意思決定に役立つ。近年では、深層学習モデルの判断を説明するために、説明可能なモデルに入力した特徴量における原因箇所や、特徴量の元データにおける原因箇所を推定する手法が提案されている。

K.　Amarasinghe　et　al.,　"Toward　Explainable　Deep　Neural　Network　based　Anomaly　Detection,"　IEEE:11th　International　Conference　on　Human　System　Interaction,　2018.

　しかし、従来技術の深層学習を用いた異常検知器の中には、元データから特徴量へ非可逆的に変換するものがある。その場合、特徴量の異常箇所が判明しても、元データの原因箇所の推定が難しいことがある。例えば、異常検知器があるパケットを異常と判定しても、そのパケットのペイロードのどの部分が原因で異常と判定したのか分からないことがある。そこで、本発明は、前記した問題を解決し、異常と判定されたパケットについて、当該パケットのペイロードのどの部分が原因で異常と判定されたのかを推定することを課題とする。

　前記した課題を解決するため、本発明は、異常検知器により異常か正常かが判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより特徴量を生成し、前記生成した特徴量に当該パケットが異常か正常かの判定結果を付与する特徴量生成部と、当該パケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習により、前記パケットが異常か正常かの分類を行うモデルの学習を行うモデル学習部と、前記学習されたモデルにおける、前記分類への寄与度が所定値以上である、前記特徴量の次元数を抽出する抽出部と、前記抽出された前記特徴量の次元数を、前記抽出された前記特徴量の次元数を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、前記推定の結果を出力する出力部とを備えることを特徴とする。

　本発明によれば、異常と判定されたパケットについて、当該パケットのペイロードのどの部分が原因で異常と判定されたのかを推定することができる。

図１は、推定システムの構成例を示す図である。図２は、推定システムの処理手順の例を示すフローチャートである。図３は、正常と判定されたパケットのペイロードと、異常と判定されたパケットのペイロードの例を示す図である。図４は、図１の抽出部が抽出する特徴の例を示す図である。図５は、異常と判定されたパケットにおけるペイロードのうち、異常の原因箇所と推定された箇所の出力例を示す図である。図６は、推定プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に説明する実施形態に限定されない。

［構成例］
　本実施形態の推定装置を含む推定システムの構成例を説明する。図１に示すように、推定システム１は、例えば、推定装置１０と、入力装置２０と、出力装置３０とを備える。

　推定装置１０は、通信データのパケットのうち、異常と判定されたパケットについて、ペイロードのどの部分が原因で異常と判定されたかを推定する。

　入力装置２０は、推定装置１０が用いる各種データ（例えば、異常と判定されたパケット）の入力を受け付ける。出力装置３０は、推定装置１０から出力されたデータを出力する。例えば、出力装置３０は、推定装置１０による推定結果をモニタ上に表示する。

　推定装置１０は、記憶部１１と、制御部１２とを備える。記憶部１１は、制御部１２が処理を実行する際に参照する各種データを記憶する。記憶部１１は、例えば、正常判定データと、モデルパラメータ情報とを記憶する。正常判定データは、異常検知器（図示省略）により正常と判定されたパケット群のデータである。

　モデルパラメータ情報は、モデル学習部１２３（後記）がモデルの学習をする際に用いられるパラメータを示した情報である。モデルパラメータ情報は、例えば、モデル学習部１２３により学習対象のモデルが決定木を用いたモデルである場合、決定木におけるmax_depth、分岐条件の個数等が示される。

　制御部１２は、推定装置１０全体の制御を行う。制御部１２は、例えば、データ取得部１２１と、特徴量生成部１２２と、モデル学習部１２３と、抽出部１２４と、出力部１２５とを備える。

　データ取得部１２１は、入力装置２０から各種データを取得する。例えば、データ取得部１２１は、入力装置２０から、異常検知器により異常と判定されたパケット群のデータを取得する。

　特徴量生成部１２２は、異常検知器により異常／正常が判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより特徴量を生成する。そして、特徴量生成部１２２は、生成した当該パケットのペイロードの特徴量に当該パケットが異常か正常かの判定結果を付与する。

　例えば、特徴量生成部１２２は、データ取得部１２１により取得された、異常と判定されたパケットのペイロードを抽出し、また、記憶部１１の正常判定データのパケットからペイロードを抽出する。そして、特徴量生成部１２２は、抽出した各パケットのペイロードを１文字ずつ可逆変換することにより特徴量を生成する。

　例えば、特徴量生成部１２２は、各パケットのペイロードを16進数のバイト列とみなし、各バイトを10進数に変換することにより特徴量を生成する。そして、特徴量生成部１２２は、生成したパケットのペイロードの特徴量に、当該パケットが異常か正常かの判定結果を付与する。

　例えば、特徴量生成部１２２が、正常と判定されたパケットおよび異常と判定されたパケットそれぞれから抽出したペイロードを、以下の式（１）に示すxとする。

　ここで、特徴量生成部１２２が、例えば、ASCIIコード表に基づく可逆変換を行う場合、パケットのペイロードの文字列を１文字ずつ可逆変換し、変換後の次元数をペイロードの長さと同等にする。また、特徴量生成部１２２は、ASCIIコード表に則って、ペイロードの文字列(16進数：0x00～0xff)から数値列(10進数：0～255)に変換する。例えば、特徴量生成部１２２は、ペイロードx=helloを、x=‘104　101　108　108　111’に変換する。なお、特徴量生成部１２２は、ペイロードにおける大文字、小文字を区別して変換する。

　モデル学習部１２３は、特徴量生成部１２２により生成された、パケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習により、パケットが異常か正常かの分類を行うモデルの学習を行う。上記の学習の対象とするモデルは、解釈性の高いモデルである。解釈性の高いモデルは、例えば、当該モデルによる分類にどの特徴量が大きく寄与しているか等を解釈しやすいモデルである。

　例えば、上記のモデルは、例えば、決定木、線形回帰、ロジスティック回帰等を用いたモデルである。モデルの学習には、記憶部１１のモデルパラメータ情報を用いる。

　抽出部１２４は、モデル学習部１２３により学習されたモデルにおける寄与度が所定値以上の特徴を抽出する。例えば、抽出部１２４は、上記のモデルにおいて、特徴量を構成する各次元の値が、当該モデルにおける正常／異常の分類に対しどの程度寄与するかを測定する。そして、抽出部１２４は、測定した寄与度が所定値以上の特徴量の次元数を、特徴として抽出する。

　例えば、上記の寄与度が所定値以上となる特徴量のバイト列が、43番目と41番目と18番目である場合、抽出部１２４は、図４に示すように「バイト列：43番目、バイト列：41番目、バイト列：18番目」を特徴として抽出する。

　例えば、モデル学習部１２３により学習されたモデルが決定木を用いたモデルである場合を考える。この場合、抽出部１２４は、上記の決定木における分岐条件が記述されたノードから、当該分岐条件に記述されている特徴量の次元数を特徴として抽出する。

　出力部１２５は、抽出部１２４により抽出された、寄与度が所定値以上の特徴（例えば、特徴量の次元数）を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、その推定の結果を出力する。

　例えば、出力部１２５は、抽出部１２４により抽出された特徴（例えば、図４に示す「バイト列：43番目、バイト列：41番目、バイト列：18番目」）を、異常と判定されたパケットのペイロードにおける異常の原因箇所の推定結果として、出力装置３０に出力する。これにより、推定システム１のユーザは、異常と判定されたパケットのペイロードの何バイト目が異常の原因箇所として推定されるかを確認することができる。

　なお、出力部１２５は、抽出部１２４により抽出された特徴に基づき、異常と判定されたパケットのペイロードにおける異常の原因箇所と推定される箇所を可視化した情報を出力してもよい。

　例えば、出力部１２５は、抽出部１２４により抽出された特徴に基づき、異常と判定されたパケットにおけるペイロードのうち、異常の原因箇所と推定される箇所をハイライト等で強調したデータを出力装置３０に出力してもよい（図５参照）。

　これにより、推定システム１のユーザは、当該パケットのペイロードのどの部分が異常の原因箇所として推定されるかを視覚的に確認しやすくなる。

［処理手順の例］
　次に、図２を用いて、推定システム１の処理手順の例を説明する。推定装置１０のデータ取得部１２１は、異常と判定されたデータ（パケット）を取得する。そして、特徴量生成部１２２は、異常と判定されたパケットのペイロードを抽出し、可逆な特徴量に変換する（Ｓ１）。また、特徴量生成部１２２は、Ｓ１で変換したパケットのペイロードの特徴量に、当該パケットが異常である旨の判定結果を付与する。

　さらに、特徴量生成部１２２は、正常判定パケットデータから正常と判定されたパケットを取得する。そして、特徴量生成部１２２は、正常と判定されたパケットのペイロードを抽出し、可逆な特徴量に変換する（Ｓ２）。また、特徴量生成部１２２は、Ｓ２で変換したパケットのペイロードの特徴量に、当該パケットが正常である旨の判定結果を付与する。

　その後、モデル学習部１２３は、Ｓ１およびＳ２で変換したパケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、解釈性の高いモデルで機械学習を行う（Ｓ３）。そして、抽出部１２４は、機械学習後のモデルから、異常の原因に寄与した特徴を抽出する（Ｓ４）。例えば、抽出部１２４は、機械学習後のモデルから、特徴量それぞれの異常への分類の寄与度を測定し、測定した寄与度が所定値以上の特徴（例えば、特徴量の次元数）を抽出する。

　Ｓ４の後、出力部１２５は、Ｓ４で抽出した特徴を元のデータ形式に変換し（Ｓ５）、Ｓ５の変換の結果を異常の原因箇所の推定結果として出力する（Ｓ６）。例えば、出力部１２５は、異常と判定されたパケットにおけるペイロードのうち、異常の原因箇所と推定される箇所をハイライト等で強調したデータを出力装置３０に出力する（図５参照）。

　このようにすることで、推定システム１は、異常と判定されたパケットについて、当該パケットのペイロードのどこが原因で異常と判定されたのかを推定することができる。

［実験結果］
　次に、図３～図５を参照しながら、推定装置１０の実験結果を説明する。ここでは、異常検知器により異常と判定されたパケットについて、推定装置１０が、当該パケットのペイロードにおける異常箇所を抽出し、かつ、異常箇所以外を抽出しないかを実験した。

・実験条件
（１）実験には、正常／異常の判定結果のラベルが付与されたパケットを使用した。異常の判定結果のラベルが付与されたパケットについては、ペイロードの異常箇所が異なる３種類のパケット（異常パターン１～３）を用意した（図３参照）。なお、図３に示す異常パターン１～３に示すバイト列のうち、ハッチングがされた部分は異常箇所を示す。例えば、異常パターン１のパケットは、ペイロードの18バイト目（ファンクションコード）が正常パケットとは異なるパケットである。異常パターン２は、ペイロードの43バイト目のとりうる値が正常パケットとは異なるパケットである。異常パターン３は、ペイロードの41バイト目のとりうる値が正常パケットとは異なるパケットである。
（２）推定装置１０は、１パケットずつ、当該パケットのペイロードの何バイト目が異常なのかを推定した。
（３）推定装置１０が、ペイロードの可逆変換を行う際には、当該ペイロードの各バイト（16進数:0x00～0xff）を数値（10進数:0～255）に変換した。
（４）ペイロードの変換後の正常／異常のラベル付けは手動で実施した。
（５）推定装置１０が用いる解釈性の高いモデルは、決定木を用いたモデルとした。

・評価
　推定装置１０が、パケットのペイロードの異常箇所（図１のハッチング部分）を抽出し、かつ、異常箇所以外（図１のハッチング部分以外）を抽出していないかを評価した。

　例えば、推定装置１０が、図３に示す異常パターン１のパケットのペイロードにおける異常箇所として、18バイト目が抽出できていれば、ＯＫと評価し、異常パターン２のパケットのペイロードにおける異常箇所として、43バイト目が抽出できていれば、ＯＫと評価した。また、推定装置１０が異常パターン３のパケットのペイロードにおける異常箇所として、41バイト目が抽出できていれば、ＯＫと評価した。

・結果
　上記の実験条件で実験を行った結果、推定装置１０が、異常と判定されたパケットのペイロードの異常箇所を正しく抽出できたか否かについて、図４を用いて説明する。図４は、推定装置１０によって抽出されたペイロードの異常箇所のバイト列の番号を表している。

　図４に示すように、推定装置１０により、パケットのペイロードの異常箇所が３箇所あり、18バイト目、41バイト目、43バイト目が抽出された（順番は問わない）。本実験において、予め異常箇所として設定したのは、パケットのペイロードの18バイト目、41バイト目、43バイト目の３箇所であるので、推定装置１０は、ペイロードの異常箇所を正しく抽出し、かつ、ペイロードの異常箇所以外は抽出しないことが確認できた。

　なお、補足として、推定装置１０において、パケットのペイロードの異常箇所として抽出した箇所をペイロードの他の箇所とは異なる色で出力したものを図５に示す。なお、図５における太字の箇所は、他の箇所の色とは別の色で出力した箇所を示す。

　推定装置１０により、図５に示すペイロードの一番左（図５における「B」）を1バイト目として、異常箇所として抽出された３つのバイト番号（18バイト目、41バイト目、43バイト目）が他の箇所の色とは異なる色で出力されている。なお、図５に１行目のペイロードの43バイト目の□はnullを示している。図３に示す異常パターン１～３のペイロードと、図５に示した出力結果とを比較すると、パケットのペイロードの異常箇所が正しく抽出されていることがわかる。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を各実施形態の推定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal　Handyphone　System）等の移動体通信端末、さらには、PDA（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　また、推定装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図６は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ROM（Read　Only　Memory）１０１１及びRAM（Random　Access　Memory）１０１２を含む。ROM１０１１は、例えば、BIOS（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の推定装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、推定装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

　また、上述した実施形態の処理で用いられる各データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワされたーク（LAN（Local　Area　Network）、WAN（Wide　Area　Network）等）を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０　推定装置
２０　入力装置
３０　出力装置
１１　記憶部
１２　制御部
１２１　データ取得部
１２２　特徴量生成部
１２３　モデル学習部
１２４　抽出部
１２５　出力部

Claims

　異常検知器により異常か正常かが判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより特徴量を生成し、前記生成した特徴量に当該パケットが異常か正常かの判定結果を付与する特徴量生成部と、
　当該パケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習により、前記パケットが異常か正常かの分類を行うモデルの学習を行うモデル学習部と、
　前記学習されたモデルにおける、前記分類への寄与度が所定値以上である、前記特徴量の次元数を抽出する抽出部と、
　前記抽出された前記特徴量の次元数を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、前記推定の結果を出力する出力部と
　を備えることを特徴とする推定装置。
　前記モデルは、
　決定木を用いたモデルであり、
　前記抽出部は、
　前記寄与度が所定値以上である、前記特徴量の次元数として、前記機械学習により得られた決定木における分岐条件が記述されたノードから、当該分岐条件に記述された特徴量の次元数を抽出する
　ことを特徴とする請求項１に記載の推定装置。
　前記モデルは、
　線形回帰またはロジスティック回帰を用いたモデルである
　ことを特徴とする請求項１に記載の推定装置。
　前記出力部は、
　前記抽出された前記特徴量の次元数に基づき、前記異常と判定されたパケットのペイロードにおける異常の原因箇所と推定される箇所を特定し、前記特定した箇所を可視化した情報を、前記推定の結果として出力する
　を備えることを特徴とする請求項１に記載の推定装置。
　前記可逆変換は、
　ASCIIコード表に則った、文字列から数値列への変換
　であることを特徴とする請求項１に記載の推定装置。
　推定装置により実行される推定方法であって、
　異常検知器により異常か正常かが判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより複数の特徴量を生成し、前記生成した特徴量に当該パケットが異常か正常かの判定結果を付与する工程と、
　前記パケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習により、前記パケットが異常か正常かの分類を行うモデルの学習を行う工程と、
　前記学習されたモデルにおける、前記分類への寄与度が所定値以上である、前記特徴量の次元数を抽出する工程と、
　前記抽出された前記特徴量の次元数を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、前記推定の結果を出力する工程と
　を含むことを特徴とする推定方法。
　異常検知器により異常か正常かが判定されたパケットそれぞれについて、当該パケットのペイロードを１文字ずつ可逆変換することにより複数の特徴量を生成し、前記生成した特徴量に当該パケットが異常か正常かの判定結果を付与する工程と、
　前記パケットのペイロードの特徴量および当該パケットが異常か正常かの判定結果を教師データとし、機械学習により、前記パケットが異常か正常かの分類を行うモデルの学習を行う工程と、
　前記学習されたモデルにおける、前記分類への寄与度が所定値以上である、前記特徴量の次元数を抽出する工程と、
　前記抽出された前記特徴量の次元数を用いて、異常と判定されたパケットのペイロードにおける異常の原因箇所を推定し、前記推定の結果を出力する工程と
　をコンピュータに実行させることを特徴とする推定プログラム。