JP2019082746A - Abnormal log detection apparatus, method and program for detecting abnormal log - Google Patents

Abnormal log detection apparatus, method and program for detecting abnormal log Download PDF

Info

Publication number
JP2019082746A
JP2019082746A JP2017208307A JP2017208307A JP2019082746A JP 2019082746 A JP2019082746 A JP 2019082746A JP 2017208307 A JP2017208307 A JP 2017208307A JP 2017208307 A JP2017208307 A JP 2017208307A JP 2019082746 A JP2019082746 A JP 2019082746A
Authority
JP
Japan
Prior art keywords
log
communication
feature amount
abnormality
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017208307A
Other languages
Japanese (ja)
Other versions
JP7005278B2 (en
Inventor
真義 重田
Masayoshi Shigeta
真義 重田
大谷 尚通
Hisamichi Otani
尚通 大谷
正敏 雪島
Masatoshi Yukishima
正敏 雪島
俊輔 成瀬
Shunsuke Naruse
俊輔 成瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Mathematical Systems Inc
NTT Data Group Corp
Original Assignee
NTT Data Corp
NTT Data Mathematical Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp, NTT Data Mathematical Systems Inc filed Critical NTT Data Corp
Priority to JP2017208307A priority Critical patent/JP7005278B2/en
Publication of JP2019082746A publication Critical patent/JP2019082746A/en
Application granted granted Critical
Publication of JP7005278B2 publication Critical patent/JP7005278B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

To detect an abnormal log by an illegal program independent of a detection pattern based on conventional attack pattern information.SOLUTION: An abnormal log detection unit 101 extracts an abnormal log based on a feature quantity of each of sessions extracted by a feature quantity extraction unit 112. It is possible to detect the abnormal log by an illegal program independent of a detection pattern based on conventional attack pattern since unsupervised learning is used in this abnormal log extraction. Furthermore, a possibility of erroneous detection can be smaller since supervised learning is used to remove the erroneous detection log.SELECTED DRAWING: Figure 2

Description

本発明は、不正プログラムによる異常ログを検出する技術に関する。   The present invention relates to a technology for detecting an abnormal log due to a malicious program.

いわゆるマルウェアと呼ばれるような不正プログラムを検出するため、例えば実ネットワークに接続可能な仮想ネットワーク環境上でマルウェアを実行してそのマルウェアで引き起こす挙動を把握する方法が知られている(例えば、非特許文献1参照)。   There is known a method of executing malware on a virtual network environment connectable to a real network and grasping the behavior caused by the malware, for example, in order to detect a so-called malware called malicious program (for example, non-patent documents) 1).

青木一史、岩村誠、伊藤光恭、「半透性仮想ネットワークを用いたボットの動的解析手法の提案」、電子情報通信学会2008年総合大会、2008年3月18日Kazufumi Aoki, Makoto Iwamura, Kosuke Ito, "Proposal of Dynamic Analysis Method of Bots Using Semi-Permeable Virtual Network", 2008 IEICE General Conference, March 18, 2008

この種の不正プログラムの感染を検出する技術として、プロキシサーバ装置等に蓄積された通信ログを不正プログラム感染時に固有の通信ログの検出パターンと照合する、というものがある。しかし、この検出パターンは、プログラミングに精通した専門家でなければ作成が難しいことに加え、その作成には例えば2週間といった長い時間がかかるという問題がある。また、この検出パターンは、不正プログラムによる攻撃に関する情報が例えばWEBサイト等で公開されるとそれを入手して作成するものであるが、この攻撃情報の公開や入手にも一定の時間を要する。さらに、特定の組織を狙った不正プログラムに関しては、その攻撃情報が公開されず、その組織自身が不正プログラムによる攻撃を検出しなければならないという問題もある。   As a technique for detecting the infection of this type of malicious program, there is a method of collating a communication log stored in a proxy server device or the like with a detection pattern of a communication log unique to the infected program at the time of infection. However, in addition to the fact that this detection pattern is difficult to create only by an expert who is familiar with programming, there is a problem that it takes a long time, for example, two weeks, to create it. Further, this detection pattern is created by obtaining information about an attack by an unauthorized program on, for example, a WEB site etc., and creating it, but it takes a certain amount of time to release and obtain this attack information. Furthermore, there is a problem that the attack information is not disclosed for the malicious program targeting a specific organization, and the organization itself must detect the attack by the malicious program.

本発明は、このような事情を考慮してなされたものであり、従来のような検出パターンに依存せずに、不正プログラムによる異常ログを検出することを目的とする。   The present invention has been made in consideration of such circumstances, and an object thereof is to detect an abnormal log due to a malicious program without depending on a conventional detection pattern.

上記課題を解決するため、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出部とを備えることを特徴とする異常ログ検出装置を提供する。   In order to solve the above problems, the present invention divides a plurality of communication logs into communication log groups according to a predetermined standard, and a feature quantity extraction unit extracts feature quantities of each of the divided communication log groups According to another aspect of the present invention, there is provided an abnormality log detection apparatus comprising: an abnormality log detection unit for extracting an abnormality log based on the extracted feature amount.

前記異常ログ検出部は、各々の前記通信ログ群に圧縮処理を行い、各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、算出した前記誤差に基づいて前記異常ログを抽出するようにしてもよい。   The abnormality log detection unit performs compression processing on each of the communication log groups, calculates an error between each of the communication log groups, and data on which the communication log group is subjected to compression processing, The anomaly log may be extracted based on the information.

前記特徴量抽出部は、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出するようにしてもよい。   The feature quantity extraction unit may extract a feature quantity specified in the relationship of each communication log included in one of the divided communication log groups.

前記特徴量の解析観点、前記特徴量の解析対象、前記特徴量の表記方法及び前記特徴量の次元数を含む情報を記憶する特徴量記憶部を備え、前記特徴量抽出部は、前記特徴量記憶部に記憶されている情報に基づいて、複数次元の行列で表現される前記通信ログ群の特徴量を抽出し、前記異常ログ検出部は、前記圧縮処理として、前記特徴量を次元削減する圧縮処理を行うようにしてもよい。   The feature amount storage unit stores an analysis viewpoint of the feature amount, an analysis target of the feature amount, a description method of the feature amount, and information including the dimension number of the feature amount, and the feature amount extraction unit Based on the information stored in the storage unit, the feature quantities of the communication log group represented by a multidimensional matrix are extracted, and the abnormality log detection unit reduces the feature quantities as the compression process. A compression process may be performed.

前記異常ログ検出部は、抽出した前記異常ログにおいて誤って抽出された誤検出ログに基づく学習を行い、当該学習結果に基づいて前記異常ログを抽出するようにしてもよい。   The abnormality log detection unit may perform learning based on the erroneous detection log erroneously extracted in the extracted abnormality log, and extract the abnormality log based on the learning result.

通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外するようにしてもよい。   When there is a transmission destination to which a communication device having a threshold value or more communicates among a plurality of communication devices to be monitored for the communication log, the communication log including the transmission destination is excluded from the detection targets of the abnormal log. May be

前記分割部は、前記通信ログの発生日時に関する前記基準に従って前記分割を行うようにしてもよい。   The division unit may perform the division in accordance with the standard regarding the date and time of occurrence of the communication log.

前記分割部は、同一の発信元を含む通信ログのうち、連続する通信ログの発生日時の時間間隔が閾値未満となる1又は複数の通信ログを1の前記通信ログ群として分割するようにしてもよい。   The division unit is configured to divide one or a plurality of communication logs in which time intervals of occurrence dates of continuous communication logs are less than a threshold among communication logs including the same transmission source as one communication log group. It is also good.

また、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出ステップとを備えることを特徴とする異常ログの検出方法を提供する。   Further, according to the present invention, there is provided a division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard, a feature quantity extraction step of extracting feature quantities of each of the divided communication log groups, and the extracted And providing an abnormality log detection step of extracting an abnormality log based on the feature amount.

また、本発明は、コンピュータに、複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出ステップとを実行させるためのプログラムを提供する。   The present invention also includes a division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard, a feature extraction step of extracting feature amounts of each of the divided communication log groups, and extraction on a computer And a program for executing an abnormality log detection step of extracting an abnormality log based on the feature amount.

本発明によれば、従来のような検出パターンに依存せずに、不正プログラムによる異常ログを検出することができる。   According to the present invention, it is possible to detect an abnormal log by a malicious program without depending on the conventional detection pattern.

本発明の一実施形態に係る異常ログ検出装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the abnormal log detection apparatus which concerns on one Embodiment of this invention. 異常ログ検出装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of an abnormal log detection apparatus. 通信ログの一例を示す図である。It is a figure which shows an example of a communication log. 通信ログの分割例を示す図である。It is a figure which shows the example of division | segmentation of a communication log. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature-value of the communication log memorize | stored in the feature-value storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature-value of the communication log memorize | stored in the feature-value storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature-value of the communication log memorize | stored in the feature-value storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature-value of the communication log memorize | stored in the feature-value storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature-value of the communication log memorize | stored in the feature-value storage part. 異常ログを検出する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which detects an abnormal log. 特徴量検出において注目する特徴量を例示する図である。It is a figure which illustrates the feature-value to which its attention is paid in feature-value detection. 或る通信ログから特徴量を検出する例を示す図である。It is a figure which shows the example which detects a feature-value from a certain communication log. 変形例において異常ログを検出する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which detects an abnormality log in a modification.

[実施形態]
[構成]
図1は、本発明の一実施形態に係る異常ログ検出装置10のハードウェア構成を示す図である。異常ログ検出装置10はコンピュータによって実現される。異常ログ検出装置10は、例えばインターネットのようなオープンネットワークと例えば社内LAN(Local Area Network)のようなクローズドネットワークとの間においてデータ中継を行うゲートウェイ設備に接続されている。
[Embodiment]
[Constitution]
FIG. 1 is a diagram showing a hardware configuration of an abnormality log detection apparatus 10 according to an embodiment of the present invention. The abnormal log detection device 10 is realized by a computer. The abnormality log detection apparatus 10 is connected to a gateway facility that relays data between an open network such as the Internet and a closed network such as an in-house LAN (Local Area Network).

図1に示すように、異常ログ検出装置10は、制御部11と、通信部12と、記憶部13とを少なくとも備えている。制御部11は、CPU(Central Processing Unit)などの演算装置と、ROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶装置を備えている。ROMは、CPUによって利用されるプログラムや各種データを記憶している。通信部12は、他のコンピュータ(通信装置)と通信を行うインタフェースである。記憶部13は、例えばハードディスクなどの大容量の記憶手段であり、CPUによって利用されるプログラムや各種データを記憶している。CPUは、ROMや記憶部13に記憶されたプログラムやデータをRAMに展開し、そのプログラムに既述された手順に従って処理を行うことにより、図2に示す各種機能を実現する。   As shown in FIG. 1, the abnormal log detection device 10 at least includes a control unit 11, a communication unit 12, and a storage unit 13. The control unit 11 includes an arithmetic device such as a central processing unit (CPU) and a storage device such as a read only memory (ROM) and a random access memory (RAM). The ROM stores programs used by the CPU and various data. The communication unit 12 is an interface that communicates with another computer (communication device). The storage unit 13 is, for example, a large-capacity storage unit such as a hard disk, and stores programs and various data used by the CPU. The CPU develops the programs and data stored in the ROM and the storage unit 13 in the RAM, and performs processing according to the procedure described in the program, thereby realizing various functions shown in FIG.

図2は、異常ログ検出装置10の機能構成を示すブロック図である。異常ログ検出装置10は、セッション分割部111、特徴量抽出部112、特徴量記憶部113、圧縮処理部114、誤差算出部115、異常判定部116、誤検出ログ記憶部118及び誤検出ログ除外部119という機能を備える。これらの機能はいずれも、制御部11がプログラムに既述された手順に従って処理を行うことによって実現される。これらの機能は主に、いわゆる教師無し学習によって、膨大な通信ログから不正プログラム感染時の異常ログを検出しようとするものである。なお、図2に示した誤検出ログ抽出処理117は、異常ログ検出装置10に必須の構成ではなく、例えばプログラミングに精通した専門家が行う処理(作業)を表現したものである。   FIG. 2 is a block diagram showing the functional configuration of the abnormal log detection apparatus 10. As shown in FIG. The abnormality log detection apparatus 10 includes a session division unit 111, a feature extraction unit 112, a feature storage unit 113, a compression processing unit 114, an error calculation unit 115, an abnormality determination unit 116, an erroneous detection log storage unit 118 and an erroneous detection log exclusion. It has a function of part 119. All of these functions are realized by the control unit 11 performing processing in accordance with the procedure described in the program. These functions are mainly intended to detect abnormal logs at the time of malware program infection from a large amount of communication logs by so-called unsupervised learning. The false detection log extraction process 117 shown in FIG. 2 is not an essential component of the abnormality log detection apparatus 10, but represents, for example, a process (work) performed by a specialist who is familiar with programming.

クローズドネットワークに含まれるコンピュータ(通信装置)がオープンネットワークに含まれるコンピュータ(通信装置)との間で行った通信に関する通信ログは、例えばプロキシサーバ装置、DNS(Domain Name System)サーバ装置、ファイヤウォールサーバ装置又はメールサーバ装置等のサーバ装置群に蓄積され、さらに、それらのサーバ装置群からログサーバ装置へと収集、蓄積される。   Communication logs related to communication performed by a computer (communication device) included in a closed network with a computer (communication device) included in an open network are, for example, a proxy server device, DNS (Domain Name System) server device, firewall server It is stored in a server device group such as a device or a mail server device, and is further collected and accumulated from those server device groups to the log server device.

ここで、図3は通信ログの一例を示す図である。図3における1行分の情報は、1回の通信(アクセス)に対応する1の通信ログである、図3の例では、各通信ログに、「time」、「発信元IP」、「メソッド」、「url」、「ステータスコード」、「UserAgent」及び「送信データサイズ」が含まれている。ただし、通信に関するログであれば図3の例に限定されず、例えば「リファラ」等の通信ログとして取得可能なものは全て含まれ得る。   Here, FIG. 3 is a diagram showing an example of the communication log. The information of one line in FIG. 3 is one communication log corresponding to one communication (access). In the example of FIG. 3, “time”, “source IP”, “method in each communication log are used. “Url”, “status code”, “UserAgent”, and “transmission data size” are included. However, if it is the log regarding communication, it will not be limited to the example of FIG. 3, For example, what can be acquired as communication logs, such as a "referer", may be all included.

セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し、これらを所定の基準に従って、セッションと呼ばれる通信ログ群に分割する。なお、セッション分割部111は、ログサーバ装置20から通信ログを取得するのではなく、ログサーバ装置20を経由せずに、上述したプロキシサーバ装置等のサーバ装置群から直接、通信ログを取得してもよい。   The session division unit 111 acquires a plurality of communication logs from the log server device 20, and divides these into communication log groups called sessions according to a predetermined standard. The session division unit 111 does not acquire the communication log from the log server device 20, but directly acquires the communication log from the server device group such as the proxy server device described above without passing through the log server device 20. May be

ここでいうセッションとは、通信ログの発生日時に関する基準に従って分割された1つの単位である。このセッションは1又は複数の通信ログを含み、このセッションを単位として異常ログの検出がなされる。セッションの分割について、より具体的には、クローズドネットワークに含まれる同一の発信元コンピュータのアドレスを含む通信ログのうち、時間的に連続する通信ログの発生日時の時間間隔が閾値未満となる通信ログ群が1つのセッションに含まれる。例えば閾値を30秒とした場合、前後30秒という期間を空けずに行われた通信の通信ログ群は全て1つのセッションに含まれる。また、前後30秒という期間を空けて行われた通信の通信ログは、たとえそれが1回の通信であっても、1つのセッションとして取り扱われる。1つ1つの通信ログを観察しただけでは不正プログラム感染時の異常ログとは推定できない場合も多いが、本実施形態のように、セッションという複数の通信ログを束ねた単位で観察したときには異常ログと推定できる可能性が高まる。   The session referred to here is one unit divided according to the standard regarding the occurrence date and time of the communication log. This session includes one or more communication logs, and abnormal log detection is performed on a session basis. More specifically, with regard to session division, among communication logs including the address of the same source computer included in the closed network, the communication log in which the time interval between the generation dates and times of the communication logs that are temporally consecutive is less than the threshold Groups are included in one session. For example, when the threshold value is 30 seconds, communication log groups of communication performed without leaving a period of 30 seconds before and after are all included in one session. Further, the communication log of the communication performed with a time interval of 30 seconds before and after is treated as one session even if it is one communication. There are many cases where it can not be estimated as an abnormal log at the time of malicious program infection just by observing each single communication log, but as in the present embodiment, when observed in the unit of bundling a plurality of communication logs called sessions, the abnormal log There is a high possibility that it can be estimated.

図4は通信ログの分割例を示す図である。ここでは、上記閾値を30秒とした場合に図3に示す通信ログを分割した例を示している。図示しているように、No.1の通信ログは、次に発生したNo.2の通信ログと30秒以上の期間が空いているため、1つのセッションS1として分割されている。また、No.2〜No.7の通信ログは、同一の発信元IPを含む通信ログであり、時間的に連続する通信ログの発生日時の時間間隔が30秒以内であり、且つNo.8の通信ログと30秒以上の期間が空いている。このため、これらNo.2〜No.7の通信ログは、1つのセッションS2として分割されている。同様に、No.8の通信ログは、前のNo.7の通信ログと30秒以上の期間が空いているため、1つのセッションS3として分割されている。   FIG. 4 is a diagram showing an example of division of the communication log. Here, an example is shown in which the communication log shown in FIG. 3 is divided when the above threshold is set to 30 seconds. As illustrated, no. The communication log of No. 1 is the next generated No. Since two communication logs and a period of 30 seconds or more are available, they are divided as one session S1. Also, no. 2-No. The communication log of No. 7 is a communication log including the same transmission source IP, the time interval of the generation date and time of the continuous communication log is within 30 seconds, and the No. 7 communication log is generated. There are 8 communication logs and a period of 30 seconds or more. For this reason, these No. 2-No. Communication log 7 is divided into one session S2. Similarly, no. The communication log of No. 8 is the previous No. Since seven communication logs and a period of 30 seconds or more are available, they are divided as one session S3.

特徴量抽出部112は、分割された各々のセッションについて、予め決められた特徴量に関する情報に基づいて通信ログの特徴量を抽出する。ここでいう通信ログの特徴量とは、不正プログラムの検出において有用であることが既に確認されている既知の特徴量のほか、有用である可能性は高いが不正プログラムの検出時の処理負担等を考慮して今まで採用されていなかった特徴量や、有用であるか否かが不明である特徴量等を含む。   The feature amount extraction unit 112 extracts, for each of the divided sessions, a feature amount of the communication log based on information on a predetermined feature amount. Here, the feature of the communication log is a known feature that has already been confirmed to be useful in detecting a malicious program, and it is highly likely that it is useful but the processing load upon detecting a malicious program etc. And the feature amount which has not been adopted up to now, and the feature amount which is unknown whether it is useful or not.

ここで、図5〜9は、特徴量記憶部113に記憶されている通信ログの特徴量に関する情報を例示した図である。ここで、異常ログ検出装置10において異常ログ検出に利用される通信ログの特徴量の数を「次元数」と表現している。特徴量は、全ての特徴量の次元数を合計した次元数で表される。特徴量は次元数の行列で表現される。 特徴量記憶部113には、特徴量の識別子である「名称」、特徴量を3つの観点で種別に分類した「特徴種別」、特徴量の「解析観点」、特徴量の「解析対象」、特徴量の解析内容を説明する「解析に関する説明」、「特徴量の表記方法」、及び特徴量の「次元数」が対応付けられて記憶されている。特徴量の表記方法とは、特徴量を、0/1の値のみで表すのか又は非負整数値で表すのかを定めたものである。特徴量の次元数が複数の場合は、その特徴量について予め複数の項目が定められている。 例えば、No.「17」の「ブラウザのバージョン」という特徴量の場合は、次元数が30である。これは30個のブラウザ名及びバージョンの組にそれぞれ対応する項目群、具体的には「BrowserA ver50、BrowserA ver51、BrowserB ver8、BrowserB ver9・・・、その他」といった30個の項目群において、通信ログに該当するブラウザ名及びバージョンの項目には「1」という値が書き込まれ、それ以外のブラウザ名及びバージョンの項目には「0」という値が書き込まれることになる。 特徴量の「解析観点」「解析対象」「次元数」などの各項目は、利用者によって予め定義され、特徴量記憶部113に記憶される。特徴量抽出部112は、特徴量記憶部113に記憶されている情報に基づいて、それぞれの通信ログ群(セッション)の特徴量を抽出する。なお、特徴量は行列でなくても、他の次元を表す表記方法によって表現されてもよい。   Here, FIGS. 5 to 9 are diagrams exemplifying information on the feature amount of the communication log stored in the feature amount storage unit 113. Here, the number of feature quantities of the communication log used for abnormal log detection in the abnormal log detection apparatus 10 is expressed as “the number of dimensions”. The feature amount is represented by the number of dimensions obtained by summing the number of dimensions of all the feature amounts. The feature quantities are represented by a matrix of dimension numbers. The feature amount storage unit 113 has a “name” that is an identifier of the feature amount, a “feature type” obtained by classifying the feature amount into types in three viewpoints, an “analysis viewpoint” of the feature amount, an “analysis target” of the feature amount, "Analysis-related description" for explaining the analysis content of the feature amount, the "description method of the feature amount", and the "number of dimensions" of the feature amount are stored in association with each other. The representation method of the feature quantity defines whether the feature quantity is represented by only the value of 0/1 or a non-negative integer value. When the number of dimensions of the feature amount is plural, a plurality of items are determined in advance for the feature amount. For example, no. In the case of the feature quantity "browser version" of "17", the number of dimensions is 30. This is a communication log in the item group corresponding to the set of 30 browser names and versions, specifically, 30 item groups such as "BrowserA ver 50, Browser A ver 51, Browser B ver 8, Browser B ver 9, etc., etc." A value of "1" is written in the item of browser name and version that corresponds to "1", and a value of "0" is written in the other items of browser name and version. Items such as “analysis viewpoint”, “analysis target”, and “number of dimensions” of the feature amount are previously defined by the user and stored in the feature amount storage unit 113. The feature extraction unit 112 extracts the feature of each communication log group (session) based on the information stored in the feature storage unit 113. Note that the feature amount may not be a matrix, but may be represented by a representation method representing another dimension.

図5において、例えばNo.「1」の特徴量の名称は「direct_ip_ratio」である。ここでは、ユーザが発信先コンピュータとしてIPアドレスそのものを直接指定することは通常の通信においては稀であるという理由から、1のセッションに含まれる通信ログにおいて宛先がIPアドレスで直接指定されている通信ログの割合、というものが特徴量として設定されている。この特徴量は、分割された通信ログ群に相当するセッション単位で観察したときに特定される特徴量であるから、その特徴種別は「1のセッションから求まる特徴量」となっている。   For example, in FIG. The name of the feature amount of “1” is “direct_ip_ratio”. Here, the communication is directly specified by the IP address in the communication log included in one session, because it is rare in the normal communication that the user directly designates the IP address itself as the transmission destination computer. The ratio of logs is set as the feature amount. Since this feature quantity is a feature quantity specified when observed in session units corresponding to the divided communication log group, the feature type is “feature quantity found from one session”.

これに対し、例えばNo.「38」の特徴量は、オープンネットワークにおける発信先コンピュータのIPアドレスおよびポートである。これは1回の通信のみを観察したときに特定可能な特徴量であるから、その特徴種別は「1回の通信から求まる特徴量」となっている。   On the other hand, for example, no. The feature “38” is the IP address and port of the destination computer in the open network. Since this is a feature that can be identified when only one communication is observed, the feature type is "feature obtained from one communication".

また、例えばNo.「5」の特徴量は、発信先コンピュータを指定するURL(Uniform Resource Locator)末尾のファイル拡張子である。これは通信の実体的な内容に相当するという観点から、その特徴種別は「1のセッションから求まる特徴量」であり且つ「通信の実体的内容における特徴量」となっている。なお、「通信の実体的内容における特徴量」とは、より具体的には、通信されるデータのサイズ又は文字列等による特徴量である。   Also, for example, No. The feature amount of “5” is a file extension at the end of a URL (Uniform Resource Locator) that designates a transmission destination computer. From the viewpoint of the fact that this corresponds to the substantive content of communication, the feature type is “feature amount obtained from one session” and “feature amount in substantive content of communication”. More specifically, the “feature amount in the substantial content of communication” is a feature amount based on the size or character string of data to be communicated.

図5〜9に例示した特徴量のうち、セッションにおける特徴量として有用性があると考えられるのは、例えばNo.「1」「2」「3」のような、セッションにおいてIPアドレスを発信先とした通信に関する特徴量である(特にNO.「1」のIPアドレス直接指定の割合)。これは、前述したように、通常の通信においてドメインを指定した通信が大半であるのに対し、不正プログラム感染時にはIPアドレスを発信先とした通信がよく観測されるためである。   Among the feature amounts illustrated in FIGS. 5 to 9, it is considered that the feature amounts in the session are considered to be useful, for example, No. It is a feature quantity related to communication with an IP address as a transmission destination in a session, such as “1”, “2”, “3” (especially, a ratio of IP address direct specification of NO. “1”). This is because, as described above, most of the communications in which a domain is specified in normal communications are communications in which an IP address is a transmission destination at the time of infected program infection.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「7」「8」「9」のような、セッションにおいて発信先のポートを直接指定した通信に関する特徴量もある(特にNo.「9」のポートが直接指定されている比率)。これも、不正プログラム感染量時には発信先のポートを直接指定した通信がよく観測されるためである。   Moreover, as what is considered to be useful as a feature amount in a session, for example, No. There are also feature quantities related to communication in which the destination port in the session is directly specified, such as "7", "8", and "9" (in particular, the ratio in which the port No. "9" is directly specified). This is also because communication that directly designates the destination port is often observed at the time of malicious program infection amount.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「11」のような、セッションにおけるURL中のパラメータの値(引数)の長さの平均に関する特徴量もある。これも、不正プログラム感染時には、パラメータが極端に短い通信が続くとか或いはその逆の傾向が観測されるためである。   Moreover, as what is considered to be useful as a feature amount in a session, for example, No. There is also a feature amount on the average of the lengths of values (arguments) of parameters in the URL in the session, such as “11”. This is also because during malicious program infection, communication with extremely short parameters continues, or vice versa.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「22」「23」「24」のような、セッションにおける特定メソッド(特にPOST)の出現に関する特徴量もある。これは不正プログラム感染時には、POSTで情報を外部(クローズドネットワークからオープンネットワーク)に繰り返しかつ多数回送信することが観測されるためである。   Moreover, as what is considered to be useful as a feature amount in a session, for example, No. There are also features related to the appearance of a specific method (especially POST) in a session, such as "22" "23" "24". This is because it is observed that POST repeatedly transmits information to the outside (closed network to open network) repeatedly and many times at the time of malicious program infection.

図2の説明に戻る。圧縮処理部114、誤差算出部115、異常判定部116、誤検出ログ記憶部118、誤検出ログ除外部119によって、異常ログ検出部101が構成されている。この異常ログ検出部101は、特徴量抽出部112によって抽出された特徴量に基づいて、他の通信ログ群(セッション)と特徴量が異なる通信ログ群(セッション)を異常ログとして検出する機能である。より具体的に説明すると、特徴量抽出部112によって各通信ログ群(セッション)の特徴量が抽出されると、圧縮処理部114は、抽出した各通信ログ群(セッション)の特徴量に対して次元削減等の圧縮処理を行う。誤差算出部115は、各通信ログ群(セッション)について、圧縮処理前の特徴量と圧縮処理後の特徴量との間の誤差を算出する。D次元の特徴量を表記したベクトルXをD’次元のベクトルX’に次元削減する場合において(D>D’)、その変換行列をAとすると、X’=A・Xという数式で表されるが、ここでいう誤差とは、ベクトルX’とベクトルXとの間の距離に相当する。このような圧縮処理及び誤差算出処理が、分割された通信ログ群(セッション)のそれぞれについて行われることで、各々の通信ログ群(セッション)についての特徴量、圧縮処理後の特徴量及びこれらの間の誤差が求められることになる。異常判定部116は、各々の通信ログ群(セッション)について求められた誤差を参照し、その誤差が閾値以上となる通信ログ群(セッション)を第1異常ログとして出力する。異常判定部116で使用する閾値は予め決められていてもよいし、各通信ログ群(セッション)の誤差に基づいて下限5%を閾値とするなど、動的に決定されてもよい。   It returns to the explanation of FIG. An abnormality log detection unit 101 is configured by the compression processing unit 114, the error calculation unit 115, the abnormality determination unit 116, the false detection log storage unit 118, and the false detection log exclusion unit 119. The abnormality log detection unit 101 is a function of detecting, as an abnormality log, a communication log group (session) having a feature quantity different from that of another communication log group (session) based on the feature quantity extracted by the feature quantity extraction unit 112. is there. More specifically, when the feature quantities of each communication log group (session) are extracted by the feature quantity extraction unit 112, the compression processing unit 114 compares the extracted feature quantities of each communication log group (session) with each other. Perform compression processing such as dimension reduction. The error calculation unit 115 calculates, for each communication log group (session), an error between the feature amount before compression processing and the feature amount after compression processing. In the case where a vector X representing a D-dimensional feature is reduced to a D′-dimensional vector X ′ (D> D ′) and the conversion matrix is A, it is expressed by the equation X ′ = A · X However, the error mentioned here corresponds to the distance between the vector X ′ and the vector X. By performing such compression processing and error calculation processing for each of the divided communication log groups (sessions), the feature amount for each communication log group (session), the feature amount after compression processing, and the like An error between them will be determined. The abnormality determination unit 116 refers to the error obtained for each communication log group (session), and outputs a communication log group (session) whose error is equal to or greater than a threshold as a first abnormality log. The threshold used by the abnormality determination unit 116 may be determined in advance, or may be determined dynamically, for example, with a lower limit of 5% as the threshold based on the error of each communication log group (session).

この第1異常ログには、正常の通信であるにもかかわらず不正プログラムの感染によるものであると誤って検出されたものが含まれている可能性を否定できない。そこで、プログラミングの専門家等による第1異常ログから誤検出ログを抽出する作業を経て(誤検出ログ抽出処理117)、誤検出であるとされた第1異常ログは、誤検出ログ記憶部118に記憶される。誤検出ログ除外部119は、誤検出ログ記憶部118に記憶された誤検出ログに基づいて、いわゆる教師あり学習を行う。そして、誤検出ログ除外部119は、その学習結果に従って、第1異常ログから誤検出ログを含む通信ログ群(セッション)と推定されるものを除外し、第1異常ログから誤検出ログを除外した通信ログ群(セッション)を第2異常ログとして出力する。   It can not be denied that the first abnormal log may include one that is erroneously detected as being due to a malicious program infection despite being a normal communication. Therefore, through a work of extracting a false positive detection log from the first abnormal log by a programming expert or the like (false positive detection log extraction processing 117), the first abnormal log that is false positive is a false positive detection log storage unit 118. Is stored in The false detection log exclusion unit 119 performs so-called supervised learning based on the false detection log stored in the false detection log storage unit 118. Then, according to the learning result, the erroneous detection log exclusion unit 119 excludes the communication log group (session) including the erroneous detection log from the first abnormal log and excludes the erroneous detection log from the first abnormality log. The resulting communication log group (session) is output as a second abnormal log.

[動作]
図10に示したフローチャートを参照して、異常ログ検出装置10の動作の概要を説明する。図10において、まず、セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し(ステップS11)、これらを前述した通信ログの発生日時に関する基準に従って、セッションに分割する(ステップS12)。次に、特徴量抽出部112は、特徴量記憶部113に予め記憶されている内容に従い、分割された各々のセッションにおける通信ログの特徴量を抽出する(ステップS13)。
[Operation]
The outline of the operation of the abnormal log detection device 10 will be described with reference to the flowchart shown in FIG. In FIG. 10, first, the session division unit 111 acquires a plurality of communication logs from the log server device 20 (step S11), and divides these into sessions according to the above-mentioned criteria regarding the occurrence date of the communication log (step S12). . Next, the feature quantity extraction unit 112 extracts the feature quantity of the communication log in each of the divided sessions according to the content stored in advance in the feature quantity storage unit 113 (step S13).

ここで、図11に示した特徴量に関する情報に注目して、或る通信ログ群(セッション)から特徴量を検出した例を、図12を用いて説明する。図11に示した特徴量の次元数は「8」である。図12に示した5つの通信ログのうち、No.2の通信ログは、図11のNo.1「direct_ip_ratio」という特徴量、つまりIPアドレスの直打ちに相当する。この特徴量は、セッション中に含まれる通信ログ群における割合(次元数1,非負整数値)として表記されるから(図5参照)、1/5=「0.2」という表記となる。また、No.2「direct_ip_flag」という特徴量、つまりIPアドレスの有無は、「0/1」において有りを意味する「1」という表記となる。   Here, an example in which the feature amount is detected from a certain communication log group (session) will be described with reference to FIG. 12, focusing on the information on the feature amount illustrated in FIG. 11. The number of dimensions of the feature shown in FIG. 11 is “8”. Of the five communication logs shown in FIG. The communication log of No. 2 is No. 2 in FIG. 1 corresponds to the feature quantity "direct_ip_ratio", that is, direct hit of the IP address. This feature quantity is expressed as a ratio (dimensional number 1, non-negative integer value) in the communication log group included in the session (see FIG. 5), and thus is expressed as 1⁄5 = “0.2”. Also, no. 2 The feature quantity "direct_ip_flag", that is, the presence or absence of an IP address, is represented by "1" which means "presence" in "0/1".

図12に示した5つの通信ログの送信データサイズの平均値(No.3「send_size_mean」の特徴量)は、(1000+100000+100000+100000+1000)/5=60040となる。これを、次元数1として非負整数値で表記すると、「60040」となる。   The average value of the transmission data sizes of the five communication logs shown in FIG. 12 (feature amount of No. 3 “send_size_mean”) is (1000 + 100000 + 100000 + 100000 + 1000) / 5 = 60040. If this is expressed by a non-negative integer value as the number of dimensions 1, it becomes "60040".

また、図12に示した5つの通信ログにおいて用いられるメソッドには、GETとCONNECTが含まれている。No.4「method_flag」という特徴量においては、メソッドの表記順序が予め決められており、ここでは「GET、CONNECT、POST、PUT、HEAD」となっている。このため、メソッドの出現有無という特徴量は、「1,1,0,0,0」という行列形式の表記となる。このように図11の特徴量に関する情報に基づいて抽出された特徴量は、8次元の行列「0.2,1,60040,1,1,0,0,0」 となる。   The methods used in the five communication logs shown in FIG. 12 include GET and CONNECT. No. In the feature quantity 4 “method_flag”, the order of presentation of the methods is determined in advance, and in this case, “GET, CONNECT, POST, PUT, HEAD”. For this reason, the feature quantity indicating the presence or absence of the method is represented in a matrix form of “1, 1, 0, 0, 0”. Thus, the feature quantities extracted based on the information on the feature quantities in FIG. 11 become an eight-dimensional matrix “0.2, 1,60040, 1, 1, 0, 0, 0”.

圧縮処理部114は、分割された通信ログ群のそれぞれに対して、前述の次元削減等の圧縮処理を行い、通信ログ群と、それに対応する圧縮後の特徴量とを関連付ける(ステップS14)。誤差算出部115は、分割された通信ログ群の特徴量と、当該通信ログ群の圧縮後の特徴量との間の誤差を通信ログ群のそれぞれについて算出し、各通信ログ群と、それに対応する圧縮後の特徴量と、算出した誤差とを関連付ける(ステップS15)。異常判定部116は、算出されたそれぞれの誤差に基づいて予め定めた閾値を超える誤差を抽出し、その誤差に関連づけられている通信ログ群を第1異常ログとして出力する(ステップS16)。そして、誤検出ログ除外部119は、第1異常ログから誤検出ログと推定されるものを除外し、第2異常ログとして出力する(ステップS17)。   The compression processing unit 114 performs compression processing such as the above-described dimension reduction on each of the divided communication log groups, and associates the communication log group with the corresponding compressed feature amount (step S14). The error calculation unit 115 calculates, for each of the communication log groups, an error between the feature amount of the divided communication log group and the compressed feature amount of the communication log group, and corresponds to each communication log group The feature amount after compression and the calculated error are associated (step S15). The abnormality determination unit 116 extracts an error exceeding a predetermined threshold based on each calculated error, and outputs a communication log group associated with the error as a first abnormality log (step S16). Then, the erroneous detection log exclusion unit 119 excludes from the first abnormality log what is presumed to be an erroneous detection log, and outputs it as a second abnormality log (step S17).

[効果]
本実施形態によれば、既知の不正プログラムによる攻撃情報に依存しない教師無し学習を用いることで、膨大な通信ログの中から不正プログラムによる異常ログを検出することが可能となる。さらに、誤検出ログに関しては、教師あり学習を用いて除外するようにしているので、正常な通信ログを異常ログとして誤って検出する可能性を小さくすることができる。これらの結果、不正プログラムの検出に関わる人手や時間を大幅に削減することが可能となる。
[effect]
According to the present embodiment, by using unsupervised learning that does not depend on attack information by a known malicious program, it becomes possible to detect an abnormal log by the malicious program from a large number of communication logs. Furthermore, since the false detection log is excluded using supervised learning, the possibility of erroneously detecting a normal communication log as an abnormal log can be reduced. As a result of these, it is possible to significantly reduce the labor and time involved in detecting a malicious program.

さらに、本発明者らの実験によれば、従来の検出パターンを用いた仕組みでは検出が困難であった、いわゆるC&C通信(マルウェアに感染してボットと化したコンピュータ群に指令を送る不正制御の下で行われる通信)を検出できることが分かった。   Furthermore, according to the experiments of the present inventors, so-called C & C communication (in the case of unauthorized control that sends commands to a group of computers infected with malware and turned into bots) that were difficult to detect by the mechanism using the conventional detection pattern. It has been found that the communication done below can be detected.

[変形例]
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
[変形例1]
実施形態で説明したような圧縮処理前後の誤差算出に基づく異常ログ検出は、必ずしも必須ではない。例えば圧縮処理部114が、特徴量抽出部112によって抽出された各通信ログ群(セッション)の特徴量に対して次元削減等の圧縮処理を行い、実施形態に係る異常判定部116に代わる本変形例の外れ値抽出部が、その圧縮後の特徴量に基づいて例えばLOF(Local Outlier Factor)処理を行って、外れ値に相当する特徴量に対応する通信ログ群(セッション)を異常ログとして出力するようにしてもよい。ただし、実施形態で説明したような圧縮処理前後の誤差算出に基づく異常ログ検出は、上記のLOF処理を行う場合よりも、異常ログの検出率が高く、また、処理負荷も小さいという利点がある。
[Modification]
The embodiment described above can be modified as follows. Further, the following modifications may be implemented in combination with each other.
[Modification 1]
Abnormal log detection based on error calculation before and after compression processing as described in the embodiment is not necessarily essential. For example, the compression processing unit 114 performs compression processing such as dimension reduction on the feature amount of each communication log group (session) extracted by the feature amount extraction unit 112, and this modification replaces the abnormality determination unit 116 according to the embodiment. The outlier extraction unit of the example performs, for example, LOF (Local Outlier Factor) processing based on the compressed feature amount, and outputs a communication log group (session) corresponding to the feature amount corresponding to the outlier as an abnormal log You may do it. However, the abnormality log detection based on the error calculation before and after the compression processing as described in the embodiment has an advantage that the detection rate of the abnormality log is higher and the processing load is smaller than the case of performing the above LOF processing. .

図13は、この変形例に係る情報処理装置の処理手順を示すフローチャートである。図13において図10と共通の処理には同一符号を付している。この変形例に係る情報処理装置は、ハードウェアとしては実施形態と同一であるが、機能的には、異常判定部116に代わる外れ値抽出部を備えている。図13において、まず、セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し(ステップS11)、これらを通信ログ群(セッション)に分割する(ステップS12)。次に、特徴量抽出部112は、特徴量記憶部113に予め記憶されている内容に従い、分割された各々の通信ログ群における通信ログの特徴量を抽出する(ステップS21)。圧縮処理部114は、特徴量抽出部112によって抽出された複数次元の行列で表現される特徴量について次元削減等の圧縮処理を行う(ステップS14)。外れ値抽出部は、圧縮後の特徴量についてLOFを用いた解析を行って外れ値を抽出し、その外れ値に相当する通信ログ群を第1異常ログとして出力する(ステップS22)。そして、誤検出ログ除外部119は、第1異常ログから誤検出ログと推定されるものを除外し、第2異常ログとして出力する(ステップS17)。   FIG. 13 is a flowchart showing the processing procedure of the information processing apparatus according to this modification. The same reference numerals as in FIG. 10 denote the same processes in FIG. The information processing apparatus according to this modification is the same as the hardware as the embodiment, but functionally includes an outlier extraction unit that replaces the abnormality determination unit 116. In FIG. 13, first, the session division unit 111 acquires a plurality of communication logs from the log server device 20 (step S11), and divides these into communication log groups (sessions) (step S12). Next, the feature quantity extraction unit 112 extracts the feature quantity of the communication log in each of the divided communication log groups according to the content stored in advance in the feature quantity storage unit 113 (step S21). The compression processing unit 114 performs compression processing such as dimension reduction on the feature quantities represented by the multidimensional matrix extracted by the feature quantity extraction unit 112 (step S14). The outlier extraction unit analyzes the feature amount after compression using the LOF to extract an outlier, and outputs a communication log group corresponding to the outlier as a first abnormality log (step S22). Then, the erroneous detection log exclusion unit 119 excludes from the first abnormality log what is presumed to be an erroneous detection log, and outputs it as a second abnormality log (step S17).

なお、実施形態及び上記変形例で説明したような第1異常ログから誤検出ログを除外して第2異常ログを出力する処理は必須ではなく、第1異常ログを出力するだけでもよい。ただし、本発明者らの実験によれば、第1異常ログから誤検出ログを除外して第2異常ログを出力するほうが、第1異常ログを出力する場合と比べて、誤検出ログを約10%低減できることが分かっている。   Note that the process of outputting the second abnormality log by excluding the erroneous detection log from the first abnormality log as described in the embodiment and the modified example is not essential, and only the first abnormality log may be output. However, according to the experiments of the present inventors, it is better to output the second abnormal log by excluding the erroneous detection log from the first abnormal log than when outputting the first abnormal log, about the erroneous detection log. It is known that it can be reduced by 10%.

以上のとおり、要するに、異常ログ検出部101は、各通信ログ群(セッション)ごとに抽出した特徴量に基づいて異常ログを抽出すればよい。   As described above, in summary, the abnormality log detection unit 101 may extract the abnormality log based on the feature quantity extracted for each communication log group (session).

[変形例2]
異常ログ検出部101は、通信ログの監視対象となる複数のコンピュータ(通信装置)のうち閾値以上のコンピュータ(通信装置)が通信を行った発信先がある場合には、当該発信先のアドレスを含む通信ログを、異常ログの検出対象から除外するようにしてもよい。これは、例えば監視対象となるクローズドネットワークに含まれる、閾値(例えば5台)以上のコンピュータ(通信装置)が通信を行った発信先のドメインを含む通信ログは、不正プログラム感染による通信である可能性が小さい、という考え方によるものである。このような通信ログを除外するタイミングは、処理負荷低減の観点から、実施形態で説明したセッション分割の前であることが望ましいが、これに限らず、例えばセッション分割と特徴量抽出の処理の間であってもよいし、特徴量抽出と異常ログ検出の処理の間であってもよい。
[Modification 2]
If there is a transmission destination to which a computer (communication device) having a threshold value or more has communicated among the plurality of computers (communication devices) to be monitored for the communication log, the abnormal log detection unit 101 determines the address of the transmission destination. The communication log included may be excluded from the detection targets of the abnormal log. For example, the communication log including the destination domain to which the computer (communication device) with which a threshold (for example, five) or more computers (the communication device) included in the closed network to be monitored communicated may be the communication caused by the unauthorized program infection. It is due to the idea that the sex is small. The timing of excluding such a communication log is preferably before the session division described in the embodiment from the viewpoint of processing load reduction, but it is not limited to this, for example, between the processing of session division and feature value extraction It may be between the process of feature quantity extraction and abnormal log detection.

[変形例3]
図3〜9に図示した通信ログの特徴量は一例にすぎず、図示した内容に限定されない。
[Modification 3]
The feature quantities of the communication logs illustrated in FIGS. 3 to 9 are merely examples, and the present invention is not limited to the illustrated contents.

[変形例4]
本発明は、異常ログ検出装置だけでなく、異常ログ検出装置が行う検出方法や、コンピュータを異常ログ検出装置として機能させるためのプログラムといった形態でも実施が可能である。このプログラムは、光ディスク等の記録媒体に記録した形態でコンピュータに提供されたり、インターネット等のネットワークを介してコンピュータに提供されたりしてもよい。
[Modification 4]
The present invention can be implemented not only in the abnormal log detection apparatus but also in a detection method performed by the abnormal log detection apparatus and a program for causing a computer to function as the abnormal log detection apparatus. The program may be provided to the computer in the form of being recorded on a recording medium such as an optical disk, or may be provided to the computer via a network such as the Internet.

10・・・異常ログ検出装置、11・・・制御部、12・・・通信部、13・・・記憶部、101・・・異常ログ検出部、111・・・セッション分割部、112・・・特徴量抽出部、113・・・特徴量記憶部、114・・・圧縮処理部、115・・・誤差算出部、116・・・異常判定部、117・・・誤検出ログ抽出処理、118・・・誤検出ログ記憶部、119・・・誤検出ログ除外部、20・・・ログサーバ装置。 DESCRIPTION OF SYMBOLS 10 ... An abnormal log detection apparatus, 11 ... Control part, 12 ... Communications part, 13 ... Storage part, 101 ... Abnormal log detection part, 111 ... Session division part, 112 .. Feature amount extraction unit 113 Feature amount storage unit 114 Compression processing unit 115 Error calculation unit 116 Abnormality determination unit 117 False detection log extraction processing 118 False detection log storage unit 119 False detection log exclusion unit 20 Log server device.

Claims (10)

複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出部と
を備えることを特徴とする異常ログ検出装置。
A division unit that divides a plurality of communication logs into communication log groups according to a predetermined standard;
A feature amount extraction unit that extracts feature amounts of each of the divided communication log groups;
An abnormality log detection apparatus comprising: an abnormality log detection unit which extracts an abnormality log based on the extracted feature amount.
前記異常ログ検出部は、
各々の前記通信ログ群に圧縮処理を行い、
各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、
算出した前記誤差に基づいて前記異常ログを抽出する
ことを特徴とする請求項1記載の異常ログ検出装置。
The abnormal log detection unit
Compress each communication log group,
Calculating an error between each of the communication log group and data obtained by performing compression processing on the communication log group;
The abnormality log detection apparatus according to claim 1, wherein the abnormality log is extracted based on the calculated error.
前記特徴量抽出部は、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出する
ことを特徴とする請求項1又は2記載の異常ログ検出装置。
The abnormality log detection apparatus according to claim 1 or 2, wherein the feature quantity extraction unit extracts a feature quantity specified in a relation of each communication log included in one of the divided communication log groups.
前記特徴量の解析観点、前記特徴量の解析対象、前記特徴量の表記方法及び前記特徴量の次元数を含む情報を記憶する特徴量記憶部を備え、
前記特徴量抽出部は、前記特徴量記憶部に記憶されている情報に基づいて、複数次元の行列で表現される前記通信ログ群の特徴量を抽出し、
前記異常ログ検出部は、前記圧縮処理として、前記特徴量を次元削減する圧縮処理を行う
ことを特徴とする請求項2記載の異常ログ検出装置。
The feature amount storage unit stores information including an analysis viewpoint of the feature amount, an analysis target of the feature amount, a description method of the feature amount, and the number of dimensions of the feature amount.
The feature quantity extraction unit extracts feature quantities of the communication log group represented by a multidimensional matrix based on the information stored in the feature quantity storage unit.
The abnormal log detection device according to claim 2, wherein the abnormal log detection unit performs compression processing for reducing the dimension of the feature amount as the compression processing.
前記異常ログ検出部は、
抽出した前記異常ログにおいて誤って抽出された誤検出ログに基づく学習を行い、
当該学習結果に基づいて前記異常ログを抽出する
ことを特徴とする請求項1〜3のいずれか1項に記載の異常ログ検出装置。
The abnormal log detection unit
Perform learning based on the erroneously detected log erroneously extracted in the extracted abnormal log,
The abnormality log detection device according to any one of claims 1 to 3, wherein the abnormality log is extracted based on the learning result.
通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外する
ことを特徴とする請求項1〜4のいずれか1項に記載の異常ログ検出装置。
When there is a transmission destination to which a communication device having a threshold value or more communicates among a plurality of communication devices to be monitored for the communication log, the communication log including the transmission destination is excluded from the detection targets of the abnormality log. The abnormality log detection device according to any one of claims 1 to 4, which is characterized in that.
前記分割部は、前記通信ログの発生日時に関する前記基準に従って前記分割を行う
ことを特徴とする請求項1〜5のいずれか1項に記載の異常ログ検出装置。
The abnormality log detection device according to any one of claims 1 to 5, wherein the division unit performs the division in accordance with the reference regarding the occurrence date and time of the communication log.
前記分割部は、同一の発信元を含む通信ログのうち、連続する通信ログの発生日時の時間間隔が閾値未満となる1又は複数の通信ログを1の前記通信ログ群として分割する
ことを特徴とする請求項6に記載の異常ログ検出装置。
The division unit divides one or a plurality of communication logs in which a time interval between occurrence times of successive communication logs is less than a threshold among communication logs including the same transmission source as one communication log group. The abnormal log detection device according to claim 6.
複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、
抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出ステップと
を備えることを特徴とする異常ログの検出方法。
A division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard;
A feature amount extraction step of extracting a feature amount of each of the divided communication log groups;
And an abnormality log detection step of extracting an abnormality log based on the extracted feature amount.
コンピュータに、
複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、
抽出された前記特徴量に基づいて異常ログを抽出する異常ログ検出ステップと を実行させるためのプログラム。
On the computer
A division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard;
A feature amount extraction step of extracting a feature amount of each of the divided communication log groups;
A program for executing an abnormality log detection step of extracting an abnormality log based on the extracted feature amount.
JP2017208307A 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program Active JP7005278B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017208307A JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017208307A JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Publications (2)

Publication Number Publication Date
JP2019082746A true JP2019082746A (en) 2019-05-30
JP7005278B2 JP7005278B2 (en) 2022-01-21

Family

ID=66669557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017208307A Active JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Country Status (1)

Country Link
JP (1) JP7005278B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353890A (en) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 Application log-based application anomaly detection method and device
CN114245981A (en) * 2019-09-30 2022-03-25 株式会社自动网络技术研究所 Detection device, vehicle, detection method, and detection program
JP2022061676A (en) * 2020-10-07 2022-04-19 エヌ・ティ・ティ・コムウェア株式会社 Learning device, estimation device, sequence estimation system and method, and program
JP7519230B2 (en) 2020-08-20 2024-07-19 株式会社日立製作所 API implementation support system and API implementation support method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264760A (en) * 2006-03-27 2007-10-11 Nec Corp Log analysis system, and method and program for setting log analysis tool
JP2010250583A (en) * 2009-04-16 2010-11-04 Fujitsu Ltd Program and method for generating application test, and application test device
JP2011034208A (en) * 2009-07-30 2011-02-17 Hitachi Ltd Failure detection method, device and program
JP2012203522A (en) * 2011-03-24 2012-10-22 Mitsubishi Electric Corp Log analysis support system
JP2014036408A (en) * 2012-08-10 2014-02-24 Ntt Communications Corp Communication apparatus, communication system, communication method, and communication program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264760A (en) * 2006-03-27 2007-10-11 Nec Corp Log analysis system, and method and program for setting log analysis tool
JP2010250583A (en) * 2009-04-16 2010-11-04 Fujitsu Ltd Program and method for generating application test, and application test device
JP2011034208A (en) * 2009-07-30 2011-02-17 Hitachi Ltd Failure detection method, device and program
JP2012203522A (en) * 2011-03-24 2012-10-22 Mitsubishi Electric Corp Log analysis support system
JP2014036408A (en) * 2012-08-10 2014-02-24 Ntt Communications Corp Communication apparatus, communication system, communication method, and communication program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245981A (en) * 2019-09-30 2022-03-25 株式会社自动网络技术研究所 Detection device, vehicle, detection method, and detection program
CN111353890A (en) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 Application log-based application anomaly detection method and device
JP7519230B2 (en) 2020-08-20 2024-07-19 株式会社日立製作所 API implementation support system and API implementation support method
JP2022061676A (en) * 2020-10-07 2022-04-19 エヌ・ティ・ティ・コムウェア株式会社 Learning device, estimation device, sequence estimation system and method, and program
JP7182586B2 (en) 2020-10-07 2022-12-02 エヌ・ティ・ティ・コムウェア株式会社 LEARNING APPARATUS, ESTIMATION APPARATUS, SEQUENCE ESTIMATION SYSTEM AND METHOD, AND PROGRAM

Also Published As

Publication number Publication date
JP7005278B2 (en) 2022-01-21

Similar Documents

Publication Publication Date Title
JP6106340B2 (en) Log analysis device, attack detection device, attack detection method and program
JP7005278B2 (en) Abnormal log detection device, abnormal log detection method and program
US10140451B2 (en) Detection of malicious scripting language code in a network environment
TWI674777B (en) Abnormal flow detection device and abnormal flow detection method thereof
CN106470214B (en) Attack detection method and device
WO2015120752A1 (en) Method and device for handling network threats
CN107968791B (en) Attack message detection method and device
WO2009064510A1 (en) Risk scoring system for the prevention of malware
CN106911637A (en) Cyberthreat treating method and apparatus
JP2016091549A (en) Systems, devices, and methods for separating malware and background events
JP6674036B2 (en) Classification device, classification method and classification program
CN113923042B (en) Detection and identification system and method for malicious software abuse (DoH)
US10348751B2 (en) Device, system and method for extraction of malicious communication pattern to detect traffic caused by malware using traffic logs
Anumol Use of machine learning algorithms with SIEM for attack prediction
CN110417768A (en) A kind of tracking and device of Botnet
US20240146753A1 (en) Automated identification of false positives in dns tunneling detectors
Wang et al. Behavior‐based botnet detection in parallel
CN115134250A (en) Network attack source tracing evidence obtaining method
US20150222648A1 (en) Apparatus for analyzing the attack feature dna and method thereof
US20160205118A1 (en) Cyber black box system and method thereof
CN111030978B (en) Malicious data acquisition method and device based on block chain and storage device
EP3718284B1 (en) Extending encrypted traffic analytics with traffic flow data
US11321453B2 (en) Method and system for detecting and classifying malware based on families
JP2007249348A (en) Data collection device and method in application trace-back and its program
KR20180101868A (en) Apparatus and method for detecting of suspected malignant information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220105

R150 Certificate of patent or registration of utility model

Ref document number: 7005278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350