CN116569168A

CN116569168A - 信息处理装置、信息处理方法和信息处理程序

Info

Publication number: CN116569168A
Application number: CN202080107438.3A
Authority: CN
Inventors: 山本匠; 河内清人
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-08-08
Also published as: WO2022123623A1; DE112020007653T5; JPWO2022123623A1; US20230262075A1; JP7170955B1

Abstract

正常分类部(101)提取已判明是攻击目的的访问且检测部(102)判定为是攻击目的的访问的真阳性访问。修正部(107)使用已判明是正常访问且检测部(102)判定为是正常访问的真阴性访问的特征对真阳性访问的特征进行修正。

Description

信息处理装置、信息处理方法和信息处理程序

技术领域

本发明涉及攻击检测技术。

背景技术

近年来，以特定的企业或组织为目标的标的型攻击不断增加。伴随着控制***的网络化，针对发电设备、燃气设备等重要基础设施的网络攻击成为威胁，成为动摇国家的安全保障的重大担心事项。

另一方面，在安全监视的现场，需要专业知识的工作人员不足成为常态化。因此，需要即使是较少的工作人员也能够高精度且高效地检测网络攻击的技术。

作为监视网络攻击的技术，以往公知有基于规则的检测技术。在基于规则的检测技术中，使用检测已知的不正当图案的规则(签名)、或检测攻击方法或攻击者的动作的规则。

但是，由于攻击的高级化和未知攻击的增加，很难预先定义规则，困扰着SOC(Security Operation Center：安全管理中心)的工作人员。此外，需要按照每个监视对象***通过手动作业来调整规则，基于规则的检测技术的极限将至。因此，期望不需要预先定义规则、或自动地决定识别正常和异常的边界的高级的检测技术。作为实现这种高级的检测技术的技术，可考虑机器学习等Artificial Intelligence(人工智能，以下简称作AI)。AI对预先准备的多个类别的数据进行学习，自动地发现划分类别之间的边界。如果能够大量地准备每个类别的数据，则AI能够适当地发现边界。如果能够将AI应用于网络攻击的监视，则能够期待由AI代替此前具有专业知识、技能的工作人员进行的规则的定义和更新。

但是，在网络安全中，存在很难大量地准备AI中最重要的每个类别的数据这样的课题。攻击的发生很少，大量地准备攻击数据以用于学习是非常困难的。因此，需要利用某种方法增加攻击数据以用于学习。

此外，攻击者的能力日渐提高。近来的攻击者在良好地调查并理解攻击对象组织的信息后，以不被攻击检测***察觉的方式发动攻击。内部犯罪也在增加，可认为活用了攻击对象组织的信息的巧妙的攻击今后会增加。攻击数据的巧妙度也是必要的，以能够应对为了躲避检测而以具有与正常状态非常相似的特征的方式巧妙地设计和开发的攻击。

作为用于解决很难大量地准备躲避检测的异常(攻击)数据这样的课题的技术，存在如下技术：大量地自动生成躲避检测的攻击样本，实现攻击检测技术的精度提高。

作为生成躲避检测的攻击样本的现有技术，存在专利文献1的技术和专利文献2的技术。

在专利文献1中公开有如下技术：为了进行安全产品的评价，自动地生成以具有与正常状态非常相似的特征的方式制作的巧妙的攻击样本。在专利文献2中公开有如下技术：为了进行安全产品的评价，自动生成检测本来不应该检测的正常事象的误检测(FalsePositive：FP(伪阳性))和不检测本来应该检测的事象的漏检测(False Negative：FN(伪阴性))。

在两个技术中，均以越过对正常数据的动作进行学习而得到的正常模型的决定边界的方式对攻击的特征向量进行变更。此外，在两个技术中，以具有与越过边界的特征向量对应的特征的方式在模拟环境上生成攻击。根据两个技术，通过确认环境、攻击等的制约和攻击功能的有无等，能够生成具有真实感的巧妙的攻击。

现有技术文献

专利文献

专利文献1：日本特许6548837号

专利文献2：日本特许6698956号

发明内容

发明要解决的课题

在专利文献1的技术和专利文献2的技术中，以在特征空间上跨越检测***的决定边界的方式对特征向量进行修正，搜索躲避检测的样本。因此，很难在特征空间为非线性且高维度的攻击检测技术中高效地应用这些技术。

一般而言，越是高精度的攻击检测***，特征空间越是超高维度且非线性的，越难从特征空间上的表现逆转换为实际空间的信息。因此，很难从特征空间上发现的躲避检测的攻击样本取得实际空间上存在的样本，预计会成为随意且不高效的搜索。

本发明鉴于以上情况，其主要目的在于，能够高效地搜索实际空间中实际可能存在的躲避检测的攻击。

用于解决课题的手段

本发明的信息处理装置具有：提取部，其提取已判明是攻击目的的访问且攻击检测***判定为是攻击目的的访问的真阳性访问；以及修正部，其使用已判明是正常访问且所述攻击检测***判定为是正常访问的真阴性访问的特征对所述真阳性访问的特征进行修正。

发明效果

根据本发明，能够高效地搜索实际空间中实际可能存在的躲避检测的攻击。

附图说明

图1是示出实施方式1的攻击日志生成装置的硬件结构例的图。

图2是示出实施方式1的攻击日志生成装置的功能结构例的图。

图3是示出实施方式1的攻击日志生成装置的动作例的流程图。

图4是示出实施方式1的攻击生成部的内部结构例的图。

图5是示出实施方式1的模拟环境的结构例的图。

图6是示出实施方式1的附近提取部的内部结构例的图。

图7是示出实施方式1的倾向提取部的内部结构例的图。

图8是示出实施方式1的特征修正部的内部结构例的图。

图9是示出实施方式1的特征修正部的动作例的流程图。

图10是示出实施方式1的特征修正部的动作例的流程图。

图11是示出实施方式1的特征修正部的动作例的流程图。

图12是示出实施方式2的攻击日志生成装置的功能结构例的图。

图13是示出实施方式2的攻击日志生成装置的动作例的流程图。

图14是示出实施方式2的附近提取部的内部结构例的图。

图15是示出实施方式2的倾向提取部的内部结构例的图。

图16是示出实施方式2的特征修正部的内部结构例的图。

图17是示出实施方式2的特征修正部的动作例的流程图。

图18是示出实施方式2的特征修正部的动作例的流程图。

图19是示出实施方式2的特征修正部的动作例的流程图。

具体实施方式

下面，使用附图对实施方式进行说明。在以下的实施方式的说明和附图中，标注有相同标号的部分表示相同的部分或相当的部分。

实施方式1

***概要***

下面，将已判明是正常的访问即正常访问且攻击检测***判定为是正常访问的访问称作真阴性访问。

此外，将已判明是攻击访问且攻击检测***判定为是攻击访问的访问称作真阳性访问。

此外，将已判明是攻击目的的攻击访问但是攻击检测***误判定为是正常访问的访问称作伪阴性访问。伪阴性访问是产生漏检测的访问。

此外，将已判明是正常访问但是攻击检测***误判定为是攻击访问的访问称作伪阳性访问。伪阳性访问是产生误检测的访问。

在本实施方式中，使用表示正常访问的特征的正常日志和表示攻击访问的特征的攻击日志。在正常日志中包含多个字段，在各字段中记述有表示正常访问的特征的值。同样，在攻击日志中包含与正常日志相同的多个字段，在各字段中记述有表示攻击访问的特征的值。

而且，在本实施方式中，从正常日志中提取真阴性访问的日志，从攻击日志中提取真阳性访问的日志。进而，在本实施方式中，使用真阴性访问的特征对真阳性访问的特征进行修正。在本实施方式中，对真阳性访问的特征进行修正，以使攻击检测***将特征被修正后的真阳性访问即修正真阳性访问判定为是正常访问。即，在本实施方式中，对真阳性访问的特征进行修正，以使真阳性访问成为伪阴性访问。这样，在本实施方式中，通过对真阳性访问的特征进行修正，得到能够躲避攻击检测***的检测的伪阴性访问的攻击样本。

***结构的说明***

图1示出本实施方式的攻击日志生成装置100的硬件结构例。此外，图2示出本实施方式的攻击日志生成装置100的功能结构例。

本实施方式的攻击日志生成装置100是计算机。攻击日志生成装置100相当于信息处理装置。此外，攻击日志生成装置100的动作步骤相当于信息处理方法。此外，实现攻击日志生成装置100的动作的程序相当于信息处理程序。

如图1所示，作为硬件，攻击日志生成装置100具有处理器901、主存储装置902、辅助存储装置903、键盘904、鼠标905和显示器装置906。

在辅助存储装置903中存储有实现图2所示的正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的功能的程序。

这些程序从辅助存储装置903载入到主存储装置902。而且，处理器901执行这些程序，进行后述的正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的动作。

在图3中，示意地示出处理器901执行实现正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的功能的程序的状态。

此外，图2所示的检测躲避攻击日志DB(Database：数据库)111、正常日志DB112、攻击日志DB113、正常日志统计信息DB114、真阴性正常日志DB115、附近真阴性正常日志DB116和真阴性正常日志倾向DB117通过主存储装置902或辅助存储装置903实现。

键盘904和鼠标905受理来自攻击日志生成装置100的用户的指示。显示器装置906向攻击日志生成装置100的用户显示各种信息。

另外，在图1中没有示出，但是，攻击日志生成装置100也可以具有通信装置。

在图2中，正常分类部101提取真阴性访问。更具体而言，正常分类部101从正常日志DB112内的正常日志中提取由检测部102判定为正常的真阴性的正常日志。在正常日志中，在多个字段中记述有正常访问的特征。即，通过正常日志定义正常访问。因此，通过由正常分类部101提取出的真阴性的正常日志(以下称作真阴性正常日志)定义真阴性访问。正常分类部101将提取出的真阴性正常日志存储于真阴性正常日志DB115。

此外，正常分类部101从攻击日志中提取真阳性访问。更具体而言，正常分类部101从攻击日志DB113内的攻击日志中提取由检测部102判定为攻击的真阳性的攻击日志。在攻击日志中，在多个字段中记述有由攻击生成部103生成的攻击访问的特征。即，通过攻击日志定义攻击访问。因此，通过由正常分类部101提取的真阳性的攻击日志(以下称作真阳性攻击日志)定义真阳性访问。正常分类部101将提取出的真阳性攻击日志输出到附近提取部104。

正常分类部101相当于提取部。此外，由正常分类部101进行的处理相当于提取处理。

检测部102作为攻击检测***发挥功能。

更具体而言，检测部102利用机器学习来检测攻击访问。如上所述，通过正常分类部101，由检测部102判定为正常的正常日志作为真阴性正常日志存储于真阴性正常日志DB115。此外，通过正常分类部101，由检测部102判定为攻击的攻击日志作为真阳性攻击日志输出到附近提取部104。

攻击生成部103按照攻击脚本生成攻击访问。然后，攻击生成部103将表示攻击访问的特征的日志作为攻击日志存储于攻击日志DB113。

将附近提取部104、倾向提取部105和特征修正部106统一称作修正部107。

修正部107使用由正常分类部101提取出的真阴性访问的特征对由正常分类部101提取出的真阳性访问的特征进行修正。更具体而言，修正部107对真阳性访问的特征进行修正，以使检测部102将特征被修正后的真阳性访问即修正真阳性访问判定为是正常访问。此外，在检测部102将修正真阳性访问判定为是攻击访问的情况下，修正部107使用真阴性访问的特征对修正真阳性访问的特征进行修正。

由修正部107进行的处理相当于修正处理。

附近提取部104从真阴性正常日志DB115中提取由正常分类部101提取出的真阳性攻击日志的附近的真阴性正常日志(以下称作附近真阴性正常日志)。

更具体而言，附近提取部104提取真阴性正常日志DB115中包含的真阴性正常日志中的、具有与真阳性攻击日志的特征近似的特征的真阴性正常日志作为附近真阴性正常日志。

在真阳性攻击日志具有多个特征的情况下，倾向提取部105计算真阳性攻击日志的多个特征各自的重要度(feature importance)。倾向提取部105以区分真阴性访问和真阳性访问的程度高的特征的重要度变高的方式，计算真阳性攻击日志的多个特征各自的重要度。

此外，倾向提取部105从真阳性攻击日志的多个特征中选择重要度符合选择条件的特征。

特征修正部106使用真阴性正常日志的对应的特征对由倾向提取部105选择出的真阳性攻击日志的特征进行修正。

然后，特征修正部106将修正后的真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111。

检测躲避攻击日志DB111存储检测躲避攻击日志。

正常日志DB112存储正常日志。

攻击日志DB113存储攻击日志。

正常日志统计信息DB114存储正常日志的统计信息(以下称作正常日志统计信息)。

真阴性正常日志DB115存储真阴性正常日志。

附近真阴性正常日志DB116存储由附近提取部104提取出的附近真阴性正常日志。

真阴性正常日志倾向DB117存储由附近提取部104提取出的附近真阴性正常日志的倾向(以下称作真阴性正常日志倾向)。

***动作的说明***

接着，参照图3对本实施方式的攻击日志生成装置100的动作例进行说明。

首先，正常分类部101从正常日志中提取真阴性正常日志(步骤S1_1)。

具体而言，检测部102对正常日志DB112中预先蓄积的大量的正常日志进行分析，检测部102判定由正常日志定义的访问是符合正常访问还是符合攻击访问。然后，正常分类部101提取检测部102判定为正常访问的正常日志作为真阴性正常日志。

然后，正常分类部101将提取出的真阴性正常日志存储于真阴性正常日志DB115。

接着，攻击生成部103执行攻击，生成攻击日志(步骤S1_2)。

即，攻击生成部103进行攻击访问，生成表示攻击访问的特征的攻击日志。然后，攻击生成部103将生成的攻击日志存储于攻击日志DB113。

接着，检测部102对攻击日志进行分析，判定由攻击日志定义的访问是符合正常访问还是符合攻击访问(步骤S1_3)。

在检测部102将由攻击日志定义的访问判定为符合正常访问的情况下(步骤S1_3：否)，处理进入步骤S1_8。

在步骤S1_8中，检测部102判定为符合正常访问的访问是能够躲避检测部102的检测的攻击访问(伪阴性访问)，因此，正常分类部101将符合的真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111。

另一方面，在检测部102将由攻击日志定义的访问判定为符合攻击访问的情况下(步骤S1_3：是)，处理进入步骤S1_4。即，检测部102判定为符合攻击访问的访问是由检测部102检测到的攻击访问(真阳性访问)。因此，需要对真阳性攻击日志的特征进行修正，以能够躲避检测部102的检测。

在步骤S1_4中，附近提取部104提取附近真阴性正常日志。即，附近提取部104从真阴性正常日志DB115中提取通过步骤S1_3得到的攻击日志(真阳性攻击日志)的附近的真阴性正常日志。

步骤S1_4的详细情况在后面叙述。

接着，倾向提取部105计算在步骤S1_4中取得的附近真阴性正常日志的特征的倾向(步骤S1_5)。

接着，特征修正部106对真阳性攻击日志进行修正，以在真阳性攻击日志中包含附近真阴性正常日志的特征的倾向(步骤S1_6)。

即，特征修正部106对真阳性攻击日志的各字段进行修正，以较多地包含由倾向提取部105计算出的附近真阴性正常日志的特征的倾向。

接着，检测部102判定由被特征修正部106修正后的真阳性攻击日志(修正真阳性攻击日志)定义的访问(修正真阳性访问)是符合正常访问还是符合攻击访问(步骤S1_7)。

在检测部102判定为修正真阳性访问符合正常访问的情况下(步骤S1_7：否)，正常分类部101将修正真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111(步骤S1_8)。

检测部102无法将基于修正真阳性攻击日志的修正真阳性访问检测为攻击，因此，修正真阳性访问是能够躲避攻击检测***的检测的攻击访问。因此，正常分类部101将修正真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111。

另一方面，在检测部102判定为修正真阳性访问符合攻击访问的情况下(步骤S1_7：是)，处理返回步骤S1_6。然后，特征修正部106进一步使用附近真阴性正常日志的特征对修正真阳性攻击日志进行修正(步骤S1_6)。

以上是攻击日志生成装置100的动作的大致流程。

下面，对正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的动作的详细情况进行说明。

正常分类部101使检测部102判定正常日志DB112中预先准备的大量的正常日志的正常/异常。检测部102判定正常日志是正常还是异常。即，检测部102判定正常日志中记述的特征是符合正常访问的特征还是符合攻击访问的特征。

正常分类部101提取在检测部102的判定中判定为正常的正常日志作为真阴性正常日志。然后，正常分类部101将提取出的真阴性正常日志存储于真阴性正常日志DB115。此时，正常分类部101针对正常日志的范畴数据(域、方法、状态代码等)，按照每个范畴数据计算唯一值的出现频度和百分位数。然后，正常分类部101将由唯一值和百分位数的对构成的辞典作为正常日志统计信息存储于正常日志统计信息DB114。百分位数是按照从小到大的顺序依次排列唯一值的出现频度而表示该唯一值相当于第百分之多少的指标。正常分类部101也可以代替唯一值和百分位数的对，而将由唯一值和出现频度的对构成的辞典作为正常日志统计信息存储于正常日志统计信息DB114。

检测部102从正常分类部101取得日志(正常日志或攻击日志)。然后，检测部102从日志中提取特征，将提取出的特征转换为用于输入到机器学习算法的表现(特征向量)。然后，检测部102将特征向量应用于已学习的检测模型。由此，检测部102推测日志所属的类别。

将使用给出了表示学习数据属于正常访问和攻击访问中的哪个类别的监督信息(标签)的学习数据对检测模型进行学习的方法称作有监督学习。在使用有监督学习的情况下，检测部102利用已学习的检测模型推测特征向量属于正常访问和攻击访问中的哪个类别。

将未准备监督信息而仅使用正常数据作为学习数据对检测模型进行学习的方法称作无监督学习。在使用无监督学习的情况下，检测部102利用已学习的检测模型推测特征向量是否属于正常访问的类别。

图4示出攻击生成部103的内部结构例。

如图4所示，攻击生成部103由模拟环境1031、攻击执行部1032、攻击模块1033、攻击脚本DB1034和日志收集部1035构成。

图5示出模拟环境1031的结构例。

模拟环境1031是模拟了企业或组织的业务网络的虚拟环境。

模拟环境1031例如由代理服务器、防火墙、文件服务器、AD(Active Directory：活动目录)服务器、公司内Web服务器、用户终端、平台终端和伪互联网构成。伪互联网包含攻击者的命令&控制(Command and Control)服务器。

攻击模块1033是实现网络杀伤链(Cyber Kill Chain)中的侦察(Reconnaissance)、武器化(Weaponization)、交付(Delivery)、利用(Exploitation)、安装(Installation)、命令&控制(Command and Control)、侵入扩大(Lateral Movement)、目的执行(Actions on Objective)的各步骤的多个基本模块。

侦察是从***息等收集标的信息(邮件地址等)的步骤。

武器化是生成攻击用的利用套件、恶意软件等的步骤。

交付是将添加了恶意软件的邮件或带有恶意的链接的邮件发送到标的的、直接访问标的***等的步骤。

利用是使标的执行恶意软件等攻击文件的、使标的访问有恶意的链接等的步骤。

安装是使利用成功而使标的感染恶意软件的步骤。

命令&控制(C&C)是恶意软件和C&C服务器能够通信且C&C服务器从远程操作标的的步骤。

侵入扩大是C&C服务器使用本地的哈希密码侵入其他计算机的步骤。

目的执行是执行信息榨取、篡改、数据破坏、服务停止等攻击者的目的的步骤。

攻击模块1033是实现这些功能的程序。

攻击脚本DB1034存储攻击脚本。

攻击脚本是与一般的标的型攻击一起定义攻击模块1033的组合和参数(例如通信频度、通信目的地域、感染终端等)的信息。为了使攻击具有变化，在攻击脚本DB1034中准备大量的攻击脚本。

攻击执行部1032选择1个由攻击脚本DB1034存储的攻击脚本。然后，攻击执行部1032按照选择出的攻击脚本在模拟环境1031上执行攻击模块1033。

日志收集部1035收集攻击执行时的模拟环境1031上的日志，将收集到的日志作为攻击日志存储于攻击日志DB113。

攻击日志例如包含有代理服务器日志、AD服务器日志、文件服务器日志、防火墙日志等。

图6示出附近提取部104的内部结构例。

附近提取部104由特征提取部1041、特征表现部1042和附近计算部1043构成。此外，附近提取部104使用正常日志DB112、真阴性正常日志DB115和附近真阴性正常日志DB116。

特征提取部1041从x个(假设为1个)真阳性攻击日志和y个真阴性正常日志中提取规定的特征。y是比x大很多的数。

特征表现部1042将从真阳性攻击日志和真阴性正常日志中提取出的特征转换为容易利用机器学习算法进行处理的形式(特征向量)。特征表现部1042将域、方法、状态代码等范畴数据例如转换为One-hot编码或以下的参考文献中记载的频率编码(FrequencyEncoding)。

参考文献：Steve T.K.Jan,et al、Throwing Darts in the Dark？DetectingBots with Limited Data using Neural Data Augmentation,Security&Privacy 2020(https：//people.cs.vt.edu/vbimal/publications/syntheticdata-sp20.pdf)

此外，特征表现部1042对数值数据进行归一化或标准化。通过对数值数据进行归一化或标准化，特征表现部1042使数值数据的大小在特征的类别之间一致。

进而，附近计算部1043使用真阳性攻击日志的特征向量和真阴性正常日志的特征向量，确定真阳性攻击日志各自的附近K₀个附近真阴性正常日志。将x个真阳性攻击日志的附近的真阴性正常日志的总数设为K₁个。K₁≥K₀。然后，附近计算部1043将确定的K₁个附近真阴性正常日志存储于附近真阴性正常日志DB116。

附近计算部1043例如利用KNN(K-nearest neighbor：K最近邻)法确定K₁个附近真阴性正常日志。附近计算部1043确定K₁个附近真阴性正常日志时利用的特征或特征表现也可以与检测部102使用的特征或特征表现不同。此外，附近计算部1043使用Euclid距离等作为距离尺度。

图7示出倾向提取部105的内部结构例。

倾向提取部105由特征提取部1051、特征表现部1052、重要度计算部1053和倾向计算部1054构成。此外，倾向提取部105使用附近真阴性正常日志DB116和真阴性正常日志倾向DB117。

特征提取部1051从附近真阴性正常日志DB116取得K₁个附近真阴性正常日志。此外，特征提取部1051例如从附近提取部104取得x个(假设为1个)真阳性攻击日志。

然后，与特征提取部1041同样，特征提取部1051从K₁个附近真阴性正常日志和x个真阳性攻击日志中提取规定的特征。

与特征表现部1042同样，特征表现部1052也将从K₁个附近真阴性正常日志和x个真阳性攻击日志中提取出的特征转换为容易利用机器学习算法进行处理的形式(特征向量)。特征表现部1052转换为特征向量的特征或特征表现也可以与检测部102使用的特征或特征表现不同。

重要度计算部1053使用由特征表现部1052得到的特征向量，对区分K₁个附近真阴性正常日志和x个真阳性攻击日志的识别器(C₁)进行学习。重要度计算部1053针对真阳性攻击日志的特征向量，分别计算识别器(C₁)区分K₁个附近真阴性正常日志和x个(例如1个)真阳性攻击日志的程度即特征的重要度(feature importance)。重要度计算部1053以区分附近真阴性正常日志和真阳性攻击日志的程度高的特征的重要度变高的方式，计算特征向量各自的重要度。

然后，重要度计算部1053提取重要度大的上位n₁件特征F₁₁～F_1n1。n₁为1以上。重要度计算部1053例如使用随机森林来计算重要度。

倾向计算部1054取得与K₁个附近真阴性正常日志中的特征F₁₁～F_1n1有关的统计信息。倾向计算部1054针对作为范畴数据的特征，取得范畴数据的百分位数的中央值(中值、med₁)和最频值(模式、mod₁)作为统计信息。此外，倾向计算部1054针对作为数值数据的特征，取得数值数据的平均(μ₁)和标准偏差(σ₁)作为统计信息。

然后，倾向计算部1054将统计信息存储于真阴性正常日志倾向DB117。

图8示出特征修正部106的内部结构例。

特征修正部106由数据修正部1061和验证部1062构成。特征修正部106使用检测躲避攻击日志DB111。

图9示出数据修正部1061和验证部1062的动作例。

首先，数据修正部1061确认特征F₁₁～F_1n1中是否存在未确认的特征(步骤S2_1)。

在存在未确认的特征的情况下(步骤S2_1：是)，数据修正部1061选择未确认的特征F_1i(i为1～n1中的任意一方)(步骤S2_2)。

下面，以特征F_1i是特征F₁₁的情况为例，记载数据修正部1061的动作。

接着，数据修正部1061从真阳性攻击日志的对应的字段取得特征F₁₁的实际的值(步骤S2_3)。

然后，数据修正部1061生成列表₁₁(步骤S2_4)。在列表₁₁中包含有利用附近真阴性正常日志的特征F₁₁的实际的值对真阳性攻击日志的特征F₁₁的实际的值进行修正后的修正值。即，在列表₁₁中包含有反映了K₁个附近真阴性正常日志的特征F₁₁的值的多个修正值。

另外，列表₁₁的生成方法在后面叙述。

数据修正部1061针对其他特征F₁₂～F_1n1，也进行步骤S2_2～步骤S2_4的处理。

在对全部特征F₁₁～F_1n1进行步骤S2_2～步骤S2_4的处理后(步骤S2_1：否)，数据修正部1061组合全部特征F₁₁～F_1n1的列表₁₁～列表_1n1中包含的修正值，按照每个组合生成对应的攻击日志(修正真阳性攻击日志)(步骤S2_5)。在列表₁₁～列表_1n1的各列表中包含的修正值的数量为r_1j(j为1～n1)的情况下，生成的攻击日志(修正真阳性攻击日志)的种类成为N＝Πr_1j。在不与特征F₁₁～F_1n1对应的字段中保持真阳性攻击日志的实际的值。

接着，验证部1062对各修正真阳性攻击日志进行验证(步骤S2_6)。

具体而言，验证部1062使检测部102判定由各修正真阳性攻击日志定义的访问符合正常访问和攻击访问中的哪个。

然后，验证部1062将由检测部102判定为正常访问的修正真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111(步骤S2_7)。在X>1的情况下，验证部1062针对全部真阳性攻击日志，利用相同方法生成检测躲避攻击日志。

接着，使用图10和图11对图9的步骤S2_4所示的列表(列表₁₁～列表_1n1)的生成方法进行说明。这里，对生成与特征F₁₁有关的列表₁₁的例子进行说明。

数据修正部1061判定特征F₁₁是范畴数据还是数值数据(步骤S3_1)。

范畴数据是域、方法、状态代码等。数值数据是请求尺寸、时间间隔等。

在特征F₁₁是范畴数据的情况下，数据修正部1061从正常日志统计信息的辞典取得特征F₁₁的范畴数据的百分位数的值，将取得的百分位数的值设定为cat₁₁(步骤S3_2)。此外，数据修正部1061从真阴性正常日志倾向DB117参照最频值mod₁₁作为K₁个附近真阴性正常日志中的特征F₁₁的统计信息(步骤S3_2)。

接着，数据修正部1061对cat₁₁的值和mod₁₁的值进行比较(步骤S3_3)。

在cat₁₁的值大于mod₁₁的值的情况下(步骤S3_3：否、步骤S3_4：否、步骤S3_5：是)，数据修正部1061对cat₁₁的值进行更新，以使cat₁₁的值相对于mod₁₁的值每次接近(减小)Δ₁₁，将更新后的cat₁₁的值追加到列表₁₁中(步骤S3_6)。在列表₁₁中已经记载有cat₁₁的值的情况下，数据修正部1061利用新的cat₁₁的值覆盖已经记载的cat₁₁的值。另外，Δ₁₁是规定的值。

在cat₁₁的值为mod₁₁的值以上的期间内(步骤S3_5：是)，数据修正部1061反复进行步骤S3_6的处理。

在cat₁₁的值小于mod₁₁的值后(步骤S3_4：否)，处理进入步骤S3_9。

在cat₁₁的值与mod₁₁的值相等的情况下(步骤S3_3：否、步骤S3_4：是)，处理进入步骤S3_9。

此外，在cat₁₁的值小于mod₁₁的值的情况下(步骤S3_3：是、步骤S3_7：是)，数据修正部1061对cat₁₁的值进行更新，以使cat₁₁的值相对于mod₁₁的值每次接近(增大)Δ₁₁，将更新后的cat₁₁的值追加到列表₁₁中(步骤S3_8)。在列表₁₁中已经记载有cat₁₁的值的情况下，数据修正部1061利用新的cat₁₁的值覆盖已经记载的cat₁₁的值。

在cat₁₁的值为mod₁₁的值以下的期间内(步骤S3_7：否)，数据修正部1061反复进行步骤S3_8的处理。

在cat₁₁的值大于mod₁₁的值后(步骤S3_7：是)，处理进入步骤S3_9。

在步骤S3_9中，数据修正部1061确定列表₁₁。

在步骤S3_1中特征F₁₁是数值数据的情况下，数据修正部1061将特征F₁₁的数值数据的值设定为num₁₁(步骤S3_10)。进而，数据修正部1061从真阴性正常日志倾向DB117参照平均μ₁₁和标准偏差σ₁₁作为K₁个附近真阴性正常日志中的特征F₁₁的统计信息(步骤S3_10)。

接着，数据修正部1061对num₁₁的值和μ₁₁的值进行比较(步骤S3_11)。

在num₁₁的值大于μ₁₁的值的情况下(步骤S3_11：否、步骤S3_12：否、步骤S3_13：是)，数据修正部1061对num₁₁的值进行更新，以使num₁₁的值相对于μ₁₁的值每次接近(减小)Δ₁₁，将更新后的num₁₁的值追加到列表₁₁中(步骤S3_14)。在列表₁₁中已经记载有num₁₁的值的情况下，数据修正部1061利用新的num₁₁的值覆盖已经记载的num₁₁的值。

另外，Δ₁₁是规定的值。该Δ₁₁可以是与在特征F₁₁是范畴数据的情况下使用的Δ₁₁相同的值，也可以是不同的值。

在num₁₁的值为(μ₁₁-τ₁₁)的值以上的期间内(步骤S3_13：是)，数据修正部1061反复进行步骤S3_14的处理。τ₁₁也是规定的值。例如可考虑如3×σ₁₁那样根据与特征F₁₁有关的统计值来定义τ₁₁。

在num₁₁的值小于(μ₁₁-τ₁₁)后(步骤S3_13：否)，处理进入步骤S3_17。

在num₁₁的值与μ₁₁的值相等的情况下(步骤S3_11：否、步骤S3_12：是)，处理进入步骤S3_17。

此外，在num₁₁的值小于μ₁₁的值的情况下(步骤S3_11：是、步骤S3_15：是)，数据修正部1061对num₁₁进行更新，以使num₁₁的值相对于μ₁的值₁每次接近(增大)Δ₁₁，将更新后的num₁₁的值追加到列表₁₁中(步骤S3_16)。在列表₁₁中已经记载有num₁₁的值的情况下，数据修正部1061利用新的num₁₁的值覆盖已经记载的num₁₁的值。

在num₁₁的值为(μ₁₁+τ₁₁)的值以下的期间内(步骤S3_15：是)，数据修正部1061反复进行步骤S3_16的处理。

在num₁₁的值大于(μ₁₁-τ₁₁)后(步骤S3_15：否)，处理进入步骤S3_17。

在步骤S3_17中，数据修正部1061确定列表₁₁。

然后，数据修正部1061针对特征F₁₂～F_1n1，也利用相同的步骤生成列表₁₂～列表_1n1。在列表₁₁～列表_1n1的生成完成后，数据修正部1061进行图9的步骤S2_5。

另外，在图10中，示出使用范畴数据的最频值(mod)的例子，但是，也可以代替最频值(mod)而利用中央值(med)等其他统计信息。

***实施方式的效果的说明***

如上所述，在本实施方式中，使用真阴性访问的特征对真阳性访问的特征进行修正，以使攻击检测***将特征被修正后的真阳性访问即修正真阳性访问判定为是正常访问。因此，根据本实施方式，能够得到能够躲避攻击检测***的检测的伪阴性访问的攻击样本。因此，根据本实施方式，能够高效地搜索实际空间中实际上可能存在的躲避检测的攻击。

此外，在本实施方式中，不是特征空间上的特征向量的修正，而是在实际空间上对日志的项目进行修正，将修正后的日志的项目转换为特征向量。然后，使用通过转换而得到的特征向量确认在特征空间上攻击是否躲避检测。但是，该状态下，成为随意的搜索。因此，在本实施方式中，在新生成的特征空间上确定真阳性攻击日志的附近的真阴性正常日志，以具有在真阴性正常日志中常见的特征的值的方式对真阳性攻击日志进行修正。由此，防止成为随意的搜索。

实施方式2

在实施方式1中，以具有在真阳性攻击日志的附近的真阴性正常日志中常见的特征的值的方式对真阳性攻击日志进行修正，高效地生成能够躲避检测的攻击日志。在实施方式2中，说明如下例子：除了真阴性正常日志以外，还使用伪阳性的正常日志(以下称作伪阳性正常日志)高效地生成能够躲避检测的攻击日志。

另外，伪阳性正常日志是在多个字段中记述伪阳性访问的特征的正常日志。如上所述，伪阳性访问是已判明是正常访问但是攻击检测***误判定为是攻击访问的访问。伪阳性访问是产生攻击检测***中的误检测的访问。

在本实施方式中，主要对与实施方式1之间的差异进行说明。

另外，以下未说明的事项与实施方式1相同。

***结构的说明**

图12示出本实施方式的攻击日志生成装置100的功能结构例。

在图12中，与图2相比，追加了伪阳性正常日志DB118、附近伪阳性正常日志DB119和伪阳性正常日志倾向DB120。

伪阳性正常日志DB118存储伪阳性正常日志。

附近伪阳性正常日志DB119存储真阳性攻击日志的附近的伪阳性正常日志即附近伪阳性正常日志。

伪阳性正常日志倾向DB120存储伪阳性正常日志的统计信息(以下称作伪阳性正常日志统计信息)。

伪阳性正常日志DB118、附近伪阳性正常日志DB119和伪阳性正常日志倾向DB120例如通过主存储装置902或辅助存储装置903实现。

在本实施方式中，正常分类部101将正常日志DB112中蓄积的正常日志分类为真阴性正常日志和伪阳性正常日志。

此外，在本实施方式中，修正部107使用真阴性访问的特征和伪阳性访问的特征对真阳性访问的特征进行修正。即，修正部107使用附近真阴性正常日志的特征和附近伪阳性正常日志的特征对真阳性攻击日志的特征进行修正。更具体而言，修正部107使用附近真阴性正常日志的特征中的、将与附近伪阳性正常日志的特征重复的特征排除后的附近真阴性正常日志的特征，对真阳性攻击日志的特征进行修正。

在本实施方式中，在检测部102(攻击检测***)将由修正真阳性攻击日志定义的修正真阳性访问判定为是攻击访问的情况下，修正部107也使用附近真阴性正常日志的特征和附近伪阳性正常日志的特征对修正真阳性攻击日志的特征进行修正。

图12所示的其他结构要素与图2所示的结构要素相同，因此省略说明。

***动作的说明***

使用图13对本实施方式的攻击日志生成装置100的动作例进行说明。

首先，正常分类部101将正常日志分类为真阴性正常日志和伪阳性正常日志(步骤S4_1)。

具体而言，检测部102对正常日志DB112中预先蓄积的大量的正常日志进行分析，检测部102判定由正常日志定义的访问是符合正常访问还是符合攻击访问。然后，正常分类部101将检测部102判定为正常访问的正常日志分类为真阴性正常日志。此外，正常分类部101将检测部102判定为攻击访问的正常日志分类为伪阳性正常日志。

然后，正常分类部101将真阴性正常日志存储于真阴性正常日志DB115，将伪阳性正常日志存储于伪阳性正常日志DB118。

接着，攻击生成部103执行攻击，生成攻击日志(步骤S4_2)。

接着，检测部102对攻击日志进行分析，判定由攻击日志定义的访问是符合正常访问还是符合攻击访问(步骤S4_3)。

在检测部102将由攻击日志定义的访问判定为符合正常访问的情况下(步骤S4_3：否)，处理进入步骤S4_8。

在步骤S4_8中，检测部102判定为符合正常访问的访问是能够躲避检测部102的检测的攻击访问(伪阴性访问)，因此，正常分类部101将符合的攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111。

另一方面，在检测部102将由攻击日志定义的访问判定为符合攻击访问的情况下(步骤S4_3：是)，处理进入步骤S4_4。

在步骤S4_4中，附近提取部104从真阴性正常日志DB115和伪阳性正常日志DB118中提取通过步骤S4_3得到的攻击日志(真阳性攻击日志)附近的真阴性正常日志和伪阳性正常日志(步骤S4_4)。

接着，倾向提取部105计算在步骤S4_4中提取出的附近真阴性正常日志和附近伪阳性正常日志的特征的倾向(步骤S4_5)。

接着，特征修正部106对真阳性攻击日志进行修正，以在真阳性攻击日志中较多地包含附近真阴性正常日志的特征的倾向，但是不包含附近伪阳性正常日志的特征的倾向(步骤S4_6)。

即，特征修正部106使用附近真阴性正常日志的特征中的、将与附近伪阳性正常日志的特征重复的特征排除后的附近真阴性正常日志的特征对真阳性攻击日志的各字段进行修正。

接着，检测部102判定由被特征修正部106修正后的真阳性攻击日志(修正真阳性攻击日志)定义的访问(修正真阳性访问)是符合正常访问还是符合攻击访问(步骤S4_7)。

在检测部102判定为修正真阳性访问符合正常访问的情况下(步骤S4_7：否)，正常分类部101将修正真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111(步骤S4_8)。

另一方面，在检测部102判定为修正真阳性访问符合攻击访问的情况下(步骤S4_7：是)，处理返回步骤S4_6。然后，特征修正部106进一步使用附近真阴性正常日志的特征和附近伪阳性正常日志的特征对修正真阳性攻击日志进行修正(步骤S4_6)。

以上是本实施方式的攻击日志生成装置100的动作的大致流程。

下面，对本实施方式的正常分类部101、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的动作的详细情况进行说明。

正常分类部101提取在检测部102的判定中判定为正常的正常日志作为真阴性正常日志。然后，正常分类部101将提取出的真阴性正常日志存储于真阴性正常日志DB115。此外，正常分类部101提取在检测部102的判定中判定为异常的正常日志作为伪阳性正常日志。然后，正常分类部101将提取出的伪阳性正常日志存储于伪阳性正常日志DB118。

此外，与实施方式1同样，正常分类部101将正常日志统计信息存储于正常日志统计信息DB114。正常日志统计信息的生成步骤和存储步骤如实施方式1所示，因此省略说明。

图14示出附近提取部104的内部结构例。

与实施方式1同样，附近提取部104由特征提取部1041、特征表现部1042和附近计算部1043构成。在本实施方式中，附近提取部104使用正常日志DB112、真阴性正常日志DB115、附近真阴性正常日志DB116、伪阳性正常日志DB118和附近伪阳性正常日志DB119。

特征提取部1041从真阳性攻击日志、真阴性正常日志和伪阳性正常日志中提取规定的特征。

特征表现部1042将从x个真阳性攻击日志、y₀个真阴性正常日志和y₁个伪阳性正常日志中提取出的特征转换为容易利用机器学习算法进行处理的形式(特征向量)。y₀和y₁是比x大很多的数。针对特征向量的转换方法如实施方式1所示，因此省略说明。

附近计算部1043使用真阳性攻击日志的特征向量和真阴性正常日志的特征向量，确定真阳性攻击日志各自的附近K₀个附近真阴性正常日志。将x个真阳性攻击日志的附近的真阴性正常日志的总数设为K₁个。K₁≥K₀。然后，附近计算部1043将确定的K₁个附近真阴性正常日志存储于附近真阴性正常日志DB116。

此外，附近计算部1043使用真阳性攻击日志的特征向量和伪阳性正常日志的特征向量，确定真阳性攻击日志各自的附近K₀个附近伪阳性正常日志。将x个真阳性攻击日志的附近的伪阳性正常日志的总数设为K₂个。K₂≥K₀。然后，附近计算部1043将确定的K₂个附近伪阳性正常日志存储于附近伪阳性正常日志DB119。

作为确定附近的方法，与实施方式1同样，附近计算部1043例如能够利用KNN法。

图15示出倾向提取部105的内部结构例。

与实施方式1同样，倾向提取部105由特征提取部1051、特征表现部1052、重要度计算部1053和倾向计算部1054构成。在本实施方式中，倾向提取部105使用附近真阴性正常日志DB116、真阴性正常日志倾向DB117、附近伪阳性正常日志DB119和伪阳性正常日志倾向DB120。

在实施方式1中，特征提取部1051从K₁个附近真阴性正常日志和x个真阳性攻击日志中提取规定的特征。

进而，特征提取部1051从附近伪阳性正常日志DB119取得K₂个附近伪阳性正常日志。此外，特征提取部1051例如从附近提取部104取得x个(假设为1个)真阳性攻击日志。

然后，特征提取部1051从K₂个附近伪阳性正常日志和x个真阳性攻击日志中提取规定的特征。

与实施方式1同样，特征表现部1052将从K₁个真阴性正常日志和x个真阳性攻击日志中提取出的特征转换为容易利用机器学习算法进行处理的形式(特征向量)。

进而，特征表现部1052将从K₂个伪阳性正常日志和x个真阳性攻击日志中提取出的特征转换为容易利用机器学习算法进行处理的形式(特征向量)。

与实施方式1同样，重要度计算部1053对识别器(C₁)进行学习，计算特征的重要度，提取重要度大的上位n₁件的特征F₁₁～F_1n1。

进而，重要度计算部1053使用由特征表现部1052得到的特征向量，对区分K₂个附近伪阳性正常日志和x个真阳性攻击日志的识别器(C₂)进行学习。重要度计算部1053针对真阳性攻击日志的特征向量，分别计算识别器(C₂)区分K₂个附近伪阳性正常日志和x个(例如1个)真阳性攻击日志的程度即特征的重要度。重要度计算部1053以区分附近伪阳性正常日志和真阳性攻击日志的程度高的特征的重要度变高的方式，计算特征向量各自的重要度。

然后，重要度计算部1053提取重要度大的上位n₂件特征F₂₁～F_2n1。N₂为1以上。重要度计算部1053例如使用随机森林来计算重要度。

与实施方式1同样，倾向计算部1054取得与K₁个附近真阴性正常日志中的特征F₁₁～F_1n1有关的统计信息。倾向计算部1054将统计信息存储于真阴性正常日志倾向DB117。

进而，倾向计算部1054取得与K₂个附近伪阳性正常日志中的特征F₂₁～F_2n1有关的统计信息。倾向计算部1054将统计信息存储于伪阳性正常日志倾向DB120。

与实施方式1同样，倾向计算部1054针对作为范畴数据的特征，取得范畴数据的百分位数的中央值(中值、med₂)和最频值(模式、mod₂)作为统计信息。此外，倾向计算部1054针对作为数值数据的特征，取得数值数据的平均(μ₂)和标准偏差(σ₂)作为统计信息。

图16示出特征修正部106的内部结构例。

与实施方式1同样，特征修正部106由数据修正部1061和验证部1062构成。在本实施方式中，特征修正部106使用检测躲避攻击日志DB111、真阴性正常日志倾向DB117和伪阳性正常日志倾向DB120。

图17示出数据修正部1061和验证部1062的动作例。

步骤S5_1～步骤S5_4与图9的步骤S2_1～步骤S2_4相同，因此省略说明。此外，步骤S5_4的列表_1i的生成方法如图10和图11所示。

接着，数据修正部1061针对特征F₁₂～F_1n1，也进行与特征F₁₁～F_1n1相同的处理，生成列表₂₁～列表_2n1。

具体而言，首先，数据修正部1061确认特征F₂₁～F_2n1中是否存在未确认的特征(步骤S5_5)。

在存在未确认的特征的情况下(步骤S5_5：是)，数据修正部1061选择未确认的特征F_2i(i为1～n1中的任意一方)(步骤S5_6)。下面，以特征F_2i是特征F₂₁的情况为例，记载数据修正部1061的动作。

接着，数据修正部1061从真阳性攻击日志的对应的字段取得特征F₂₁的实际的值(步骤S5_7)。

然后，数据修正部1061生成列表₂₁(步骤S5_8)。在列表₂₁中包含有利用附近伪阳性正常日志的特征F₂₁的实际的值对真阳性攻击日志的特征F₂₁的实际的值进行修正后的修正值。即，在列表₂₁中包含有反映了K₂个附近伪阳性正常日志的特征F₂₁的值的多个修正值。

另外，列表₂₁的生成方法在后面叙述。

数据修正部1061针对其他特征F₂₂～F_2n1，也进行步骤S5_5～步骤S5_8的处理。

接着，数据修正部1061对特征F₁₁～F_1n1的列表F₁₁～列表和特征F₂₁～F_2n2的列表₂₁～列表_2n1进行合并(步骤S5_9)。合并的方法在后面叙述。

接着，数据修正部1061组合全部合并后的列表F₁₁～列表_1n1中包含的修正值，按照每个组合生成对应的攻击日志(修正真阳性攻击日志)(步骤S5_10)。在不与特征F₁₁～F_1n1和特征F₂₁～F_2n2对应的字段中保持真阳性攻击日志的实际的值。

接着，验证部1062对各修正真阳性攻击日志进行验证(步骤S5_11)。

然后，验证部1062将由检测部102判定为正常访问的修正真阳性攻击日志作为检测躲避攻击日志存储于检测躲避攻击日志DB111(步骤S5_12)。在X>1的情况下，验证部1062针对全部真阳性攻击日志，利用相同方法生成检测躲避攻击日志。

接着，使用图18和图19对图17的步骤S5_8所示的列表(列表₂₁～列表_2n1)的生成方法进行说明。这里，也对生成与特征F₂₁有关的列表₂₁的例子进行说明。

数据修正部1061判定特征F₂₁是范畴数据还是数值数据(步骤S6_1)。

在特征F₂₁是范畴数据的情况下，数据修正部1061从正常日志统计信息的辞典取得特征F₂₁的范畴数据的百分位数的值，将取得的百分位数的值设定为cat₂₁(步骤S6_2)。此外，数据修正部1061从伪阳性正常日志倾向DB120参照最频值mod₂₁作为K₂个附近伪阳性正常日志中的特征F₂₁的统计信息(步骤S6_2)。

接着，数据修正部1061对cat₂₁的值和mod₂₁的值进行比较(步骤S6_3)。

在cat₂₁的值为mod₂₁的值以上的情况下(步骤S6_3：否)，数据修正部1061对cat₂₁的值和(mod₂₁+τ₂₁)进行比较(步骤S6_4)。τ₂₁是规定的值。

在cat₂₁的值为(mod₂₁+τ₂₁)以下的情况下，数据修正部1061对cat₂₁的值进行更新，以使cat₂₁的值相对于mod₂₁的值每次远离(增大)Δ₂₁，将更新后的cat₂₁的值追加到列表₂₁中(步骤S6_5)。在列表₂₁中已经记载有cat₂₁的值的情况下，数据修正部1061利用新的cat₂₁的值覆盖已经记载的cat₂₁的值。另外，Δ₂₁是规定的值。

在cat₂₁的值为(mod₂₁+τ₂₁)的值以下的期间内(步骤S6_4：是)，数据修正部1061反复进行步骤S6_5的处理。

在cat₂₁的值大于(mod₂₁+τ₂₁)后(步骤S6_4：否)，处理进入步骤S6_8。

此外，在cat₂₁的值小于mod₂₁的值的情况下(步骤S6_3：是)，数据修正部1061对cat₂₁的值和(mod₂₁-τ₂₁)进行比较(步骤S6_6)。

在cat₂₁的值为(mod₂₁-τ₂₁)以上的情况下，数据修正部1061对cat₂₁的值进行更新，以使cat₂₁的值相对于mod₂₁的值每次远离(减小)Δ₂₁，将更新后的cat₂₁的值追加到列表₂₁中(步骤S6_7)。在列表₂₁中已经记载有cat₂₁的值的情况下，数据修正部1061利用新的cat₂₁的值覆盖已经记载的cat₂₁的值。

在cat₂₁的值为(mod₂₁-τ₂₁)的值以上的期间内(步骤S6_6：是)，数据修正部1061反复进行步骤S6_7的处理。

在cat₂₁的值小于(mod₂₁-τ₂₁)后(步骤S6_6：否)，处理进入步骤S6_8。

在步骤S6_8中，数据修正部1061确定列表₂₁。

在步骤S6_1中特征F₂₁是数值数据的情况下，数据修正部1061将特征F₂₁的数值数据的值设定为num₂₁(步骤S6_9)。进而，数据修正部1061从伪阳性正常日志倾向DB120参照平均μ₂₁和标准偏差σ₂₁作为K₂个附近伪阳性正常日志中的特征F₂₁的统计信息(步骤S6_9)。

接着，数据修正部1061对num₂₁的值和μ₂₁的值进行比较(步骤S6_10)。

在num₂₁的值为μ₂₁的值以上的情况下(步骤S6_10：否)，数据修正部1061对num₂₁的值和(μ₂₁+τ₂₁)进行比较(步骤S6_11)。

在num₂₁的值为(μ₂₁+τ₂₁)以下的情况下(步骤S6_11：是)，数据修正部1061对num₂₁的值进行更新，以使num₂₁的值相对于μ₂₁的值每次远离(增大)Δ₂₁，将更新后的num₂₁的值追加到列表₂₁中(步骤S6_12)。在列表₂₁中已经记载有num₂₁的值的情况下，数据修正部1061利用新的num₂₁的值覆盖已经记载的num₂₁的值。另外，Δ₂₁是规定的值。该Δ₂₁可以是与在特征F₂₁是范畴数据的情况下使用的Δ₂₁相同的值，也可以是不同的值。τ₂₁也是规定的值。例如可考虑如3×σ₂₁样根据与特征F₂₁有关的统计值来定义τ₂₁。

在num₂₁的值为(μ₂₁+τ₂₁)以下的期间内(步骤S6_11：是)，数据修正部1061反复进行步骤S6_12的处理。

在num₂₁的值大于(μ₂₁+τ₂₁)后(步骤S6_11：否)，处理进入步骤S6_15。

此外，在num₂₁的值小于μ₂₁的值的情况下(步骤S6_10：是)，数据修正部1061对num₂₁的值和(μ₂₁-τ₂₁)进行比较(步骤S6_13)。

在num₂₁的值为(μ₂₁-τ₂₁)以上的情况下(步骤S6_13：是)，数据修正部1061对num₂₁进行更新，以使num₂₁的值相对于μ₂的值₁每次远离(减小)Δ₂₁，将更新后的num₂₁的值追加到列表₂₁中(步骤S6_14)。在列表₂₁中已经记载有num₂₁的值的情况下，数据修正部1061利用新的num₂₁的值覆盖已经记载的num₂₁的值。

在num₂₁的值为(μ₂₁-τ₂₁)以上的期间内(步骤S6_13：是)，数据修正部1061反复进行步骤S6_14的处理。

在num₂₁的值小于(μ₂₁-τ₂₁)后(步骤S6_13：否)，处理进入步骤S6_15。

在步骤S6_15中，数据修正部1061确定列表₂₁。

然后，数据修正部1061针对特征F₂₂～F_2n1，也利用相同的步骤生成列表₂₂～列表_2n1。

另外，在图18中，示出使用范畴数据的最频值(mod)的例子，但是，也可以代代替最频值(mod)而利用中央值(med)等其他统计信息。

接着，说明对特征F₁₁～F_1n1的列表F₁₁～列表和特征F₂₁～F_2n2的列表₂₁～列表_2n1进行合并的步骤。下面，假设真阳性攻击日志的数量(X)为1的情况进行说明，但是，关于X>1的情况，针对全部真阳性攻击日志，也利用相同方法进行合并。即，对根据相同的真阳性攻击日志生成的特征F₁₁～F_1n1的列表F₁₁～列表F_1n1和特征F₂₁～F_2n2的列表₂₁～列表_2n1进行合并。

首先，数据修正部1061搜索特征F₁₁～F_1n1和特征F₂₁～F_2n2中共同的特征。这里，设特征F₁₁和特征F₂₃是共同的。

在F₁₁和F₂₃是范畴数据的情况下，数据修正部1061从伪阳性正常日志倾向DB120参照与F₂₃对应的最频值(mod₂₃)。将F₂₃的特征列表list₂₃的要素的最小值和最大值分别表现为min(list₂₃)和max(list₂₃)。在mod₂₃小于min(list₂₃)的情况下，数据修正部1061从列表list₁₁中删除list₁₁的要素中的mod₂₃-α以上且min(list₂₃)+α以下的要素。在mod₂₃大于max(list₂₃)的情况下，数据修正部1061从列表list₁₁中删除list₁₁的要素中的max(list₂₃)-α以上且mod₂₃+α以下的要素。α是规定的值。

在F₁₁和F₂₃是数值数据的情况下，数据修正部1061从伪阳性正常日志倾向DB120参照与F₂₃对应的平均值(μ₂₃)。将F₂₃的特征列表list₂₃的要素的最小值和最大值分别表现为min(list₂₃)和max(list₂₃)。在μ₂₃小于min(list₂₃)的情况下，数据修正部1061从列表list₁₁中删除list₁₁的要素中的mod₂₃-β以上且min(list₂₃)+β以下的要素。在μ₂₃大于max(list₂₃)的情况下，数据修正部1061从列表list₁₁中删除list₁₁的要素中的max(list₂₃)-α以上且mod₂₃+α以下的要素。β是规定的值，例如可以如3×σ₂₃样根据与F₂₃有关的统计值进行定义。

数据修正部1061对不共同的特征F_1i的列表_1i和特征F_2i的列表_2i进行简单合并(结合)。

***实施方式的效果的说明***

在本实施方式中，也能够得到能够躲避攻击检测***的检测的伪阴性访问的攻击样本。此外，在本实施方式中，使用附近真阴性正常日志的特征中的将与附近伪阳性正常日志的特征重复的特征排除后的附近真阴性正常日志的特征对真阳性攻击日志的特征进行修正。因此，与实施方式1相比，能够得到能够更加巧妙地躲避检测的伪阴性访问的攻击样本。

以上说明了实施方式1、2，但是，也可以组合实施这2个实施方式。

或者，也可以实施这2个实施方式中的1个实施方式的一部分。

或者，也可以组合实施这2个实施方式的一部分。

此外，也可以根据需要对这2个实施方式记载的结构和步骤进行变更。

***硬件结构的补充说明***

最后，进行攻击日志生成装置100的硬件结构的补充说明。

图1所示的处理器901是进行处理的IC(Integrated Circuit：集成电路)。

处理器901是CPU(Central Processing Unit：中央处理单元)、DSP(DigitalSignal Processor：数字信号处理器)等。

图1所示的主存储装置902是RAM(Random Access Memory：随机存取存储器)。

图1所示的辅助存储装置903是ROM(Read Only Memory：只读存储器)、闪存、HDD(Hard Disk Drive：硬盘驱动器)等。

此外，在辅助存储装置903中还存储有OS(Operating System：操作***)。

而且，OS的至少一部分由处理器901执行。

处理器901一边执行OS的至少一部分，一边执行实现正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的功能的程序。

处理器901执行OS，由此进行任务管理、存储管理、文件管理、通信控制等。

此外，表示正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的处理结果的信息、数据、信号值和变量值中的至少任意一方存储于主存储装置902、辅助存储装置903、处理器901内的寄存器和高速缓冲存储器中的至少任意一方。

此外，实现正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的功能的程序也可以存储于磁盘、软盘、光盘、高密度盘、蓝光(注册商标)盘、DVD等移动记录介质。而且，也可以使存储有实现正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的功能的程序的移动记录介质流通。

此外，也可以将正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106的“部”改写成“电路”或“工序”或“步骤”或“处理”或“线路”。

此外，攻击日志生成装置100也可以通过处理电路实现。处理电路例如是逻辑IC(Integrated Circuit：集成电路)、GA(Gate Array：门阵列)、ASIC(Application SpecificIntegrated Circuit：专用集成电路)、FPGA(Field-Programmable Gate Array：现场可编程门阵列)。

该情况下，正常分类部101、检测部102、攻击生成部103、附近提取部104、倾向提取部105和特征修正部106分别作为处理电路的一部分实现。

另外，在本说明书中，将处理器和处理电路的上位概念称作“处理线路”。

即，处理器和处理电路分别是“处理线路”的具体例。

标号说明

100：攻击日志生成装置；101：正常分类部；102：检测部；103：攻击生成部；104：附近提取部；105：倾向提取部；106：特征修正部；107：修正部；111：检测躲避攻击日志DB；112：正常日志DB；113：攻击日志DB；114：正常日志统计信息DB；115：真阴性正常日志DB；116：附近真阴性正常日志DB；117：真阴性正常日志倾向DB；118：伪阳性正常日志DB；119：附近伪阳性正常日志DB；120：伪阳性正常日志倾向DB；901：处理器；902：主存储装置；903：辅助存储装置；904：键盘；905：鼠标；1031：模拟环境；1032：攻击执行部；1033：攻击模块；1034：攻击脚本DB；1035：日志收集部；1041：特征提取部；1042：特征表现部；1043：附近计算部；1051：特征提取部；1052：特征表现部；1053：重要度计算部；1054：倾向计算部；1061：数据修正部；1062：验证部。

Claims

1.一种信息处理装置，该信息处理装置具有：

提取部，其提取已判明是攻击目的的访问且攻击检测***判定为是攻击目的的访问的真阳性访问；以及

修正部，其使用已判明是正常访问且所述攻击检测***判定为是正常访问的真阴性访问的特征对所述真阳性访问的特征进行修正。

2.根据权利要求1所述的信息处理装置，其中，

所述修正部对所述真阳性访问的特征进行修正，以使所述攻击检测***将特征被修正后的所述真阳性访问即修正真阳性访问判定为是正常访问。

3.根据权利要求1所述的信息处理装置，其中，

在所述攻击检测***将特征被修正后的所述真阳性访问即修正真阳性访问判定为是攻击目的的访问的情况下，所述修正部使用所述真阴性访问的特征对所述修正真阳性访问的特征进行修正。

4.根据权利要求1所述的信息处理装置，其中，

所述修正部提取已判明是正常访问且所述攻击检测***判定为是正常访问的访问中的、具有与所述真阳性访问的特征近似的特征的访问作为所述真阴性访问，

所述修正部使用提取出的所述真阴性访问的特征对所述真阳性访问的特征进行修正。

5.根据权利要求1所述的信息处理装置，其中，

在所述真阳性访问具有多个特征的情况下，所述修正部从所述多个特征中选择符合选择条件的特征，

所述修正部使用所述真阴性访问的特征对选择出的特征进行修正。

6.根据权利要求5所述的信息处理装置，其中，

所述修正部针对所述多个特征分别计算特征的重要度，所述特征的重要度是区分所述真阳性访问和所述真阴性访问的程度，

所述修正部从所述多个特征中选择重要度符合所述选择条件的特征。

7.根据权利要求6所述的信息处理装置，其中，

所述修正部以区分所述真阳性访问和所述真阴性访问的程度高的特征的重要度变高的方式，计算所述多个特征各自的重要度。

8.根据权利要求1所述的信息处理装置，其中，

所述修正部使用已判明是正常访问但是所述攻击检测***误判定为是攻击目的的访问的伪阳性访问的特征和所述真阴性访问的特征，对所述真阳性访问的特征进行修正。

9.根据权利要求8所述的信息处理装置，其中，

在所述攻击检测***将特征被修正后的所述真阳性访问即修正真阳性访问判定为是攻击目的的访问的情况下，所述修正部使用所述伪阳性访问的特征和所述真阴性访问的特征对所述修正真阳性访问的特征进行修正。

10.根据权利要求8所述的信息处理装置，其中，

所述修正部使用所述真阴性访问的特征中的、将与所述伪阳性访问的特征重复的特征排除后的所述真阴性访问的特征，对所述真阳性访问的特征进行修正。

11.一种信息处理方法，其中，

计算机提取已判明是攻击目的的访问且攻击检测***判定为是攻击目的的访问的真阳性访问，

所述计算机使用已判明是正常访问且所述攻击检测***判定为是正常访问的真阴性访问的特征对所述真阳性访问的特征进行修正。

12.一种信息处理程序，该信息处理程序使计算机执行以下处理：

提取处理，提取已判明是攻击目的的访问且攻击检测***判定为是攻击目的的访问的真阳性访问；以及

修正处理，使用已判明是正常访问且所述攻击检测***判定为是正常访问的真阴性访问的特征对所述真阳性访问的特征进行修正。