CN109981624A

CN109981624A - 入侵检测方法、装置及存储介质

Info

Publication number: CN109981624A
Application number: CN201910201212.9A
Authority: CN
Inventors: 龙春; 魏金侠; 万巍; 赵静; 杨帆; 杜冠瑶
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-05
Anticipated expiration: 2039-03-18
Also published as: CN109981624B

Abstract

本发明实施例公开了一种入侵检测方法、装置及存储介质，涉及网络安全领域。本发明的方法包括：对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集；对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征；基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果；根据所述各样本的分类结果，对入侵检测模型进行训练。本发明能够提供模型训练的准确度，并降低模型训练的复杂度。

Description

入侵检测方法、装置及存储介质

技术领域

本发明涉及网络安全领域，尤其涉及一种入侵检测方法、装置及存储介质。

背景技术

随着机器学习技术的不断发展，用于进行模型训练的数据本身质量对机器学习效果显得尤为重要。

目前通过样本对入侵模型进行训练，然而不平衡的数据集训练出的模型很容易将量少的样本划分到量多样本的类别中，这就导致召回率和准确率往往比较低；另外，样本数据集中的大量复杂特征，给分类器的训练过程带来较大的复杂度。

发明内容

本发明的实施例提供一种样本采样方法、装置及存储介质，能够解决样本数量较少导致模型准确度低且训练复杂度高的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种入侵检测方法，包括：

对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集；

对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征；

基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果；

根据所述各样本的分类结果，对入侵检测模型进行训练。

结合第一方面，在第一方面的第一种可能的实现方式中，所述对初始样本集中的部分样本进行过采样操作，得到包含新样本的训练样本集，包括：

在所述初始样本集的各样本中筛选危险样本；

对每个所述危险样本进行过采样操作，生成对应的新样本；

将所述初始样本集中的各样本及各所述新样本，作为所述训练样本集。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述在所述初始样本集的各样本中筛选危险样本，包括：

针对初始样本集中的每个所述样本，计算对应的最近邻样本数m及量多样本数m1；

若满足m/2<m1<m，则所述样本为所述危险样本。

结合第一方面，在第一方面的第三种可能的实现方式中，所述对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征，包括：

对所述训练样本集中的各样本进行聚类处理，得到多个簇；

针对所述训练样本集中的每个所述样本，计算所述样本的一维距离值；其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述样本与簇内各近邻样本之间的距离之和，所述第二和值为所述样本与各簇聚类中心之间的距离之和。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述方法还包括：

当输入新样本时，计算该样本与各簇聚类中心之间的距离，并将所述新样本作为距离最小的簇中的一个样本；

计算所述新样本的一维距离值，所述一维距离值为第一和值与第二和值之前的和值；其中，所述第一和值为所述新样本与簇内各近邻样本之间的距离之和，所述第二和值为所述新样本与各簇聚类中心之间的距离之和；

将所述新样本的一维距离值与训练样本集的特征缩减值进行比较，得到所述新样本的分类结果。

第二方面，本发明的实施例提供一种入侵检测装置，包括：

采样模块，用于对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集；

降维模块，用于对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征；

分类模块，用于基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果；

训练模块，用于根据所述各样本的分类结果，对入侵检测模型进行训练。

结合第二方面，在第二方面的第一种可能的实现方式中，所述采样模块包括：

筛选子模块，用于在所述初始样本集的各样本中筛选危险样本；

生成子模块，用于对每个所述危险样本进行过采样操作，生成对应的新样本；并将所述初始样本集中的各样本及各所述新样本，作为所述训练样本集。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，

所述筛选子模块，还用于针对初始样本集中的每个所述样本，计算对应的最近邻样本数m及量多样本数m1；若满足m/2<m1<m，则所述样本为所述危险样本。

结合第二方面，在第二方面的第三种可能的实现方式中，

所述降维模块，用于对所述训练样本集中的各样本进行聚类处理，得到多个簇；并针对所述训练样本集中的每个所述样本，计算所述样本的一维距离值；其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述样本与簇内各近邻样本之间的距离之和，所述第二和值为所述样本与各簇聚类中心之间的距离之和。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述装置还包括：

计算模块，用于当输入新样本时，计算该样本与各簇聚类中心之间的距离，并将所述新样本作为距离最小的簇中的一个样本；并计算所述新样本的一维距离值；其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述新样本与簇内各近邻样本之间的距离之和，所述第二和值为所述新样本与各簇聚类中心之间的距离之和；

比较模块，用于将所述新样本的一维距离值与训练样本集的特征缩减值进行比较，得到所述新样本的分类结果。

第三方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现第一方面提供的方法的步骤。

本发明实施例提供的入侵检测方法、装置及存储介质，通过对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集；对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征；基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果；根据所述各样本的分类结果，对入侵检测模型进行训练。能够增大入侵检测模型训练所需的样本数量及样本质量，从而可以提高模型训练的召回率及准确率；同时，对训练样本进行降维处理，通过降维后的一维距离值进行模型训练，能够降低模型训练的复杂度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的入侵检测方法的流程示意图；

图2是本发明实施例的入侵检测方法的另一流程示意图；

图3是本发明实施例的入侵检测装置结构示意图；

图4是本发明实施例的入侵检测装置的另一结构示意图；

图5是本发明实施例的入侵检测装置500的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一实施例提供一种入侵检测方法，如图1所示，所述方法包括：

101、对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集。

对于本发明实施例，可以利用边界SMOTE(Borderline Synthetic minorityover-sampling technique，合成少数过采样技术)方法来增大高质量的样本数，从而解决数据集不平衡的问题。

在本发明实施例中，首先找出量少样本中的危险点，利用危险点与该危险点K个最近邻间距离对危险点进行过采样，形成新的样本，使整个数据集样本数量达到接***衡。

102、对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征。

对于本发明实施例，可以利用Kmeans与KNN相结合的方式，对样本的多维特征进行优化缩减，从而实现降维处理得到一维特征。

在本发明实施例中，首先对整个数据集进行聚类，得到k个簇。选定一个样本点，计算该样本点与簇内最近邻n个点的距离之和与该样本点与k个聚类中心的距离之和，将两个距离和相加获得最终距离值。以该一维距离值作为样本的特征缩减结果进行分类。

103、基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果。

104、根据所述各样本的分类结果，对入侵检测模型进行训练。

与现有技术相比，本发明实施例能够增大入侵检测模型训练所需的样本数量及样本质量，从而可以提高模型训练的召回率及准确率；同时，对训练样本进行降维处理，通过降维后的一维距离值进行模型训练，能够降低模型训练的复杂度。

本发明又一实施例提供一种入侵检测方法，如图2所示，所述方法包括：

201、在所述初始样本集的各样本中筛选危险样本。

可选地，步骤201可以为：针对初始样本集中的每个所述样本，计算对应的最近邻样本数m及量多样本数m1；若满足m/2<m1<m，则所述样本为所述危险样本。

可以理解的，上述满足条件不限为m/2<m1<m，也可以为m/3<m1<m，或可以为m/5<m1<m，或可以为2m/3<m1<m等km<m1<m的形式，其中，k可以为大于0且小于1的任意值，k值可以预先进行设置得到。

202、对每个所述危险样本进行过采样操作，生成对应的新样本。

203、将所述初始样本集中的各样本及各所述新样本，作为所述训练样本集。

对于本发明实施例，上述步骤201-203可以利用边界SMOTE方法来增大高质量的样本数，从而解决数据集不平衡的问题。

204、对所述训练样本集中的各样本进行聚类处理，得到多个簇。

205、针对所述训练样本集中的每个所述样本，计算所述样本的一维距离值。

其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述样本与簇内各近邻样本之间的距离之和，所述第二和值为所述样本与各簇聚类中心之间的距离之和。

对于本发明实施例，上述步骤204-205可以利用Kmeans与KNN相结合的方式，对样本的多维特征进行优化缩减，从而实现降维处理得到一维特征。

206、基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果。

207、根据所述各样本的分类结果，对入侵检测模型进行训练。

对于本发明实施例，当输入新样本时，计算该样本与各簇聚类中心之间的距离，并将所述新样本作为距离最小的簇中的一个样本；计算所述新样本的一维距离值，所述一维距离值为第一和值与第二和值之前的和值；其中，所述第一和值为所述新样本与簇内各近邻样本之间的距离之和，所述第二和值为所述新样本与各簇聚类中心之间的距离之和；将所述新样本的一维距离值与训练样本集的特征缩减值进行比较，得到所述新样本的分类结果。

本发明又一实施例提供一种入侵检测装置，如图3所示，所述装置包括：

采样模块31，用于对初始样本集中的部分样本进行过采样操作，得到包含新样本及初始样本的训练样本集；

降维模块32，用于对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征；

分类模块33，用于基于所述一维距离特征对所述训练样本集进行样本分类，得到各样本的分类结果；

训练模块34，用于根据所述各样本的分类结果，对入侵检测模型进行训练。

可选地，所述采样模块31包括：

所述降维模块32，用于对所述训练样本集中的各样本进行聚类处理，得到多个簇；并针对所述训练样本集中的每个所述样本，计算所述样本的一维距离值；其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述样本与簇内各近邻样本之间的距离之和，所述第二和值为所述样本与各簇聚类中心之间的距离之和。

进一步的，如图4所示，所述装置还包括：

计算模块41，用于当输入新样本时，计算该样本与各簇聚类中心之间的距离，并将所述新样本作为距离最小的簇中的一个样本；并计算所述新样本的一维距离值；其中，所述一维距离值为第一和值与第二和值之前的和值，所述第一和值为所述新样本与簇内各近邻样本之间的距离之和，所述第二和值为所述新样本与各簇聚类中心之间的距离之和；

比较模块42，用于将所述新样本的一维距离值与训练样本集的特征缩减值进行比较，得到所述新样本的分类结果。

本发明实施例还提供另一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的入侵检测方法。

本发明实施例提供的入侵检测装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的入侵检测方法、装置及存储介质可以适用于网络安全态势进行预测分析，但不仅限于此。

如图5所示，入侵检测装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，个人数字助理等。

参照图5，入侵检测装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制无人机控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令。

此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在无人机控制装置500的操作。这些数据的示例包括用于在无人机控制装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为无人机控制装置500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为无人机控制装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述无人机控制装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当无人机控制装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当无人机控制装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为无人机控制装置500提供各个方面的状态评估。例如，传感器组件514可以检测到无人机控制装置500的打开/关闭状态，组件的相对定位，例如所述组件为无人机控制装置500的显示器和小键盘，传感器组件514还可以检测无人机控制装置500或无人机控制装置500一个组件的位置改变，用户与无人机控制装置500接触的存在或不存在，无人机控制装置500方位或加速/减速和无人机控制装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于无人机控制装置500和其他设备之间有线或无线方式的通信。无人机控制装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，无人机控制装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种入侵检测方法，其特征在于，包括：

根据所述各样本的分类结果，对入侵检测模型进行训练。

2.根据权利要求1所述的入侵检测方法，其特征在于，所述对初始样本集中的部分样本进行过采样操作，得到包含新样本的训练样本集，包括：

在所述初始样本集的各样本中筛选危险样本；

对每个所述危险样本进行过采样操作，生成对应的新样本；

3.根据权利要求2所述的入侵检测方法，其特征在于，所述在所述初始样本集的各样本中筛选危险样本，包括：

若满足m/2<m1<m，则所述样本为所述危险样本。

4.根据权利要求1所述的入侵检测方法，其特征在于，所述对所述训练样本集中的各样本进行降维处理，得到各样本对应的一维距离特征，包括：

对所述训练样本集中的各样本进行聚类处理，得到多个簇；

5.根据权利要求4所述的入侵检测方法，其特征在于，所述方法还包括：

6.一种入侵检测装置，其特征在于，包括：

7.根据权利要求6所述的入侵检测装置，其特征在于，所述采样模块包括：

8.根据权利要求7所述的入侵检测装置，其特征在于，

9.根据权利要求6所述的入侵检测方装置，其特征在于，

10.根据权利要求9所述的入侵检测装置，其特征在于，所述装置还包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-5所述方法的步骤。