CN116723157A - 终端行为检测模型构建方法、装置、设备和存储介质 - Google Patents

终端行为检测模型构建方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116723157A
CN116723157A CN202310624689.4A CN202310624689A CN116723157A CN 116723157 A CN116723157 A CN 116723157A CN 202310624689 A CN202310624689 A CN 202310624689A CN 116723157 A CN116723157 A CN 116723157A
Authority
CN
China
Prior art keywords
flow
characteristic
sample
time sequence
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310624689.4A
Other languages
English (en)
Inventor
李肯立
李頔
周旭
杨圣洪
蔡宇辉
余思洋
段明星
吴帆
秦云川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310624689.4A priority Critical patent/CN116723157A/zh
Publication of CN116723157A publication Critical patent/CN116723157A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种终端行为检测模型构建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。采用本方法能够兼顾提升终端行为检测模型的训练效果和训练效率。

Description

终端行为检测模型构建方法、装置、设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种终端行为检测模型构建方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,出现了基于人工智能的流量分析技术,通过人工智能技术对终端之间的流量数据进行分析,可以检测终端是否存在异常行为。
传统技术中,通常是先抓取终端之间的流量数据包,然后通过解析流量数据包获取流量数据内部特征,然后根据流量数据内部特征训练对应的终端行为检测模型,该终端行为检测模型可以用于检测终端是否存在异常行为。
然而,终端行为检测模型作为机器学习模型,通常是基于海量数据训练得到的,因此为了获取足够量的流量数据内部特征,需要进行海量的流量数据包解析,这极大程度上增大了终端行为检测模型的训练耗时,影响终端行为检测模型的训练效率,且训练出来的终端行为检测模型难以准确检测周期性的终端行为是否异常,终端行为检测模型的训练效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种能够兼顾提升终端行为检测模型的训练效果和训练效率的终端行为检测模型构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种终端行为检测模型构建方法。所述方法包括:
获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;
分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;
根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;
获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
在其中一个实施例中,所述获取各所述流量特征时序样本对应的样本标签,包括:
分别对各所述流量特征时序样本中的流量统计特征值进行聚类,得到各所述流量特征时序样本对应的聚类结果;根据各所述聚类结果,分别对各所述流量特征时序样本进行标签标注,得到各所述样本标签。
在其中一个实施例中,所述聚类结果包括聚类中心;所述根据各所述聚类结果,分别对各所述流量特征时序样本进行标签标注,得到各所述样本标签,包括:
根据所述聚类中心所处的特征值区间,确定所述聚类中心对应的目标距离阈值;计算所述流量特征时序样本中各流量统计特征值与所述聚类中心之间的间隔距离;根据各所述间隔距离和所述目标距离阈值,对所述流量特征时序样本进行标签标注,得到所述样本标签。
在其中一个实施例中,所述样本标签包括正样本标签和负样本标签;所述根据各所述间隔距离和所述目标距离阈值,对所述流量特征时序样本进行标签标注,得到所述样本标签,包括:
若所述间隔距离不大于所述目标距离阈值,则确定所述流量特征时序样本中不存在异常流量统计特征值,为所述流量特征时序样本标注正样本标签;若所述间隔距离大于所述目标距离阈值,则确定所述流量特征时序样本中存在噪声流量统计特征值;确定所述流量特征时序样本对应的邻域流量特征时序样本,其中,所述流量特征时序样本与所述邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;若所述邻域流量特征时序样本中存在噪声流量统计特征值,则确定所述噪声流量统计特征值为异常流量统计特征值,为所述流量特征时序样本标注负样本标签;若所述邻域流量特征时序样本中不存在噪声流量统计特征值,则确定所述噪声流量统计特征值不为异常流量统计特征值,为所述流量特征时序样本标注正样本标签。
在其中一个实施例中,所述分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征,包括:
按照各所述第二终端设备的设备地址,对所述预设周期时间区间内的历史流量数据进行切分,得到各所述设备地址对应的流量切分数据;根据所述流量切分数据,确定所述第一终端设备和各所述第二终端设备之间的有效载荷量;将各所述有效载荷量组成的特征向量作为所述预设周期时间区间内的流量统计特征。
在其中一个实施例中,在所述根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型之后,所述方法还包括:
获取所述第一终端设备和各所述第二终端设备之间的实时流量数据;根据所述实时流量数据对应的实时流量统计特征和所述实时流量数据对应的当前时间区间,构造实时流量特征时序样本;基于所述当前时间区间所处的预设周期时间区间,在各所述终端行为检测模型中定位目标检测模型;基于所述目标检测模型,根据所述实时流量特征时序样本,检测所述第一终端设备在所述当前时间区间内是否存在异常行为。
第二方面,本申请还提供了一种终端行为检测模型构建装置。所述装置包括:
获取模块,用于获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;
特征提取模块,用于分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;
时序样本构造模块,用于根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;
模型构建模块,用于获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
上述终端行为检测模型构建方法、装置、计算机设备、存储介质和计算机程序产品,获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征,该流量统计特征不是流量数据的内部特征,无需解析流量数据即可获得流量统计特征,进而根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型,这样实现了根据流量统计特征与时间特征值训练终端行为检测模型,在用于训练终端行为检测模型的训练输入样本加入了时间维度,使得训练出来的终端行为检测模型对于周期性的终端行为同样具备较高的检测准确度,因此提升了终端行为检测模型的训练效果,且由于无需解析流量数据即可获得流量统计特征,这节约了获取用于训练终端行为检测模型的输入训练样本的时间,因此提升了终端行为检测模型的训练效率,所以本申请可以实现兼顾提升终端行为检测模型的训练效果和训练效率。
附图说明
图1为一个实施例中终端行为检测模型构建方法的流程示意图;
图2为一个实施例中获取各流量特征时序样本对应的样本标签的流程示意图;
图3为一个实施例中对各流量特征时序样本进行标签标注的流程示意图;
图4为另一个实施例中对各流量特征时序样本进行标签标注的流程示意图;
图5为另一个实施例中对内网中第一终端设备和各第二终端设备进行流量分析的流程示意图;
图6为一个实施例中终端行为检测模型构建装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种终端行为检测模型构建方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据。
其中,传统的网络安全解决方案中通常将网络划分为内网和外网,外网默认为不信任,内网默认为信任,因此对于内网的监控通常较弱,一旦内网发生安全事故,将会造成非常严重的安全事故。
作为一种示例,第一终端设备和第二终端设备均可以为内网终端设备,例如可以为内网的工控终端设备,第一终端设备为需要进行终端行为检测的目标终端设备,第二终端设备为与第一终端设备进行交互的对端终端设备。
作为一种示例,预设周期时间区间为预设时间周期内的时间区间,假设时间周期为一天,一天可以划分为1440分钟,则可以将每天的一分钟时间区间设置为一个预设周期时间区间,所以一共存在1440个预设周期时间区间,预设时间周期为每一天。
作为一种示例,历史流量数据可以为第一终端设备和各第二终端设备之间在一个预设周期时间区间内产生的流量数据,该流量数据可以为tcp流数据。
作为一种示例,步骤202包括:获取第一终端设备的第一设备地址,在各预设周期时间区间内分别抓取以第一设备地址为源地址以及与第一设备地址为目的地址的流量数据,得到各预设周期时间区间内的历史流量数据,其中,该历史流量数据可以抓包文件的形式存在,抓包文件的文件名称中可以包括预设周期时间区间的区间标识,该区间标识用于标识抓包文件是哪个预设周期时间区间内的流量数据。
步骤204,分别对各历史流量数据进行特征提取,得到各预设周期时间区间内的流量统计特征。
其中,流量统计特征为流量数据的统计特征,该流量统计特征无需解析历史流量数据即可获得,例如可以为报文总数、流量总数以及有效载荷量等。
作为一种示例,步骤204包括:获取各第二终端设备对应的第二设备地址,在各历史流量数据中分别将以相同第二设备地址为源地址的流量数据进行聚合,得到各预设周期时间区间内的第一流量数据集合,其中,第一流量数据集合包括各第二设备地址对应的第一流量子数据集;在各历史流量数据中分别将以相同第二设备地址为目的地址的流量数据进行聚合,得到各预设周期时间区间内的第二流量数据集合,其中,第二流量数据集合包括各第二设备地址对应的第二流量子数据集;分别获取每一预设周期时间区间内多个第一流量子数据集的第一统计特征值和多个第二流量子数据集的第二统计特征值;根据各预设周期时间区间内的第一统计特征值和第二统计特征值,构造各预设周期时间区间内的流量统计特征。
作为一种示例,流量统计特征包括流入第一终端设备的入方向的第一流量统计特征以及流出第一终端设备的出方向的第二流量统计特征;根据各预设周期时间区间内的第一统计特征值和第二统计特征值,构造各预设周期时间区间内的流量统计特征,包括:
按照各第二终端设备对应的编码位置顺序,将预设周期时间区间内的第一统计特征值排列为第一特征向量,得到预设周期时间区间内的第一流量统计特征;将预设周期时间区间内的第二统计特征值排列为第二特征向量,得到预设周期时间区间内的第二流量统计特征,其中,若第一终端设备和第二终端设备之间流入第一终端设备的入方向的流量数据为空,则对应的第一统计特征值为0,若第一终端设备和第二终端设备之间流出第一终端设备的出方向的流量数据为空,则对应的第二统计特征值为0,这样实现了通过自动进行特征工程的方式,构造各预设周期时间区间内的流量统计特征,无需人工介入,特征工程的效率更高,为提升终端行为检测模型的训练效率奠定了基础。
步骤206,根据各预设周期时间区间对应的周期时间特征值和各流量统计特征,构造各预设周期时间区间内的流量特征时序样本。
其中,周期时间特征值为预设周期时间区间的标识,用于标识预设周期时间区间,不同的预设周期时间区间对应不同的周期时间特征值,其中,还可以为每一预设周期时间区间设置2个对应的周期时间特征值,第一周期时间特征值对应该预设周期时间区间内的第一流量统计特征值,第二周期时间特征值对应该预设周期时间区间内的第二流量统计特征值,第一周期时间特征值可以为预设周期时间区间内流入第一终端设备的入方向的第一流量统计特征对应的时间特征值,第二周期时间特征值可以为预设周期时间区间内流出第一终端设备的出方向的第二流量统计特征对应的时间特征值。
作为一种示例,步骤206包括:获取各预设周期时间区间对应的第一周期时间特征值和第二周期时间特征值;将预设周期时间区间内第一流量统计特征和预设周期时间区间对应的第一周期时间特征值进行拼接,得到第一训练样本,以及将预设周期时间区间内第二流量统计特征和预设周期时间区间对应的第二周期时间特征值进行拼接,得到第二训练样本;将各预设周期时间区间内的第一训练样本和第二训练样本共同作为各流量特征时序样本。
作为一种示例,预设时间周期为每一天,获取各预设周期时间区间对应的第一周期时间特征值和第二周期时间特征值的具体计算过程如下:
P(pos,2i)=sin(pos1440)
P(pos,2i+1)=cos(pos1440)
其中,2i表示流量数据流入第一终端设备的入方向,2i+1表示流量数据流出第一终端设备的出方向,pos为预设周期时间区间在一天之中的排列顺序,假设预设周期时间区间为(0,1),则表示预设周期时间区间为一天之中的第一分钟,pos=1,P(pos,2i)为第一周期时间特征值,P(pos,2i+1)为第二周期时间特征值,1440表示一天存在1440分钟。
步骤208,获取各流量特征时序样本对应的样本标签,根据各流量特征时序样本和各样本标签,构建各预设周期时间区间对应的终端行为检测模型。
其中,样本标签用于标识流量特征时序样本中是否存在异常流量特征值,若存在异常流量特征值,则表示第一终端设备存在异常行为,若不存在异常流量特征值,则表示第一终端设备不存在异常行为。
作为一种示例,步骤208包括:对各流量特征时序样本进行标签标注,得到各样本标签;利用预设周期时间区间内的流量特征时序样本和样本标签,分别训练得到每一预设周期时间区间对应的终端行为检测模型。
作为一种示例,每一预设周期时间区间对应的终端行为检测模型可以分为第一终端行为检测模型和第二终端行为检测,第一终端行为检测模型利用预设周期时间区间的第一训练样本和第一训练样本对应的样本标签训练得到,用于预测预设周期时间区间内流入第一终端设备的入方向的终端行为是否存在异常;第二终端行为检测模型利用预设周期时间区间的第二训练样本和第二训练样本对应的样本标签训练得到,用于预测预设周期时间区间内流出第一终端设备的出方向的终端行为是否存在异常,其中,终端行为可以为终端之间的通信交互行为。
上述终端行为检测模型构建方法中,获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;分别对各历史流量数据进行特征提取,得到各预设周期时间区间内的流量统计特征,该流量统计特征不是流量数据的内部特征,无需解析流量数据即可获得流量统计特征,进而根据各预设周期时间区间对应的周期时间特征值和各流量统计特征,构造各预设周期时间区间内的流量特征时序样本;获取各流量特征时序样本对应的样本标签,根据各流量特征时序样本和各样本标签,构建各预设周期时间区间对应的终端行为检测模型,这样实现了根据流量统计特征与时间特征值训练终端行为检测模型,在用于训练终端行为检测模型的训练输入样本加入了时间维度,使得训练出来的终端行为检测模型对于周期性的终端行为同样具备较高的检测准确度,因此提升了终端行为检测模型的训练效果,且由于无需解析流量数据即可获得流量统计特征,这节约了获取用于训练终端行为检测模型的输入训练样本的时间,因此提升了终端行为检测模型的训练效率,所以可以实现兼顾提升终端行为检测模型的训练效果和训练效率。
在一个实施例中,如图2所示,获取各流量特征时序样本对应的样本标签,包括:
步骤302,分别对各流量特征时序样本中的流量统计特征值进行聚类,得到各流量特征时序样本对应的聚类结果。
其中,聚类结果包括聚类中心。
作为一种示例,步骤302包括:分别对各流量特征时序样本中的流量统计特征值进行聚类,得到各流量特征时序样本对应的聚类中心。其中,聚类算法可以为DBSCAN算法。
步骤304,根据各聚类结果,分别对各流量特征时序样本进行标签标注,得到各样本标签。
其中,样本标签可以为正样本标签或者负样本标签,正样本标签用于标识流量特征时序样本中存在异常流量统计特征值,此时第一终端设备存在异常行为,负样本标签用于标识流量特征时序样本中不存在异常流量统计特征值,此时第一终端设备不存在异常行为。
作为一种示例,步骤304包括:分别计算流量特征时序样本中各流量统计特征值与流量特征时序样本对应的聚类中心之间的距离;若距离大于预设距离阈值,则确定流量特征时序样本中存在异常流量统计特征值,为流量特征时序样本标注负样本标签;若距离不大于预设距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,为流量特征时序样本标注正样本标签。
本实施例中,通过分别对各流量特征时序样本中的流量统计特征值进行聚类,得到各流量特征时序样本对应的聚类结果;根据各聚类结果,分别对各流量特征时序样本进行标签标注,得到各样本标签,可以通过对样本中的特征值进行聚类的方式对各流量特征时序样本自动进行标签标注,无需人工进行标注,因此可以提升标签标注的效率,有助于提升终端行为检测模型的训练效率。
在一个实施例中,如图3所示,聚类结果包括聚类中心;根据各聚类结果,分别对各流量特征时序样本进行标签标注,得到各样本标签,包括:
步骤402,根据聚类中心所处的特征值区间,确定聚类中心对应的目标距离阈值;
需要说明的是,当聚类中心的取值较大时,则证明流量特征时序样本属于大流量场景,当聚类中心的取值较小时,则证明流量特征时序样本属于小流量场景,而在大流量场景和小流量场景中,对于流量特征时序样本中异常流量统计特征值的判定容忍度是不同的,大流量场景通常安全风险更高,因此大流量场景中流量特征时序样本中异常流量统计特征值的判定容忍度更低,应该设置更小的距离阈值,小流量场景通常安全风险更低,因此小流量场景中流量特征时序样本中异常流量统计特征值的判定容忍度更高,应该设置更大的距离阈值。
作为一种示例,步骤402包括:获取聚类中心的特征取值,根据特征取值的大小,定位聚类中心所处的特征值区间;根据特征值区间和距离阈值之间的映射关系,查询聚类中心对应的目标距离阈值。
步骤404,计算流量特征时序样本中各流量统计特征值与聚类中心之间的间隔距离;
步骤406,根据各间隔距离和目标距离阈值,对流量特征时序样本进行标签标注,得到样本标签。
作为一种示例,步骤404至步骤406包括:计算流量特征时序样本中各流量统计特征值与聚类中心之间的间隔距离;若间隔距离大于目标距离阈值,则确定流量特征时序样本中存在异常流量统计特征值,为流量特征时序样本标注负样本标签;若间隔距离不大于目标距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,为流量特征时序样本标注正样本标签。
上述实施例中,根据聚类中心所处的特征值区间,确定聚类中心对应的目标距离阈值,实现了根据流量特征时序样本所处的流量场景,为流量特征时序样本灵活适配对应的目标距离阈值,使得设置的目标距离阈值更为准确,从而计算流量特征时序样本中各流量统计特征值与聚类中心之间的间隔距离;根据各间隔距离和目标距离阈值,对流量特征时序样本进行标签标注,得到样本标签,可以提升标签标注的准确度,为提升终端行为检测模型的训练效果奠定了基础。
在一个实施例中,如图4所示,样本标签包括正样本标签和负样本标签;根据各间隔距离和目标距离阈值,对流量特征时序样本进行标签标注,得到样本标签,包括:
步骤502,若间隔距离不大于目标距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,为流量特征时序样本标注正样本标签;
作为一种示例,步骤502包括:若间隔距离不大于目标距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,即第一终端设备不存在异常行为,因此为流量特征时序样本标注正样本标签。
步骤504,若间隔距离大于目标距离阈值,则确定流量特征时序样本中存在噪声流量统计特征值;
步骤506,确定流量特征时序样本对应的邻域流量特征时序样本,其中,流量特征时序样本与邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;
步骤508,若邻域流量特征时序样本中存在噪声流量统计特征值,则确定噪声流量统计特征值为异常流量统计特征值,为流量特征时序样本标注负样本标签;
其中,若第一终端设备在单流量方向上对应流量特征时序样本中存在间隔距离大于目标距离阈值的流量统计特征值,单流量方向可以为流入第一终端设备的入方向或者流出第一终端设备的出方向,则原因除了第一终端设备存在异常行为之外,还有可能是网络波动或者终端之间的传输报文并没有被正确接收等其他原因造成的,若此时直接判定终端设备存在异常行为,则存在误判的可能性。
作为一种示例,步骤504至步骤508包括:若间隔距离大于目标距离阈值,则确定流量特征时序样本中存在噪声流量统计特征值,即此时可以确定第一终端设备在预设周期时间区间内单流量方向上的流量特征时序样本中存在疑似异常的流量统计特征值,该疑似异常的流量统计特征值为上述噪声流量统计特征值;确定流量特征时序样本对应的邻域流量特征时序样本,其中,流量特征时序样本与邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间,即该邻域流量特征时序样本与流量特征时序样本为相同时间周期的同一预设周期时间区间内不同流量方向的流量特征时序样本,例如时间周期为一天,预设周期时间区间为一天内的第一分钟,则流量特征时序样本可以为第一分钟内流入第一终端设备的入方向的流量数据对应的流量特征时序样本,邻域流量特征时序样本可以为第一分钟内流出第一终端设备的出方向的流量数据对应的流量特征时序样本;若邻域流量特征时序样本中同样存在噪声流量统计特征值,则确定噪声流量统计特征值为异常流量统计特征值,即第一终端设备不存在异常行为,为流量特征时序样本标注负样本标签。
步骤510,若邻域流量特征时序样本中不存在噪声流量统计特征值,则确定噪声流量统计特征值不为异常流量统计特征值,为流量特征时序样本标注正样本标签。
作为一种示例,步骤510包括:若邻域流量特征时序样本中不存在噪声流量统计特征值,则确定噪声流量统计特征值不为异常流量统计特征值,即第一终端设备不存在异常行为,为流量特征时序样本标注正样本标签。
上述实施例中,若间隔距离不大于目标距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,为流量特征时序样本标注正样本标签;若间隔距离大于目标距离阈值,则确定流量特征时序样本中存在噪声流量统计特征值;确定流量特征时序样本对应的邻域流量特征时序样本,其中,流量特征时序样本与邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;若邻域流量特征时序样本中存在噪声流量统计特征值,则确定噪声流量统计特征值为异常流量统计特征值,为流量特征时序样本标注负样本标签,若邻域流量特征时序样本中不存在噪声流量统计特征值,则确定噪声流量统计特征值不为异常流量统计特征值,为流量特征时序样本标注正样本标签,这样可以一定程度上排除网络波动或者终端之间的传输报文并没有被正确接收等原因造成的终端异常行为的误判,使得对流量特征时序样本的标签标注更为准确,为提升终端行为检测模型的训练效果奠定了基础。
在一个实施例中,分别对各历史流量数据进行特征提取,得到各预设周期时间区间内的流量统计特征,包括:
按照各第二终端设备的设备地址,对预设周期时间区间内的历史流量数据进行切分,得到各设备地址对应的流量切分数据;根据流量切分数据,确定第一终端设备和各第二终端设备之间的有效载荷量;将各有效载荷量组成的特征向量作为预设周期时间区间内的流量统计特征。
其中,历史流量数据包括预设周期时间区间内流入第一终端设备的入方向的第一流量数据和流出第一终端设备的出方向的第二流量数据。
作为一种示例,在预设周期时间区间的第一流量数据内分别将具备相同的第二终端设备的设备地址的数据进行聚合,得到各第二终端设备的地址对应的第一聚合流量数据;在预设周期时间区间的第二流量数据内分别将具备相同的第二终端设备的设备地址的数据进行聚合,得到各第二终端设备的地址对应的第二聚合流量数据;将各第一聚合流量数据和各第二聚合流量数据共同作为各设备地址对应的流量切分数据;将各第一聚合流量数据对应的有效载荷量组成的特征向量作为预设周期时间区间内的第一流量统计特征;将各第二聚合流量数据对应的有效载荷量组成的特征向量作为预设周期时间区间内的第二流量统计特征;将第一流量统计特征和第二流量统计特征共同作为预设周期时间区间内的流量统计特征。这样根据流量方向和各第二终端设备的设备地址,实现了对于预设周期时间区间内的历史流量数据的切分,再通过将切分后的流量切分数据的有效载荷量组成特征向量,可以得到预设周期时间区间内的流量统计特征,无需复杂的神经网络即可实现流量统计特征的特征提取,因此可以提升流量统计特征提取的效率,为提升终端行为检测模型的训练效率奠定了基础。
在一个实施例中,在根据各流量特征时序样本和各样本标签,构建各预设周期时间区间对应的终端行为检测模型之后,方法还包括:
获取第一终端设备和各第二终端设备之间的实时流量数据;根据实时流量数据对应的实时流量统计特征和实时流量数据对应的当前时间区间,构造实时流量特征时序样本;基于当前时间区间所处的预设周期时间区间,在各终端行为检测模型中定位目标检测模型;基于目标检测模型,根据实时流量特征时序样本,检测第一终端设备在当前时间区间内是否存在异常行为。
作为一种示例,获取第一终端设备和各第二终端设备之间的实时流量数据,并确定实时流量数据对应的当前时间区间和流量方向,流量方向包括流入第一终端设备的入方向和流出第一终端设备的出方向;获取具备相同流量方向的实时流量数据的流量统计特征值,该流量统计特征值可以为有效载荷量;根据流量方向,确定当前时间区间对应的周期时间特征值;将具备相同流量方向的流量统计特征值组成的特征向量和该流量方向对应的周期时间特征值拼接为实时流量特征时序样本;基于当前时间区间对应的预设周期时间区间和流量方向,在各终端行为检测模型中定位目标检测模型;通过将实时流量特征时序样本输入目标检测模型,检测第一终端设备在当前时间区间内是否存在异常行为,例如目标检测模型的直接输出结果可以为异常行为概率,若异常行为概率大于预设概率阈值,则确定第一终端设备在当前时间区间内存在异常行为,若异常行为概率不大于预设概率阈值,则确定第一终端设备在当前时间区间内不存在异常行为。
上述实施例中,在每一预设周期时间区间内的不同流量方向上均部署一个终端行为检测模型,可以依据这些终端行为检测模型,对不同预设周期时间区间的不同流量方向的实时流量数据进行异常行为检测,这样在异常行为过程加入了时间维度,因此可以准确检测周期性的终端行为是否异常,提升了终端行为检测的准确度。
作为一种示例,参照图5,图5为一个实施例中对内网中第一终端设备和各第二终端设备进行流量分析的流程示意图,第一终端设备和第二终端设备均为内网终端设备之一,核心交换机为各内网终端设备之间的网络交换机,流量切分指的是按照各第二终端设备的设备地址,对预设周期时间区间内的历史流量数据进行切分,得到各设备地址对应的流量切分数据,特征提取指的是流量统计特征提取,时序样本构造指的是构造流量特征时序样本,标签标注指的是为流量特征时序样本标注对应的样本标签,模型构建指的是构建各预设周期时间区间内不同流量方向的终端行为检测模型。
在一个实施例中,获取第一终端设备的第一设备地址,在各预设周期时间区间内分别抓取以第一设备地址为源地址以及与第一设备地址为目的地址的流量数据,得到各预设周期时间区间内的历史流量数据,其中,该历史流量数据可以抓包文件的形式存在,抓包文件的文件名称中可以包括预设周期时间区间的区间标识,该区间标识用于标识抓包文件是哪个预设周期时间区间内的流量数据。
在得到各预设周期时间区间内的历史流量数据之后,在预设周期时间区间的第一流量数据内分别将具备相同的第二终端设备的设备地址的数据进行聚合,得到各第二终端设备的地址对应的第一聚合流量数据;在预设周期时间区间的第二流量数据内分别将具备相同的第二终端设备的设备地址的数据进行聚合,得到各第二终端设备的地址对应的第二聚合流量数据;将各第一聚合流量数据和各第二聚合流量数据共同作为各设备地址对应的流量切分数据;将各第一聚合流量数据对应的有效载荷量组成的特征向量作为预设周期时间区间内的第一流量统计特征;将各第二聚合流量数据对应的有效载荷量组成的特征向量作为预设周期时间区间内的第二流量统计特征;将第一流量统计特征和第二流量统计特征共同作为预设周期时间区间内的流量统计特征。这样无需复杂的神经网络即可实现流量统计特征的特征提取,因此可以提升流量统计特征提取的效率,为提升终端行为检测模型的训练效率奠定了基础。
在进行特征提取得到各预设周期时间区间内的流量统计特征之后,分别对各流量特征时序样本中的流量统计特征值进行聚类,得到各流量特征时序样本对应的聚类中心;获取聚类中心的特征取值,根据特征取值的大小,定位聚类中心所处的特征值区间;根据特征值区间和距离阈值之间的映射关系,查询聚类中心对应的目标距离阈值;若间隔距离不大于目标距离阈值,则确定流量特征时序样本中不存在异常流量统计特征值,为流量特征时序样本标注正样本标签;若间隔距离大于目标距离阈值,则确定流量特征时序样本中存在噪声流量统计特征值,即此时可以确定第一终端设备在预设周期时间区间内单流量方向上的流量特征时序样本中存在疑似异常的流量统计特征值,该疑似异常的流量统计特征值为上述噪声流量统计特征值;确定流量特征时序样本对应的邻域流量特征时序样本,其中,流量特征时序样本与邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;若邻域流量特征时序样本中不存在噪声流量统计特征值,则确定噪声流量统计特征值不为异常流量统计特征值,为流量特征时序样本标注正样本标签。
这样实现了根据流量特征时序样本所处的流量场景,为流量特征时序样本灵活适配对应的目标距离阈值,使得设置的目标距离阈值更为准确,从而基于更加准确的目标距离阈值进行标签标注,可以提升标签标注的准确度,且上述实施例中在流量特征时序样本中存在噪声流量统计特征值时,会同步检测邻域流量特征时序样本中是否存在噪声流量统计特征值,若存在,则确定噪声流量统计特征值为异常流量统计特征值,为流量特征时序样本标注负样本标签,这样可以一定程度上排除网络波动或者终端之间的传输报文并没有被正确接收等原因造成的终端异常行为的误判,使得对流量特征时序样本的标签标注更为准确,为提升终端行为检测模型的训练效果奠定了基础。
进而根据各流量特征时序样本和各样本标签,构建各预设周期时间区间对应的终端行为检测模型,可以实现根据流量统计特征与时间特征值训练终端行为检测模型,在用于训练终端行为检测模型的训练输入样本加入了时间维度,使得训练出来的终端行为检测模型对于周期性的终端行为同样具备较高的检测准确度,因此提升了终端行为检测模型的训练效果,且由于无需解析流量数据即可获得流量统计特征,这节约了获取用于训练终端行为检测模型的输入训练样本的时间,因此提升了终端行为检测模型的训练效率,所以可以实现兼顾提升终端行为检测模型的训练效果和训练效率。
进一步的,在训练得到各预设周期时间区间内不同流量方向的终端行为检测模型之后,获取第一终端设备和各第二终端设备之间的实时流量数据,并确定实时流量数据对应的当前时间区间和流量方向,流量方向包括流入第一终端设备的入方向和流出第一终端设备的出方向;获取具备相同流量方向的实时流量数据的流量统计特征值,该流量统计特征值可以为有效载荷量;根据流量方向,确定当前时间区间对应的周期时间特征值;将具备相同流量方向的流量统计特征值组成的特征向量和该流量方向对应的周期时间特征值拼接为实时流量特征时序样本;基于当前时间区间对应的预设周期时间区间和流量方向,在各终端行为检测模型中定位目标检测模型;通过将实时流量特征时序样本输入目标检测模型,检测第一终端设备在当前时间区间内是否存在异常行为。这样实现在每一预设周期时间区间内的不同流量方向上均部署一个终端行为检测模型,可以依据这些终端行为检测模型,对不同预设周期时间区间的不同流量方向的实时流量数据进行异常行为检测,这样在异常行为过程加入了时间维度,因此可以准确检测周期性的终端行为是否异常,提升了终端行为检测的准确度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的终端行为检测模型构建方法的终端行为检测模型构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个终端行为检测模型构建装置实施例中的具体限定可以参见上文中对于终端行为检测模型构建方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种终端行为检测模型构建装置,包括:获取模块602、特征提取模块604、时序样本构造模块606和模型构建模块608,其中:
获取模块602,用于获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据。
特征提取模块604,用于分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征。
时序样本构造模块606,用于根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本。
模型构建模块608,用于获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
在一个实施例中,所述模型构建模块608还用于:
分别对各所述流量特征时序样本中的流量统计特征值进行聚类,得到各所述流量特征时序样本对应的聚类结果;根据各所述聚类结果,分别对各所述流量特征时序样本进行标签标注,得到各所述样本标签。
在一个实施例中,所述聚类结果包括聚类中心;所述模型构建模块608还用于:
根据所述聚类中心所处的特征值区间,确定所述聚类中心对应的目标距离阈值;计算所述流量特征时序样本中各流量统计特征值与所述聚类中心之间的间隔距离;根据各所述间隔距离和所述目标距离阈值,对所述流量特征时序样本进行标签标注,得到所述样本标签。
在一个实施例中,所述样本标签包括正样本标签和负样本标签;所述模型构建模块608还用于:
若所述间隔距离不大于所述目标距离阈值,则确定所述流量特征时序样本中不存在异常流量统计特征值,为所述流量特征时序样本标注正样本标签;若所述间隔距离大于所述目标距离阈值,则确定所述流量特征时序样本中存在噪声流量统计特征值;确定所述流量特征时序样本对应的邻域流量特征时序样本,其中,所述流量特征时序样本与所述邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;若所述邻域流量特征时序样本中存在噪声流量统计特征值,则确定所述噪声流量统计特征值为异常流量统计特征值,为所述流量特征时序样本标注负样本标签;若所述邻域流量特征时序样本中不存在噪声流量统计特征值,则确定所述噪声流量统计特征值不为异常流量统计特征值,为所述流量特征时序样本标注正样本标签。
在一个实施例中,所述特征提取模块还用于:
按照各所述第二终端设备的设备地址,对所述预设周期时间区间内的历史流量数据进行切分,得到各所述设备地址对应的流量切分数据;根据所述流量切分数据,确定所述第一终端设备和各所述第二终端设备之间的有效载荷量;将各所述有效载荷量组成的特征向量作为所述预设周期时间区间内的流量统计特征。
在一个实施例中,所述终端行为检测模型构建装置还包括:
实时流量数据获取模块,用于获取所述第一终端设备和各所述第二终端设备之间的实时流量数据;
实时时序样本构造模块,用于根据所述实时流量数据对应的实时流量统计特征和所述实时流量数据对应的当前时间区间,构造实时流量特征时序样本;
模型定位模块,用于基于所述当前时间区间所处的预设周期时间区间,在各所述终端行为检测模型中定位目标检测模型;
终端行为检测模块,用于基于所述目标检测模型,根据所述实时流量特征时序样本,检测所述第一终端设备在所述当前时间区间内是否存在异常行为。
上述终端行为检测模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储终端行为检测模型构建数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种终端行为检测模型构建方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种终端行为检测模型构建方法,其特征在于,所述方法包括:
获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;
分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;
根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;
获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取各所述流量特征时序样本对应的样本标签,包括:
分别对各所述流量特征时序样本中的流量统计特征值进行聚类,得到各所述流量特征时序样本对应的聚类结果;
根据各所述聚类结果,分别对各所述流量特征时序样本进行标签标注,得到各所述样本标签。
3.根据权利要求2所述的方法,其特征在于,所述聚类结果包括聚类中心;所述根据各所述聚类结果,分别对各所述流量特征时序样本进行标签标注,得到各所述样本标签,包括:
根据所述聚类中心所处的特征值区间,确定所述聚类中心对应的目标距离阈值;
计算所述流量特征时序样本中各流量统计特征值与所述聚类中心之间的间隔距离;
根据各所述间隔距离和所述目标距离阈值,对所述流量特征时序样本进行标签标注,得到所述样本标签。
4.根据权利要求3所述的方法,其特征在于,所述样本标签包括正样本标签和负样本标签;所述根据各所述间隔距离和所述目标距离阈值,对所述流量特征时序样本进行标签标注,得到所述样本标签,包括:
若所述间隔距离不大于所述目标距离阈值,则确定所述流量特征时序样本中不存在异常流量统计特征值,为所述流量特征时序样本标注正样本标签;
若所述间隔距离大于所述目标距离阈值,则确定所述流量特征时序样本中存在噪声流量统计特征值;
确定所述流量特征时序样本对应的邻域流量特征时序样本,其中,所述流量特征时序样本与所述邻域流量特征时序样本处于相同时间周期内的同一预设周期时间区间;
若所述邻域流量特征时序样本中存在噪声流量统计特征值,则确定所述噪声流量统计特征值为异常流量统计特征值,为所述流量特征时序样本标注负样本标签;
若所述邻域流量特征时序样本中不存在噪声流量统计特征值,则确定所述噪声流量统计特征值不为异常流量统计特征值,为所述流量特征时序样本标注正样本标签。
5.根据权利要求1所述的方法,其特征在于,所述分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征,包括:
按照各所述第二终端设备的设备地址,对所述预设周期时间区间内的历史流量数据进行切分,得到各所述设备地址对应的流量切分数据;
根据所述流量切分数据,确定所述第一终端设备和各所述第二终端设备之间的有效载荷量;
将各所述有效载荷量组成的特征向量作为所述预设周期时间区间内的流量统计特征。
6.根据权利要求1所述的方法,其特征在于,在所述根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型之后,所述方法还包括:
获取所述第一终端设备和各所述第二终端设备之间的实时流量数据;
根据所述实时流量数据对应的实时流量统计特征和所述实时流量数据对应的当前时间区间,构造实时流量特征时序样本;
基于所述当前时间区间所处的预设周期时间区间,在各所述终端行为检测模型中定位目标检测模型;
基于所述目标检测模型,根据所述实时流量特征时序样本,检测所述第一终端设备在所述当前时间区间内是否存在异常行为。
7.一种终端行为检测模型构建装置,其特征在于,所述装置包括:
获取模块,用于获取各预设周期时间区间内第一终端设备和各第二终端设备之间的历史流量数据;
特征提取模块,用于分别对各所述历史流量数据进行特征提取,得到各所述预设周期时间区间内的流量统计特征;
时序样本构造模块,用于根据各所述预设周期时间区间对应的周期时间特征值和各所述流量统计特征,构造各所述预设周期时间区间内的流量特征时序样本;
模型构建模块,用于获取各所述流量特征时序样本对应的样本标签,根据各所述流量特征时序样本和各所述样本标签,构建各所述预设周期时间区间对应的终端行为检测模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310624689.4A 2023-05-30 2023-05-30 终端行为检测模型构建方法、装置、设备和存储介质 Pending CN116723157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310624689.4A CN116723157A (zh) 2023-05-30 2023-05-30 终端行为检测模型构建方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310624689.4A CN116723157A (zh) 2023-05-30 2023-05-30 终端行为检测模型构建方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116723157A true CN116723157A (zh) 2023-09-08

Family

ID=87870797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310624689.4A Pending CN116723157A (zh) 2023-05-30 2023-05-30 终端行为检测模型构建方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116723157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828371A (zh) * 2024-03-01 2024-04-05 山东永恒电子科技有限公司 一种综合运维平台的业务信息智能分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828371A (zh) * 2024-03-01 2024-04-05 山东永恒电子科技有限公司 一种综合运维平台的业务信息智能分析方法
CN117828371B (zh) * 2024-03-01 2024-05-24 山东永恒电子科技有限公司 一种综合运维平台的业务信息智能分析方法

Similar Documents

Publication Publication Date Title
CN113645232B (zh) 一种面向工业互联网的智能化流量监测方法、***及存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
CN109840157A (zh) 故障诊断的方法、装置、电子设备和存储介质
CN113037595B (zh) 异常设备检测方法、装置、电子设备及存储介质
CN113660225A (zh) 基于时序点的网络攻击事件预测方法、***、装置及介质
CN112565187B (zh) 基于逻辑回归的电网攻击检测方法、***、设备及介质
Hariharan et al. Camlpad: Cybersecurity autonomous machine learning platform for anomaly detection
CN116723157A (zh) 终端行为检测模型构建方法、装置、设备和存储介质
CN115396204A (zh) 一种基于序列预测的工控网络流量异常检测方法及装置
CN112817785A (zh) 一种微服务***的异常检测方法及装置
CN112465045A (zh) 一种基于孪生神经网络的供应链例外事件检测方法
KR20220073314A (ko) 공정 모니터링 시스템 및 방법
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN117411703A (zh) 一种面向Modbus协议的工业控制网络异常流量检测方法
CN113222040B (zh) 海上固定目标识别方法、装置、计算机设备和存储介质
CN116893924B (zh) 设备故障处理方法、装置、电子设备和存储介质
CN111306051B (zh) 一种输油泵机组探针式状态监测预警方法、装置及***
CN108761250B (zh) 一种基于工控设备电压电流的入侵检测方法
CN113285977B (zh) 基于区块链和大数据的网络维护方法及***
CN117033913A (zh) 基于电力设备画像的异常检测方法及设备、存储介质
CN113587362A (zh) 异常检测方法、装置及空调***
CN116381419B (zh) 输电线路故障处理方法、装置、计算机设备和存储介质
CN109474618A (zh) 异常视频设备操作信令的识别方法、***、介质和终端
CN117851945A (zh) 一种银行***的应用日志异常检测方法、装置及介质
CN113347021B (zh) 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination