CN117692261B - 一种基于行为子图表征的恶意Bot识别方法 - Google Patents

一种基于行为子图表征的恶意Bot识别方法 Download PDF

Info

Publication number
CN117692261B
CN117692261B CN202410157739.7A CN202410157739A CN117692261B CN 117692261 B CN117692261 B CN 117692261B CN 202410157739 A CN202410157739 A CN 202410157739A CN 117692261 B CN117692261 B CN 117692261B
Authority
CN
China
Prior art keywords
information
user
behavior
representing
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410157739.7A
Other languages
English (en)
Other versions
CN117692261A (zh
Inventor
黄惟
刘志
刘优
徐伯辰
康占英
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Zhiwei Information Technology Co ltd
Original Assignee
Changsha Zhiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Zhiwei Information Technology Co ltd filed Critical Changsha Zhiwei Information Technology Co ltd
Priority to CN202410157739.7A priority Critical patent/CN117692261B/zh
Publication of CN117692261A publication Critical patent/CN117692261A/zh
Application granted granted Critical
Publication of CN117692261B publication Critical patent/CN117692261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/1396Protocols specially adapted for monitoring users' activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于行为子图表征的恶意Bot识别方法,通过数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;对行为信息进行映射,得到行为特征表示;基于用户信息和行为特征表示构建用户‑行为对;基于用户信息和请求数据中的访问目标信息构建用户‑访问目标对;从用户信息中分离出用户偏移信息;基于用户信息、用户偏移信息、行为信息、访问目标信息设计节点;基于用户‑行为对和用户‑访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;基于节点和权重边构建会话子图;将会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。

Description

一种基于行为子图表征的恶意Bot识别方法
技术领域
本申请涉及恶意Bot识别技术领域,特别是涉及一种基于行为子图表征的恶意Bot识别方法。
背景技术
恶意Bot识别是一种在网络和计算机***中用于检测和区分正常人类用户和自动化程序(机器人、bots)之间行为的技术。
目前,在实际的Web服务中使用图神经网络还存在以下几个问题:
1、传统的会话数据的处理一般是针对于基础的统计特征分析,一般集中在处理显性可观测的突出特征中,这种统计特征无法还原用户的行为,正常用户的统计特征较为丰富,误判概率较大;其次,统计特征在交叉计算的过程中,容易引入噪声,会对模型学习产生负面影响。
2、以往的图建模一般是以单类型信息(文本或其他信息)作为节点表示,由于会话数据的复杂性,单类型节点不满足当前节点表示的条件。
3、目前图神经网络的边设计主要依赖于自然边的形成,自然边无法捕获用户行为和访问目标之间的高阶信息,也无法反映用户的行为或访问的频率。
4、以网络的图网络分类器一般采用卷积和注意力机制进行信息的融合计算,这两种方式对于序列信息的变化过程不能很好的表示和聚合,会存在一定的交叉影响。
发明内容
基于此,有必要提供一种基于行为子图表征的恶意Bot识别方法。
本发明提供了一种基于行为子图表征的恶意Bot识别方法,该方法包括:
S1:收集访问请求数据流和行为数据流;
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息;
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对;
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对;
S4:从所述用户信息中分离出用户偏移信息;
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点;
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;
基于所述节点和所述权重边构建会话子图;
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
本发明提供的这种方法具有以下有益效果:
1、该方法摒弃了直接通过统计特征进行恶意Bot行为识别的方法,而是通过采用对行为信息进行映射等方式,只提取重要信息,可以减少交叉计算时的噪声干扰;并且通过形成节点和权重边进行图建模,最大程度的还原用户的行为特征,对识别结果有较大提升;
2、以用户信息、用户偏移信息、行为信息、访问目标信息设计节点,提高了对用户行为和访问目的的表达,进而可以更准确的检测到恶意Bot的异常行为倾向,提高了模型的泛化性以及准确性;
3、会话子图既能准确融合用户的行为信息,又能捕获行为发生之后的访问信息,获取用户行为和访问结构之间的高阶信息;其次,会话子图中的边为权重边,以反映用户的行为或访问的频率,从而增加模型检测时的信息量,对于模型的精度有很大提升;
4、采用LSTM聚合的图网络分类器,对用户信息在图运算的基础上进行序列聚合,能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果,挖掘会话子图结构的序列相关性,提高模型精度;
5、该方法能够在恶意Bot识别任务中取得较好的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于行为子图表征的恶意Bot识别方法的流程图。
图2为本申请实施例的数据缓冲区的处理流程图。
图3为本申请实施例的得到恶意Bot识别结果的流程图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示,本实施例提供了一种基于行为子图表征的恶意Bot识别方法,该方法包括:
S1:收集访问请求数据流和行为数据流。
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息。
具体的,如图2所示,数据缓冲区的处理流程包括:
步骤1:在持续产生的所述访问请求数据流和所述行为数据流中,记录会话ID以及产生所述会话ID的初始时间;
步骤2:从当前的所述会话ID对应的所述访问请求数据流以及所述行为数据流中提取出所述用户会话数据,并记录发生时间;
步骤3:当会话ID对应的所述初始时间与所述发生时间之间的间隔大于设定时间间隔时,判定会话过期,以所述会话ID对应的所述用户会话数据进行S3;
否则,判定会话未过期,重复执行步骤2,直至未产生所述访问请求数据流和所述行为数据流。
传统的数据缓冲区的设置方式有很多,而且应用比较成熟,例如内存缓存、数据库存储、文件***存储等。考虑到服务器面临着大量并发访问的需求,数据缓冲区的设置应当支持这种高负载的要求,在本实施例中使用数据库存储的方式进行数据缓冲区的设置,通过服务器标记的同一会话ID统计和整合同一个用户的会话数据,考虑到正常用户的行为响应和会话序列模式,将所述设定时间间隔为5分钟,这样可以得到在过去5分钟内某个用户的所有会话数据。
通过该数据缓冲区从数据流中获取用户会话数据,有利于模拟用户的行为,统计用户的操作方式,提高检测的效果;其次,记录发生时间有利于获取时间差信息,进而通过设置边权重将时间特征融合到模型中,提高模型的检测精度。
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对。
具体的,构建用户-行为对的过程包括:
步骤1:所述行为信息为前端事件行为的数据,其包括但不限于鼠标活动和键盘活动;
采用d维特征对所述行为信息进行映射,d维特征的前段、中段和后段分别表示鼠标坐标位置、键盘输入的键、鼠标滚动的方向;
步骤2:对所述鼠标坐标位置、所述键盘输入的键、所述鼠标滚动的方向分别进行映射,得到三种不同的正态分布;
步骤3:拼接三种不同的所述正态分布,得到所述行为特征表示,计算公式为:
其中,N a 表示行为特征表示;Norm(pos)表示鼠标坐标位置的正态分布;Norm(loc)表示键盘输入的键的正态分布;Norm(direct)表示鼠标滚动的方向的正态分布;表示d维实数域;
步骤4:提取当前的所述用户会话数据中用户的用户代理、请求头,以所述用户的用户代理、请求头以及所述用户会话数据对应的会话ID作为用户信息,并记录第二发生时间;
步骤5:根据所述用户信息、所述行为特征表示以及所述第二发生时间,构建所述用户-行为对;所述用户-行为对记为:,其中,N u 表示用户信息,T 2表示第二发生时间。
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对。
具体的,构建用户-访问目标对的过程包括:
提取当前的所述用户会话数据中所述请求数据中的访问目标信息,并记录第三发生时间;
所述访问目标信息包括URL、响应码、请求方法;
根据所述用户信息、所述访问目标信息以及所述第三发生时间,构建所述用户-访问目标对;所述用户-访问目标对记为:,其中,N u 表示用户信息,N t 表示访问目标信息,T 3表示第三发生时间。
进一步的,S3步骤还包括:过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息,经过S3,得到多个所述用户-行为对以及多个所述用户-访问目标对。
传统的会话数据的处理一般是针对于基础的统计特征分析,一般集中在处理显性可观测的突出特征中,例如:会话中URL重复比、URL种类、Cookie重复比等字段的统计值,以及行为统计特征如鼠标点击次数等;但是,这种统计特征无法还原用户的行为,正常用户的统计特征较为丰富,误判概率较大;其次,统计特征在交叉计算的过程中,容易引入噪声,会对模型学习产生负面影响。因此,本实施例通过构建用户-行为对、用户-访问目标对,最大程度的还原用户的行为特征,并且,依赖于图神经网络的学习,本实施例仅提取代表节点的重点信息,防止噪声干扰。
相比较于传统的会话数据的处理方式,本实施例的构建过程只提取重要信息,可以减少交叉计算时的噪声干扰;其次,行为特征表示可以形成图节点,基于构建的用户-行为对、用户-访问目标对可以得到权重边,通过图建模还原用户的行为特征,对预测恶意Bot识别结果有较大的提升。
S4:从所述用户信息中分离出用户偏移信息。
具体的,所述从所述用户信息中分离出用户偏移信息包括:
在所有所述用户信息中,判断是否存在与当前所述用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息,若不存在则将当前所述用户信息作为所述用户偏移信息,否则对当前所述用户信息不做任何处理。
目前现有的分类技术主要是基于特征提取并使用机器学习模型如聚类分析进行分类,或者采用分类模型例如马尔科夫链、GRU模型等等,这样往往是根据时序特征或者统计特征表示进行分类;由于用户会话结构的复杂性和多样性,这种方式不能考虑用户操作行为和访问行为之间存在的关联,获取不到隐藏的高阶信息,而在恶意Bot识别任务中,这种用户行为和访问之间存在的高阶信息也是影响分类精度的关键特征,由于图神经网络可以融合和提取节点之间的高阶表示,因此,本实施例使用图神经网络的方法对点与点之间的关联进行表示更为准确。
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点。
具体的,所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括:
步骤1:采用字符分词的形式分别对所述用户信息、所述用户偏移信息、所述访问目标信息进行分词;
步骤2:采用随机词嵌入的方式对分词结果进行词嵌入表示,得到信息集合;计算公式为:
其中,V N 表示信息集合,embedding()表示词向量映射;set()表示集合生成;N u 表示用户信息;N' u 表示用户偏移信息;N t 表示访问目标信息;/>表示d维实数域;
步骤3:将所述行为特征表示与所述信息集合拼接,得到所有的节点;计算公式为:
V=V N ||N a
其中,V表示所有的节点,n表示节点的数量;N a 表示行为特征表示。
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边。
目前图神经网络的边设计主要依赖于自然边的形成,例如:上述过程中已经形成的用户-行为对、用户-访问目标对,然而这种自然边在恶意Bot任务上仍然存在着两个缺陷,一是无法捕获用户行为和访问目标之间的高阶信息,行为的发生可能会触发一定的访问目标,这两者之间有着隐藏关联;二是无法反映用户的行为或访问的频率,访问和行为的时间对检测恶意Bot有极为重要的影响。因此,在边设计中增加用户-偏移用户对加入会话子图中,可以捕获用户行为和访问目标之间的高阶信息,同时,根据节点与节点之间时间差值将边信息设置为时序权重边。
具体的,得到权重边的过程包括:
步骤1:设计一初始关联矩阵表示边的连接关系,并将所述初始关联矩阵初始化为0;n表示节点的数量;
步骤2:基于初始化的所述初始关联矩阵,按照发生时间的顺序读取所有的所述用户-行为对与所有所述用户-访问目标对之间的连接关系,得到所述关联矩阵;计算公式为:
其中,A ij 表示第i个节点与第j个节点之间的边的权重值;T i 表示第i个节点对应的发生时间;T j 表示第j个节点对应的发生时间;N u 表示用户信息;N a 表示行为特征表示;N t 表示访问目标信息;S表示所有用户信息构成的集合;
对步骤2中的公式进行说明,当此时的用户信息对应的节点i与某个节点j相关时,边的权重为A ij =T j ;同时将用户信息加入到所有用户信息构成的集合中,对比用户信息的集合中是否存在与当前用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息对应的节点,若不存在则记录当前的用户偏移信息对应的节点i,并构建用户-偏移用户信息对,则用户-偏移用户信息对这条边的权重为A (i-1)i =T i ,并将用户偏移信息加入到用户信息的集合中。
步骤3:对所述关联矩阵进行归一化,并以归一化后的关联矩阵作为所述权重边。由于时间差作为权重无法进行直接计算,而且对计算结果偏向有很大影响,因此对其进行归一化,时间间隔越小,权重值越大,采用5分钟对其规约到0-1之间,归一化计算公式为:
其中,A表示归一化后的关联矩阵;A 2表示关联矩阵。
相比于自然边来设计边,通过增加用户-偏移用户对加入会话子图中,既能准确融合用户的行为信息,又能捕获行为发生之后的访问信息,获取用户行为和访问结构之间的高阶信息,其次,根据节点与节点之间时间差值将边信息设置为时序权重边,能够反映用户的行为或访问的频率,从而增加模型检测时的信息量,对于模型的精度有很大提升。
基于所述节点和所述权重边构建会话子图。
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
具体的,如图3所示,得到恶意Bot识别结果的过程包括:
步骤1:在基于LSTM聚合的图网络分类器的第k层中,输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算,得到邻接节点的信息表示;计算公式为:
其中,表示LSTM聚合的图网络分类器第k层中第i个邻接节点的信息表示;/>表示第i个节点的邻居集合;A ji 表示第j个节点与第i个节点之间的边的权重值;
对所有的节点的信息表示及其对应的所述权重边进行计算,得到所有的邻接节点的信息表示,所有的邻接节点的信息表示记为:n表示节点的数量;d表示d维实数域;
步骤2:所有的邻接节点的信息表示通过LSTM聚合的图网络分类器中的源节点更新模块进行计算,得到更新后的节点的信息表示;计算公式为:
其中,h k 表示更新后的节点的信息表示;σ(·)表示非线性激活函数;W 1表示第一可训练矩阵,W 2表示第二可训练矩阵,/>
步骤3:以LSTM聚合的图网络分类器的层数为终止条件,重复执行步骤1-2,得到最终节点的信息表示;
步骤4:基于所述最终节点的信息表示计算得到所述恶意Bot识别结果;对最终节点的信息表示去平均值,此时输出信息的维度为d,然后经过一个全连接层将维度降为2,计算公式为:
其中,y表示恶意Bot识别结果,所述恶意Bot识别结果为二分类结果,其包括恶意Bot或正常用户;h L 表示最终节点的信息表示,L为LSTM聚合的图网络分类器的层数;Mean(·)表示平均值函数;W 0表示全连接层中的第三可训练矩阵;b 0表示全连接层中的第四可训练矩阵。
以往的图网络分类器一般采用卷积和注意力机制进行信息的融合计算,这两种方式对于离散节点有很好的效果,但是,对于序列信息的变化过程不能很好地表示,为了更好的捕捉用户偏移信息相对于用户信息的变化和偏移效果,采用基于LSTM聚合的图网络分类器,对用户信息的序列在图运算的基础上进行序列聚合,能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果,挖掘会话子图结构的序列相关性,提高模型精度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于行为子图表征的恶意Bot识别方法,其特征在于,包括:
S1:收集访问请求数据流和行为数据流;
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息;
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对;
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对;
S4:从所述用户信息中分离出用户偏移信息;
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点;
所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括:
步骤1:采用字符分词的形式分别对所述用户信息、所述用户偏移信息、所述访问目标信息进行分词;
步骤2:采用随机词嵌入的方式对分词结果进行词嵌入表示,得到信息集合;计算公式为:
其中,V N 表示信息集合,embedding()表示词向量映射;set()表示集合生成;N u 表示用户信息;N' u 表示用户偏移信息;N t 表示访问目标信息;/>表示d维实数域;
步骤3:将所述行为特征表示与所述信息集合拼接,得到所有的节点;计算公式为:
V=V N ||N a
其中,V表示所有的节点,n表示节点的数量;N a 表示行为特征表示;
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;
得到权重边的过程包括:
步骤1:设计一初始关联矩阵表示边的连接关系,并将所述初始关联矩阵初始化为0;n表示节点的数量;
步骤2:基于初始化的所述初始关联矩阵,按照发生时间的顺序读取所有的所述用户-行为对与所有所述用户-访问目标对之间的连接关系,得到所述关联矩阵;计算公式为:
其中,A ij 表示第i个节点与第j个节点之间的边的权重值;T i 表示第i个节点对应的发生时间;T j 表示第j个节点对应的发生时间;N u 表示用户信息;N a 表示行为特征表示;N t 表示访问目标信息;S表示所有用户信息构成的集合;
步骤3:对所述关联矩阵进行归一化,并以归一化后的关联矩阵作为所述权重边;归一化计算公式为:
其中,A表示归一化后的关联矩阵;A 2表示关联矩阵;
基于所述节点和所述权重边构建会话子图;
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果;
得到恶意Bot识别结果的过程包括:
步骤1:输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算,得到邻接节点的信息表示;计算公式为:
其中,表示LSTM聚合的图网络分类器第k层中第i个邻接节点的信息表示;/>表示第i个节点的邻居集合;A ji 表示第j个节点与第i个节点之间的边的权重值;
对所有的节点的信息表示及其对应的所述权重边进行计算,得到所有的邻接节点的信息表示,所有的邻接节点的信息表示记为:n表示节点的数量;d表示d维实数域;
步骤2:所有的邻接节点的信息表示通过LSTM聚合的图网络分类器中的源节点更新模块进行计算,得到更新后的节点的信息表示;计算公式为:
其中,h k 表示更新后的节点的信息表示;σ(·)表示非线性激活函数;W 1表示第一可训练矩阵,W 2表示第二可训练矩阵,/>
步骤3:以LSTM聚合的图网络分类器的层数为终止条件,重复执行步骤1-2,得到最终节点的信息表示;
步骤4:基于所述最终节点的信息表示计算得到所述恶意Bot识别结果;计算公式为:
其中,y表示恶意Bot识别结果,所述恶意Bot识别结果为二分类结果,其包括恶意Bot或正常用户;h L 表示最终节点的信息表示,L为LSTM聚合的图网络分类器的层数;Mean(·)表示平均值函数;W 0表示全连接层中的第三可训练矩阵;b 0表示全连接层中的第四可训练矩阵。
2.根据权利要求1所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S2中,数据缓冲区的处理流程包括:
步骤1:在持续产生的所述访问请求数据流和所述行为数据流中,记录会话ID以及产生所述会话ID的初始时间;
步骤2:从当前的所述会话ID对应的所述访问请求数据流以及所述行为数据流中提取出所述用户会话数据,并记录发生时间;
步骤3:当会话ID对应的所述初始时间与所述发生时间之间的间隔大于设定时间间隔时,判定会话过期,以所述会话ID对应的所述用户会话数据进行S3;
否则,判定会话未过期,重复执行步骤2,直至未产生所述访问请求数据流和所述行为数据流。
3.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,所述设定时间间隔为5分钟。
4.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,构建用户-行为对的过程包括:
步骤1:所述行为信息为前端事件行为的数据,其包括鼠标活动和键盘活动;
采用d维特征对所述行为信息进行映射,d维特征的前段、中段和后段分别表示鼠标坐标位置、键盘输入的键、鼠标滚动的方向;
步骤2:对所述鼠标坐标位置、所述键盘输入的键、所述鼠标滚动的方向分别进行映射,得到三种不同的正态分布;
步骤3:拼接三种不同的所述正态分布,得到所述行为特征表示,计算公式为:
其中,N a 表示行为特征表示;Norm(pos)表示鼠标坐标位置的正态分布;Norm(loc)表示键盘输入的键的正态分布;Norm(direct)表示鼠标滚动的方向的正态分布;表示d维实数域;
步骤4:提取当前的所述用户会话数据中用户的用户代理、请求头,以所述用户的用户代理、请求头以及所述用户会话数据对应的会话ID作为用户信息,并记录第二发生时间;
步骤5:根据所述用户信息、所述行为特征表示以及所述第二发生时间,构建所述用户-行为对;所述用户-行为对记为:,其中,N u 表示用户信息,T 2表示第二发生时间。
5.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,所述基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对包括:
提取当前的所述用户会话数据中所述请求数据中的访问目标信息,并记录第三发生时间;
所述访问目标信息包括URL、响应码、请求方法;
根据所述用户信息、所述访问目标信息以及所述第三发生时间,构建所述用户-访问目标对;所述用户-访问目标对记为:,其中,N u 表示用户信息,N t 表示访问目标信息,T 3表示第三发生时间。
6.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,还包括:过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息,经过S3,得到多个所述用户-行为对以及多个所述用户-访问目标对。
7.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S4中,所述从所述用户信息中分离出用户偏移信息包括:
在所有所述用户信息中,判断是否存在与当前所述用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息,若不存在则将当前所述用户信息作为所述用户偏移信息,否则对当前所述用户信息不做任何处理。
CN202410157739.7A 2024-02-04 2024-02-04 一种基于行为子图表征的恶意Bot识别方法 Active CN117692261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410157739.7A CN117692261B (zh) 2024-02-04 2024-02-04 一种基于行为子图表征的恶意Bot识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410157739.7A CN117692261B (zh) 2024-02-04 2024-02-04 一种基于行为子图表征的恶意Bot识别方法

Publications (2)

Publication Number Publication Date
CN117692261A CN117692261A (zh) 2024-03-12
CN117692261B true CN117692261B (zh) 2024-04-05

Family

ID=90137603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410157739.7A Active CN117692261B (zh) 2024-02-04 2024-02-04 一种基于行为子图表征的恶意Bot识别方法

Country Status (1)

Country Link
CN (1) CN117692261B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3223458A1 (en) * 2016-03-24 2017-09-27 Cisco Technology, Inc. Mechanisms to prevent anomaly detectors from learning anomalous patterns
CN109858244A (zh) * 2019-01-16 2019-06-07 四川大学 一种容器内进程异常行为检测方法与***
CN113961922A (zh) * 2021-10-27 2022-01-21 浙江网安信创电子技术有限公司 一种基于深度学习的恶意软件行为检测与分类***
CN113992349A (zh) * 2021-09-23 2022-01-28 云南财经大学 恶意流量识别方法、装置、设备和存储介质
CN114422211A (zh) * 2021-12-30 2022-04-29 中国人民解放军战略支援部队信息工程大学 基于图注意力网络的http恶意流量检测方法及装置
WO2022088972A1 (zh) * 2020-10-30 2022-05-05 广州大学 面向带权异质图的恶意行为识别方法、***和存储介质
CN115758355A (zh) * 2022-11-21 2023-03-07 中国科学院信息工程研究所 一种基于细粒度访问控制的勒索软件防御方法及***
CN117014182A (zh) * 2023-06-28 2023-11-07 中国人民解放***箭军工程大学 一种基于lstm的恶意流量检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034737A1 (en) * 2019-07-30 2021-02-04 Sakif Hossain Khan Detection of adverserial attacks on graphs and graph subsets
US11399037B2 (en) * 2019-09-06 2022-07-26 Paypal, Inc. Anomaly behavior detection in interactive networks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3223458A1 (en) * 2016-03-24 2017-09-27 Cisco Technology, Inc. Mechanisms to prevent anomaly detectors from learning anomalous patterns
CN109858244A (zh) * 2019-01-16 2019-06-07 四川大学 一种容器内进程异常行为检测方法与***
WO2022088972A1 (zh) * 2020-10-30 2022-05-05 广州大学 面向带权异质图的恶意行为识别方法、***和存储介质
CN113992349A (zh) * 2021-09-23 2022-01-28 云南财经大学 恶意流量识别方法、装置、设备和存储介质
CN113961922A (zh) * 2021-10-27 2022-01-21 浙江网安信创电子技术有限公司 一种基于深度学习的恶意软件行为检测与分类***
CN114422211A (zh) * 2021-12-30 2022-04-29 中国人民解放军战略支援部队信息工程大学 基于图注意力网络的http恶意流量检测方法及装置
CN115758355A (zh) * 2022-11-21 2023-03-07 中国科学院信息工程研究所 一种基于细粒度访问控制的勒索软件防御方法及***
CN117014182A (zh) * 2023-06-28 2023-11-07 中国人民解放***箭军工程大学 一种基于lstm的恶意流量检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于大数据的网络恶意行为及特征关联分析;王传栋;叶青;姚橹;刘尚东;季一木;王汝传;;太原理工大学学报;20180315(02);全文 *
基于程序基因的恶意程序预测技术.;肖达;刘博寒;崔宝江;王晓晨;张索星;;网络与信息安全学报;20180815(08);全文 *
恶意社交机器人检测技术研究;刘蓉;陈波;于泠;刘亚尚;陈思远;;通信学报;20171130(S2);全文 *
网络域名用户异常访问行为信息精准识别仿真;穆荣;;计算机仿真;20180715(07);全文 *

Also Published As

Publication number Publication date
CN117692261A (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
Yao et al. Unsupervised anomaly detection using variational auto-encoder based feature extraction
CN108737406B (zh) 一种异常流量数据的检测方法及***
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测***
CN113468227B (zh) 基于图神经网络的信息推荐方法、***、设备和存储介质
Liang et al. Multi-scale dynamic adaptive residual network for fault diagnosis
Li et al. Shilling attack detection in recommender systems via selecting patterns analysis
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN113127705B (zh) 一种异构双向生成对抗网络模型及时间序列异常检测方法
Nie et al. Implicit weight learning for multi-view clustering
Cheong et al. Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm
CN109033845B (zh) 基于文件访问记录时空分析的伪装者检测方法及***
Hewapathirana Change detection in dynamic attributed networks
CN114707571A (zh) 基于增强隔离森林的信用数据异常检测方法
Rahman et al. New biostatistics features for detecting web bot activity on web applications
Xue et al. An anomaly detection framework for time-evolving attributed networks
CN115438102A (zh) 时空数据异常识别方法、装置和电子设备
Qin et al. Finger-vein quality assessment based on deep features from grayscale and binary images
Zhu et al. Anomaly detection with deep graph autoencoders on attributed networks
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
CN110347669A (zh) 基于流式大数据分析的风险防范方法
Kang et al. Self-paced principal component analysis
CN111612531B (zh) 一种点击欺诈的检测方法及***
CN117692261B (zh) 一种基于行为子图表征的恶意Bot识别方法
CN117009613A (zh) 一种图数据分类方法、***、装置及介质
CN114912109B (zh) 一种基于图嵌入的异常行为序列识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant