CN117692261B

CN117692261B - 一种基于行为子图表征的恶意Bot识别方法

Info

Publication number: CN117692261B
Application number: CN202410157739.7A
Authority: CN
Inventors: 黄惟; 刘志; 刘优; 徐伯辰; 康占英; 王青
Original assignee: Changsha Zhiwei Information Technology Co ltd
Current assignee: Changsha Zhiwei Information Technology Co ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-04-05
Anticipated expiration: 2044-02-04
Also published as: CN117692261A

Abstract

本申请涉及一种基于行为子图表征的恶意Bot识别方法，通过数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据；对行为信息进行映射，得到行为特征表示；基于用户信息和行为特征表示构建用户‑行为对；基于用户信息和请求数据中的访问目标信息构建用户‑访问目标对；从用户信息中分离出用户偏移信息；基于用户信息、用户偏移信息、行为信息、访问目标信息设计节点；基于用户‑行为对和用户‑访问目标对之间的连接关系，得到关联矩阵；以归一化后的关联矩阵作为权重边；基于节点和权重边构建会话子图；将会话子图输入至基于LSTM聚合的图网络分类器，得到最终节点的信息表示；基于最终节点的信息表示得到恶意Bot识别结果。

Description

一种基于行为子图表征的恶意Bot识别方法

技术领域

本申请涉及恶意Bot识别技术领域，特别是涉及一种基于行为子图表征的恶意Bot识别方法。

背景技术

恶意Bot识别是一种在网络和计算机***中用于检测和区分正常人类用户和自动化程序（机器人、bots）之间行为的技术。

目前，在实际的Web服务中使用图神经网络还存在以下几个问题：

1、传统的会话数据的处理一般是针对于基础的统计特征分析，一般集中在处理显性可观测的突出特征中，这种统计特征无法还原用户的行为，正常用户的统计特征较为丰富，误判概率较大；其次，统计特征在交叉计算的过程中，容易引入噪声，会对模型学习产生负面影响。

2、以往的图建模一般是以单类型信息（文本或其他信息）作为节点表示，由于会话数据的复杂性，单类型节点不满足当前节点表示的条件。

3、目前图神经网络的边设计主要依赖于自然边的形成，自然边无法捕获用户行为和访问目标之间的高阶信息，也无法反映用户的行为或访问的频率。

4、以网络的图网络分类器一般采用卷积和注意力机制进行信息的融合计算，这两种方式对于序列信息的变化过程不能很好的表示和聚合，会存在一定的交叉影响。

发明内容

基于此，有必要提供一种基于行为子图表征的恶意Bot识别方法。

本发明提供了一种基于行为子图表征的恶意Bot识别方法，该方法包括：

S1：收集访问请求数据流和行为数据流；

S2：设置一数据缓冲区，通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据；

所述用户会话数据包括用户信息、请求数据和行为信息；

S3：对所述行为信息进行映射，得到行为特征表示；

基于所述用户信息和所述行为特征表示构建用户-行为对；

基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对；

S4：从所述用户信息中分离出用户偏移信息；

基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点；

基于所述用户-行为对和所述用户-访问目标对之间的连接关系，得到关联矩阵；以归一化后的关联矩阵作为权重边；

基于所述节点和所述权重边构建会话子图；

S5：将所述会话子图输入至基于LSTM聚合的图网络分类器，得到最终节点的信息表示；基于最终节点的信息表示得到恶意Bot识别结果。

本发明提供的这种方法具有以下有益效果：

1、该方法摒弃了直接通过统计特征进行恶意Bot行为识别的方法，而是通过采用对行为信息进行映射等方式，只提取重要信息，可以减少交叉计算时的噪声干扰；并且通过形成节点和权重边进行图建模，最大程度的还原用户的行为特征，对识别结果有较大提升；

2、以用户信息、用户偏移信息、行为信息、访问目标信息设计节点，提高了对用户行为和访问目的的表达，进而可以更准确的检测到恶意Bot的异常行为倾向，提高了模型的泛化性以及准确性；

3、会话子图既能准确融合用户的行为信息，又能捕获行为发生之后的访问信息，获取用户行为和访问结构之间的高阶信息；其次，会话子图中的边为权重边，以反映用户的行为或访问的频率，从而增加模型检测时的信息量，对于模型的精度有很大提升；

4、采用LSTM聚合的图网络分类器，对用户信息在图运算的基础上进行序列聚合，能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果，挖掘会话子图结构的序列相关性，提高模型精度；

5、该方法能够在恶意Bot识别任务中取得较好的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的基于行为子图表征的恶意Bot识别方法的流程图。

图2为本申请实施例的数据缓冲区的处理流程图。

图3为本申请实施例的得到恶意Bot识别结果的流程图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似改进，因此本申请不受下面公开的具体实施例的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如图1所示，本实施例提供了一种基于行为子图表征的恶意Bot识别方法，该方法包括：

S1：收集访问请求数据流和行为数据流。

所述用户会话数据包括用户信息、请求数据和行为信息。

具体的，如图2所示，数据缓冲区的处理流程包括：

步骤1：在持续产生的所述访问请求数据流和所述行为数据流中，记录会话ID以及产生所述会话ID的初始时间；

步骤2：从当前的所述会话ID对应的所述访问请求数据流以及所述行为数据流中提取出所述用户会话数据，并记录发生时间；

步骤3：当会话ID对应的所述初始时间与所述发生时间之间的间隔大于设定时间间隔时，判定会话过期，以所述会话ID对应的所述用户会话数据进行S3；

否则，判定会话未过期，重复执行步骤2，直至未产生所述访问请求数据流和所述行为数据流。

传统的数据缓冲区的设置方式有很多，而且应用比较成熟，例如内存缓存、数据库存储、文件***存储等。考虑到服务器面临着大量并发访问的需求，数据缓冲区的设置应当支持这种高负载的要求，在本实施例中使用数据库存储的方式进行数据缓冲区的设置，通过服务器标记的同一会话ID统计和整合同一个用户的会话数据，考虑到正常用户的行为响应和会话序列模式，将所述设定时间间隔为5分钟，这样可以得到在过去5分钟内某个用户的所有会话数据。

通过该数据缓冲区从数据流中获取用户会话数据，有利于模拟用户的行为，统计用户的操作方式，提高检测的效果；其次，记录发生时间有利于获取时间差信息，进而通过设置边权重将时间特征融合到模型中，提高模型的检测精度。

S3：对所述行为信息进行映射，得到行为特征表示；

基于所述用户信息和所述行为特征表示构建用户-行为对。

具体的，构建用户-行为对的过程包括：

步骤1：所述行为信息为前端事件行为的数据，其包括但不限于鼠标活动和键盘活动；

采用d维特征对所述行为信息进行映射，d维特征的前段、中段和后段分别表示鼠标坐标位置、键盘输入的键、鼠标滚动的方向；

步骤2：对所述鼠标坐标位置、所述键盘输入的键、所述鼠标滚动的方向分别进行映射，得到三种不同的正态分布；

步骤3：拼接三种不同的所述正态分布，得到所述行为特征表示，计算公式为：

；

其中，N _a表示行为特征表示；Norm(pos)表示鼠标坐标位置的正态分布；Norm(loc)表示键盘输入的键的正态分布；Norm(direct)表示鼠标滚动的方向的正态分布；表示d维实数域；

步骤4：提取当前的所述用户会话数据中用户的用户代理、请求头，以所述用户的用户代理、请求头以及所述用户会话数据对应的会话ID作为用户信息，并记录第二发生时间；

步骤5：根据所述用户信息、所述行为特征表示以及所述第二发生时间，构建所述用户-行为对；所述用户-行为对记为：，其中，N _u表示用户信息，T ₂表示第二发生时间。

基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对。

具体的，构建用户-访问目标对的过程包括：

提取当前的所述用户会话数据中所述请求数据中的访问目标信息，并记录第三发生时间；

所述访问目标信息包括URL、响应码、请求方法；

根据所述用户信息、所述访问目标信息以及所述第三发生时间，构建所述用户-访问目标对；所述用户-访问目标对记为：，其中，N _u表示用户信息，N _t表示访问目标信息，T ₃表示第三发生时间。

进一步的，S3步骤还包括：过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息，经过S3，得到多个所述用户-行为对以及多个所述用户-访问目标对。

传统的会话数据的处理一般是针对于基础的统计特征分析，一般集中在处理显性可观测的突出特征中，例如：会话中URL重复比、URL种类、Cookie重复比等字段的统计值，以及行为统计特征如鼠标点击次数等；但是，这种统计特征无法还原用户的行为，正常用户的统计特征较为丰富，误判概率较大；其次，统计特征在交叉计算的过程中，容易引入噪声，会对模型学习产生负面影响。因此，本实施例通过构建用户-行为对、用户-访问目标对，最大程度的还原用户的行为特征，并且，依赖于图神经网络的学习，本实施例仅提取代表节点的重点信息，防止噪声干扰。

相比较于传统的会话数据的处理方式，本实施例的构建过程只提取重要信息，可以减少交叉计算时的噪声干扰；其次，行为特征表示可以形成图节点，基于构建的用户-行为对、用户-访问目标对可以得到权重边，通过图建模还原用户的行为特征，对预测恶意Bot识别结果有较大的提升。

S4：从所述用户信息中分离出用户偏移信息。

具体的，所述从所述用户信息中分离出用户偏移信息包括：

在所有所述用户信息中，判断是否存在与当前所述用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息，若不存在则将当前所述用户信息作为所述用户偏移信息，否则对当前所述用户信息不做任何处理。

目前现有的分类技术主要是基于特征提取并使用机器学习模型如聚类分析进行分类，或者采用分类模型例如马尔科夫链、GRU模型等等，这样往往是根据时序特征或者统计特征表示进行分类；由于用户会话结构的复杂性和多样性，这种方式不能考虑用户操作行为和访问行为之间存在的关联，获取不到隐藏的高阶信息，而在恶意Bot识别任务中，这种用户行为和访问之间存在的高阶信息也是影响分类精度的关键特征，由于图神经网络可以融合和提取节点之间的高阶表示，因此，本实施例使用图神经网络的方法对点与点之间的关联进行表示更为准确。

基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点。

具体的，所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括：

步骤1：采用字符分词的形式分别对所述用户信息、所述用户偏移信息、所述访问目标信息进行分词；

步骤2：采用随机词嵌入的方式对分词结果进行词嵌入表示，得到信息集合；计算公式为：

；

其中，V _N表示信息集合，；embedding()表示词向量映射；set()表示集合生成；N _u表示用户信息；N' _u表示用户偏移信息；N _t表示访问目标信息；/>表示d维实数域；

步骤3：将所述行为特征表示与所述信息集合拼接，得到所有的节点；计算公式为：

V=V _N||N _a；

其中，V表示所有的节点，；n表示节点的数量；N _a表示行为特征表示。

基于所述用户-行为对和所述用户-访问目标对之间的连接关系，得到关联矩阵；以归一化后的关联矩阵作为权重边。

目前图神经网络的边设计主要依赖于自然边的形成，例如：上述过程中已经形成的用户-行为对、用户-访问目标对，然而这种自然边在恶意Bot任务上仍然存在着两个缺陷，一是无法捕获用户行为和访问目标之间的高阶信息，行为的发生可能会触发一定的访问目标，这两者之间有着隐藏关联；二是无法反映用户的行为或访问的频率，访问和行为的时间对检测恶意Bot有极为重要的影响。因此，在边设计中增加用户-偏移用户对加入会话子图中，可以捕获用户行为和访问目标之间的高阶信息，同时，根据节点与节点之间时间差值将边信息设置为时序权重边。

具体的，得到权重边的过程包括：

步骤1：设计一初始关联矩阵表示边的连接关系，并将所述初始关联矩阵初始化为0；n表示节点的数量；

步骤2：基于初始化的所述初始关联矩阵，按照发生时间的顺序读取所有的所述用户-行为对与所有所述用户-访问目标对之间的连接关系，得到所述关联矩阵；计算公式为：

；

其中，A _ij表示第i个节点与第j个节点之间的边的权重值；T _i表示第i个节点对应的发生时间；T _j表示第j个节点对应的发生时间；N _u表示用户信息；N _a表示行为特征表示；N _t表示访问目标信息；S表示所有用户信息构成的集合；

对步骤2中的公式进行说明，当此时的用户信息对应的节点i与某个节点j相关时，边的权重为A _ij=T _j；同时将用户信息加入到所有用户信息构成的集合中，对比用户信息的集合中是否存在与当前用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息对应的节点，若不存在则记录当前的用户偏移信息对应的节点i，并构建用户-偏移用户信息对，则用户-偏移用户信息对这条边的权重为A _(i-1)i=T _i，并将用户偏移信息加入到用户信息的集合中。

步骤3：对所述关联矩阵进行归一化，并以归一化后的关联矩阵作为所述权重边。由于时间差作为权重无法进行直接计算，而且对计算结果偏向有很大影响，因此对其进行归一化，时间间隔越小，权重值越大，采用5分钟对其规约到0-1之间，归一化计算公式为：

；

其中，A表示归一化后的关联矩阵；A ₂表示关联矩阵。

相比于自然边来设计边，通过增加用户-偏移用户对加入会话子图中，既能准确融合用户的行为信息，又能捕获行为发生之后的访问信息，获取用户行为和访问结构之间的高阶信息，其次，根据节点与节点之间时间差值将边信息设置为时序权重边，能够反映用户的行为或访问的频率，从而增加模型检测时的信息量，对于模型的精度有很大提升。

基于所述节点和所述权重边构建会话子图。

具体的，如图3所示，得到恶意Bot识别结果的过程包括：

步骤1：在基于LSTM聚合的图网络分类器的第k层中，输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算，得到邻接节点的信息表示；计算公式为：

；

其中，表示LSTM聚合的图网络分类器第k层中第i个邻接节点的信息表示；/>表示第i个节点的邻居集合；A _ji表示第j个节点与第i个节点之间的边的权重值；

对所有的节点的信息表示及其对应的所述权重边进行计算，得到所有的邻接节点的信息表示，所有的邻接节点的信息表示记为：；n表示节点的数量；d表示d维实数域；

步骤2：所有的邻接节点的信息表示通过LSTM聚合的图网络分类器中的源节点更新模块进行计算，得到更新后的节点的信息表示；计算公式为：

；

其中，h ^k表示更新后的节点的信息表示；σ(·)表示非线性激活函数；W ₁表示第一可训练矩阵，；W ₂表示第二可训练矩阵，/>；

步骤3：以LSTM聚合的图网络分类器的层数为终止条件，重复执行步骤1-2，得到最终节点的信息表示；

步骤4：基于所述最终节点的信息表示计算得到所述恶意Bot识别结果；对最终节点的信息表示去平均值，此时输出信息的维度为d，然后经过一个全连接层将维度降为2，计算公式为：

；

其中，y表示恶意Bot识别结果，所述恶意Bot识别结果为二分类结果，其包括恶意Bot或正常用户；h ^L表示最终节点的信息表示，L为LSTM聚合的图网络分类器的层数；Mean(·)表示平均值函数；W ₀表示全连接层中的第三可训练矩阵；b ₀表示全连接层中的第四可训练矩阵。

以往的图网络分类器一般采用卷积和注意力机制进行信息的融合计算，这两种方式对于离散节点有很好的效果，但是，对于序列信息的变化过程不能很好地表示，为了更好的捕捉用户偏移信息相对于用户信息的变化和偏移效果，采用基于LSTM聚合的图网络分类器，对用户信息的序列在图运算的基础上进行序列聚合，能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果，挖掘会话子图结构的序列相关性，提高模型精度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于行为子图表征的恶意Bot识别方法，其特征在于，包括：

S1：收集访问请求数据流和行为数据流；

所述用户会话数据包括用户信息、请求数据和行为信息；

S3：对所述行为信息进行映射，得到行为特征表示；

基于所述用户信息和所述行为特征表示构建用户-行为对；

S4：从所述用户信息中分离出用户偏移信息；

所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括：

；

V=V _N||N _a；

其中，V表示所有的节点，；n表示节点的数量；N _a表示行为特征表示；

得到权重边的过程包括：

；

步骤3：对所述关联矩阵进行归一化，并以归一化后的关联矩阵作为所述权重边；归一化计算公式为：

；

其中，A表示归一化后的关联矩阵；A ₂表示关联矩阵；

基于所述节点和所述权重边构建会话子图；

S5：将所述会话子图输入至基于LSTM聚合的图网络分类器，得到最终节点的信息表示；基于最终节点的信息表示得到恶意Bot识别结果；

得到恶意Bot识别结果的过程包括：

步骤1：输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算，得到邻接节点的信息表示；计算公式为：

；

步骤4：基于所述最终节点的信息表示计算得到所述恶意Bot识别结果；计算公式为：

；

2.根据权利要求1所述的基于行为子图表征的恶意Bot识别方法，其特征在于，S2中，数据缓冲区的处理流程包括：

3.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法，其特征在于，所述设定时间间隔为5分钟。

4.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法，其特征在于，S3中，构建用户-行为对的过程包括：

步骤1：所述行为信息为前端事件行为的数据，其包括鼠标活动和键盘活动；

；

5.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法，其特征在于，S3中，所述基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对包括：

所述访问目标信息包括URL、响应码、请求方法；

6.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法，其特征在于，S3中，还包括：过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息，经过S3，得到多个所述用户-行为对以及多个所述用户-访问目标对。

7.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法，其特征在于，S4中，所述从所述用户信息中分离出用户偏移信息包括：