CN114329455B - 基于异构图嵌入的用户异常行为检测方法及装置 - Google Patents

基于异构图嵌入的用户异常行为检测方法及装置 Download PDF

Info

Publication number
CN114329455B
CN114329455B CN202210218182.4A CN202210218182A CN114329455B CN 114329455 B CN114329455 B CN 114329455B CN 202210218182 A CN202210218182 A CN 202210218182A CN 114329455 B CN114329455 B CN 114329455B
Authority
CN
China
Prior art keywords
user
behavior
data
node data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210218182.4A
Other languages
English (en)
Other versions
CN114329455A (zh
Inventor
刘学洋
胡文蕙
郑超凡
李天赐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210218182.4A priority Critical patent/CN114329455B/zh
Publication of CN114329455A publication Critical patent/CN114329455A/zh
Application granted granted Critical
Publication of CN114329455B publication Critical patent/CN114329455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于异构图嵌入的用户异常行为检测方法及装置,该基于异构图嵌入的用户异常行为检测方法包括:获取用户的操作日志信息;从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;基于所述用户异构图,确定嵌入映射信息;基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。本发明提供的基于异构图嵌入的用户异常行为检测方法及装置,能够根据多个从操作日志信息中得到的类别节点数据构建用户异构图,从用户异构图中确定嵌入映射信息,根据操作日志信息和嵌入映射信息,确定用户行为属性,能够提高用户异常行为检测的准确率和效率,实现对异常行为的及时检测。

Description

基于异构图嵌入的用户异常行为检测方法及装置
技术领域
本发明涉及软件安全技术领域,尤其涉及一种基于异构图嵌入的用户异常行为检测方法及装置。
背景技术
随着计算机技术的不断发展,通过计算机技术来提升社群成员在工作和生活上的便捷性,已经十分普及,社群内部的成员可以通过在电子设备上进行操作,可以快捷高效地完成办公或者交流的事项,然而在社群内部的电子设备上出现的异常操作会对社群造成不利影响,如何对异常操作行为进行检测值得关注。
目前,对用户的异常行为进行检测的方法,准确率较低,效率较低,且检测不够及时。
发明内容
本发明提供一种基于异构图嵌入的用户异常行为检测方法及装置,用以解决现有技术中对用户的异常行为进行检测的方法,准确率较低,效率较低,且检测不够及时的缺陷,实现提高用户异常行为检测的准确率和效率,实现对异常行为的及时检测。
本发明提供一种基于异构图嵌入的用户异常行为检测方法,该基于异构图嵌入的用户异常行为检测方法包括:获取用户的操作日志信息;从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;基于所述用户异构图,确定嵌入映射信息;基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性,包括:
将所述操作日志信息和所述嵌入映射信息输入到行为检测模型中,得到所述行为检测模型输出的用户行为属性;
其中,所述行为检测模型为以样本日志信息和对应的样本映射信息为样本,以与所述样本日志信息和所述样本映射信息对应的用户行为属性样本数据为标签进行训练得到的。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述行为检测模型包括:卷积神经网络层和双向长短时记忆循环神经网络层;
所述基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性,包括:
将所述操作日志信息中的日志维度特征和所述嵌入映射信息输入到所述卷积神经网络层,得到所述卷积神经网络层输出的时域维度特征;
将所述时域维度特征和所述嵌入映射信息输入到所述双向长短时记忆循环神经网络层,得到所述双向长短时记忆循环神经网络层输出的参考特征;
基于所述时域维度特征和所述参考特征,确定所述用户行为属性。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述样本日志信息包括异常行为样本和正常行为样本,所述样本日志信息的获取过程包括:
获取目标用户在目标时段内的样本日志序列;
从所述样本日志序列中,提取所述异常行为样本;
基于所述异常行为样本,在所述样本日志序列中间隔目标时长进行采样,提取出所述正常行为样本,所述正常行为样本与任一所述异常行为样本的时长间隔大于所述目标时长。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述从所述操作日志信息中获取多个类别节点数据,包括:
从所述操作日志信息中获取用户类节点数据、行为类节点数据以及资源实体类节点数据;
所述基于多个所述类别节点数据,确定用户异构图,包括:
基于多个所述类别节点数据,确定多种边关系数据;
基于多种所述边关系数据,确定所述用户异构图。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述基于多个所述类别节点数据,确定多种边关系数据,包括:
将目标用户的目标时段的目标设备上的所有所述行为类节点数据连接,得到第一种边关系数据;
或者,将所述目标用户的所述目标设备上多个时段的所述目标序列进行连接,得到第二种边关系数据;
或者,将所述目标用户的同一组所述目标设备下的多个时段之间的所述行为类节点数据的连接,得到第三种边关系数据;
或者,将不同的所述用户类节点数据之间的边关系连接,得到第四种边关系数据;
或者,将所述目标用户和所述目标设备之间的边关系连接,得到第五种边关系数据;
或者,将所述行为类节点数据和所述资源实体类节点数据之间的边关系连接,得到第六种边关系数据;
将所述第一种边关系数据至所述第二种变关系数据中的至少两种作为所述边关系数据。
根据本发明提供的基于异构图嵌入的用户异常行为检测方法,所述基于所述用户异构图,确定嵌入映射信息,包括:
基于随机游走算法和所述用户异构图,得到预料信息;
将所述预料信息输入到词向量模型中,得到所述嵌入映射信息。
本发明还提供一种基于异构图嵌入的用户异常行为检测装置,该基于异构图嵌入的用户异常行为检测装置包括:
获取模块,用于获取用户的操作日志信息;
第一确定模块,用于从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;
第二确定模块,用于基于所述用户异构图,确定嵌入映射信息;
第三确定模块,用于基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于异构图嵌入的用户异常行为检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于异构图嵌入的用户异常行为检测方法。
本发明提供的基于异构图嵌入的用户异常行为检测方法及装置,能够根据多个从操作日志信息中得到的类别节点数据构建用户异构图,从用户异构图中确定嵌入映射信息,根据操作日志信息和嵌入映射信息,确定用户行为属性,能够提高用户异常行为检测的准确率和效率,实现对异常行为的及时检测。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于异构图嵌入的用户异常行为检测方法的流程示意图;
图2是本发明提供的基于异构图嵌入的用户异常行为检测装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的基于异构图嵌入的用户异常行为检测方法及装置。
如图1所示,本发明提供一种基于异构图嵌入的用户异常行为检测方法,该基于异构图嵌入的用户异常行为检测方法包括如下步骤110至步骤140。
其中,步骤110、获取用户的操作日志信息。
可以理解的是,目前在各个领域都应用了大量的设备集群,设备集群可以实现协同工作,在设备集群中可以包括多个相互通信的电子设备,比如在企业局域网中可以互相连接有多台办公主机,每个办公主机由一个员工使用,每个员工都会在办公主机上进行相应的操作,比如可以在办公主机上发送和接收工作邮件,当用户在电子设备上进行操作时,会在电子设备本地端或者服务器云端存储操作日志信息,用户的操作日志信息可以在某种程度上反映用户的操作行为。
此处获取到用户的操作日志信息,比如,可以实时获取用户的操作日志信息,也可以获取用户在历史操作过程中产生的操作日志信息。
步骤120、从操作日志信息中获取多个类别节点数据,并基于多个类别节点数据,确定用户异构图。
可以理解的是,操作日志信息可以是以日志维度构成的单条操作日志数据,每条操作日志信息中可以具有多种类别的数据,比如操作日志信息可以具有表征用户类别的数据、表征设备类别的数据和表征行为类别的数据,此处可以从操作日志信息中获取到多个类别节点数据,多个类别节点数据可以包括:用户类节点数据、行为类节点数据以及资源实体类节点数据。
可以根据多个类别节点数据,来确定用户异构图,用户异构图可以包括多个类别节点数据以及节点之间的关系,用户异构图是对操作日志信息的一种表现形式,能够便于挖掘出操作日志信息中的关键信息。
步骤130、基于用户异构图,确定嵌入映射信息。
可以理解的是,可以从用户异构图中提取嵌入映射信息,嵌入映射信息可以用于表征用户异构图中节点之间的关系,嵌入映射信息也可以被称为embedding。
简单地说,embedding就是把一个东西映射到一个向量x。如果两个东西很像,那么得到的向量X1和X2的欧式距离很小。例一:Word Embedding,把单词W映射到向量X。如果两个词的原意接近,比如Begin和Start,那么它们映射后得到的两个词向量X1和X2的欧式距离很小。例二:User Embedding,把用户ID映射到向量X。推荐***中需要用一个向量表示一个用户。如果两个用户的行为习惯接近,那么他们对应的向量X1和X2的欧式距离很小。例三:Graph Embedding,把图中的每个节点映射成一个向量X。如果图中两个节点接近,比如它们的最短路很小,那么它们embed得到的向量X1和X2的欧式距离很小。
步骤140、基于操作日志信息和嵌入映射信息,确定用户行为属性。
可以理解的是,可以结合操作日志信息和嵌入映射信息来得到用户行为属性,操作日志信息可以日志维度的信息,将操作日志信息和嵌入映射信息进行聚合,从而能够更加丰富地对用户的行为信息进行呈现,能够更加全面地掌握用户的行为属性,便于对用户行为属性的快速准确确定。
比如可以利用神经网络模型来对操作日志信息和嵌入映射信息进行处理,得到用户行为属性,还可以采用预存的数据库来对操作日志信息和嵌入映射信息进行查找,得到对应的用户行为属性,此处不对具体的算法进行限制,本领域技术人员可以选择可行的算法,来实现根据操作日志信息和嵌入映射信息,确定用户行为属性。
用户行为属性用于表示用户的操作行为是否存在异常,以及用户的操作行为属于哪一种异常行为,这样能够方便发现用户的异常行为,并进行及时应对。
本发明提供的基于异构图嵌入的用户异常行为检测方法及装置,能够根据多个从操作日志信息中得到的类别节点数据构建用户异构图,从用户异构图中确定嵌入映射信息,根据操作日志信息和嵌入映射信息,确定用户行为属性,能够提高用户异常行为检测的准确率和效率,实现对异常行为的及时检测。
在一些实施例中,上述步骤140、基于操作日志信息和嵌入映射信息,确定用户行为属性,包括:将操作日志信息和嵌入映射信息输入到行为检测模型中,得到行为检测模型输出的用户行为属性;其中,行为检测模型为以样本日志信息和对应的样本映射信息为样本,以与样本日志信息和样本映射信息对应的用户行为属性样本数据为标签进行训练得到的。
可以理解的是,行为检测模型是神经网络模型,行为检测模型可以为卷积神经网络模型、全卷积神经网络模型或者残差神经网络模型,还可以为其他类型的神经网络,行为检测模型还可以是由多种神经网络模型聚合而成,此处不对行为检测模型的具体类型进行限定。
神经网络模型属于人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠***的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
行为检测模型可以通过大量的样本日志信息和对应的样本映射信息以及预先标记的用户行为属性样本数据来进行训练,可以通过有监督学习的方式确保行为检测模型的训练准确度。
行为检测模型所使用的深度学习神经网络能够对输入的操作日志信息和嵌入映射信息输入中的特征进行挑拣,将每个特征用于得到一个输出结果,将每个输出结果都和样本标签进行比对,经过比对符合要求的特征可以保留下来,而经过比对不符合要求的特征通过Loss参数进行忽略,经过对输入的大量样本日志信息和对应的样本映射信息的不断迭代训练,可以最终学会那些需要记忆的核心特征,并将不同的核心特征进行分类,最终可以根据这些核心特征来对新输入的操作日志信息和嵌入映射信息输入进行判别。
在对行为检测模型进行训练之前,深度学习神经网络的卷积层的滤波器是完全随机的,其不会对任何特征激活,也就是不能检测到任何特征,在训练的过程中,对空白的滤波器修改权重以使其能够检测特定的场景,这正是一种有监督学习方式,基于这种有监督学习方式,深度学习神经网络能够自行学习需要出核心特征,以根据这些核心特征来对新输入的操作日志信息和嵌入映射信息输入进行判别。
在一些实施例中,行为检测模型包括:卷积神经网络层和双向长短时记忆循环神经网络层。
可以理解的是,卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学***移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。
双向长短时记忆循环神经网络(Bi-directional LSTM RNN,BILSTM)是一种神经网络算法,循环神经网路(RNN)在工作时一个重要的优点在于,其能够在输入和输出序列之间的映射过程中利用上下文相关信息。然而,标准的循环神经网络(RNN)能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退。因此,为了解决这个问题,长短时记忆(LSTM)结构诞生了。双向长短时记忆循环神经网络相当于将长短时记忆作为加强版的组件被放在了循环神经网络中。具体地说,就是把循环神经网络中隐含层的模块换成长短时记忆的模块。
基于操作日志信息和嵌入映射信息,确定用户行为属性,包括:将操作日志信息中的日志维度特征和嵌入映射信息输入到卷积神经网络层,得到卷积神经网络层输出的时域维度特征;将时域维度特征和嵌入映射信息输入到双向长短时记忆循环神经网络层,得到双向长短时记忆循环神经网络层输出的参考特征;基于时域维度特征和参考特征,确定用户行为属性。
可以理解的是,行为检测模型可以进行异常行为的检测。此处的行为检测模型采用了双塔结构,行为检测模型包括:处于下层的卷积神经网络层和处于上层的双向长短时记忆循环神经网络层(BILSTM)。将数据中日志(node)维度特征和嵌入映射信息embedding放在下层的卷积神经网络层(CNN)中利用卷积核聚合到时域(session)维度,得到时域维度特征。将时域维度特征和嵌入映射信息embedding放在上层的双向长短时记忆循环神经网络层中,最后再将两者并起来得出最终结果。
值得一提的是,这里主要考虑到一个时域维度特征session中有多个日志维度特征node,因此node的特征和session特征无法在一个模型中进行对齐,此处采用了CNN模型中的卷积核对node维度的特征进行维度调整后,再并到session中去。上层的BILSTM中放入的是session维度的特征。例如,包括从初始数据集中抽取出的96维session特征,以及graph embedding后得到的128维的user embedding(一个session中的用户user必定相同)。
下层的CNN层放的数据是node维度的特征,包括从初始数据集中抽取出的43维node特征,以及graph embedding后得到的128维的node embedding和device embedding(这里的device指http、email、file、device等user作用的客体)。上下两层并起来之后再过了一层BILSTM得到最终的异常行为检测结果。
比如,在公司员工的异常行为检测过程中,可以将检测出四类异常行为:第一类,某用户在下班后使用移动设备,并上传数据到难以合法监管的数据库网站;第二类,用户浏览招聘网站,并在离职前,将数据拷贝到移动设备当中;第三类,***管理员对工作不满,将某种键盘记录器keylogger安装在指定人员的电脑中,通过记录密码,次日以指定人员的身份登录邮箱并群发邮件损害公司利益,并快速离职;第四类,用户登录其他人的设备,并搜索了一些相关文件通过公司邮箱发送到了家庭邮箱中,并在未来一段时间内持续该行为。
对于行为检测模型的评价指标,此处采用了召回率recall和准确率auc,经过测试,行为检测模型的auc达到了0.912,recall达到了0.823,且除去第二类异常之外,其他异常数据基本都检测出来了,并且recall都在95%以上,最差的第二类异常recall也在50%以上,相比于传统的机器学习算法,得到了巨大的提升。
在一些实施例中,样本日志信息包括异常行为样本和正常行为样本,样本日志信息的获取过程包括:获取目标用户在目标时段内的样本日志序列;从样本日志序列中,提取异常行为样本;基于异常行为样本,在样本日志序列中间隔目标时长进行采样,提取出正常行为样本,正常行为样本与任一异常行为样本的时长间隔大于目标时长。
可以理解的是,在固定的社群内,用户的日常操作中正常行为的数量较多,异常行为的数量较少,那么异常行为样本就很容易提取,需要扩大异常行为样本在样本日志信息中的比例,可以获取目标用户在目标时段内的样本日志序列,目标时段可以为目标用户从登录设备到登出设备的整个时间周期,这个时间周期可以为从早上9点到下午5点,比如目标用户在早上9点开启办公主机,用户在下午5点关闭办公主机。
可以从样本日志序列中提取出异常行为样本,也就是对样本日志序列进行打标签的过程,此时可以以异常行为样本对应的时间点为基准,以一定的目标时长作为时间间隔,来从样本日志序列中挑选出正常行为样本,那么挑选出来的正常行为样本和任意一个异常行为样本的时长间隔要大于目标时长,这样就能够有效地降低正常行为样本的数量比例,提升异常行为样本的数量比例,能够使得正常行为样本的占比和异常行为样本的占比能够相对来说更加均衡。
比如,目标时段可以为1周,可以将所有用户中的存在异常行为样本的用户都挑选出来,然后在社群的每个部门中各取50个用户。对于这些备选用户的行为日志,若该条日志为异常,则放入训练集,并生成一个3到7之间的随机数,若该条日志为正常,则检查该条日志与上一次采用的间隔是否大于间隔生产的随机数天数,若是,则将该条日志进行采用,若不是,则重新生成该用户的随机数。
具体而言,可以初步统计CERT数据集中用户日志信息的正负样本比例,正样本为异常行为样本,负样本为正常行为样本,可以发现初始数据发生了极大的数据倾斜,正负样本比例可以达到1:2000,这无疑会给行为检测模型的训练带来极大的影响。
此处,为了保持数据的完整性,考虑到正常用户的样本日志序列具有高度的重复性,此处采用欠采样的方式进行处理,这样可以通过减少样本日志信息中的正常行为样本的数量,来提升异常行为样本在样本日志信息中的占比,可以提高对行为检测模型训练的准确性。
在一些实施例中,上述步骤120、从操作日志信息中获取多个类别节点数据,包括:从操作日志信息中获取用户类节点数据、行为类节点数据以及资源实体类节点数据。基于多个类别节点数据,确定用户异构图,包括:基于多个类别节点数据,确定多种边关系数据;基于多种边关系数据,确定用户异构图。
可以理解的是,操作日志信息可以百科多种类别的节点数据,此处针对内部威胁场景的特点,依靠操作日志信息中包含的有效信息,抽象出了三种图节点:用户类节点数据、行为类节点数据以及资源实体类节点数据,用户类节点数据、行为类节点数据以及资源实体类节点数据可以分别表示三种类别节点以及对应的属性信息,基于用户类节点数据、行为类节点数据以及资源实体类节点数据可以构建多种边关系数据,可以根据多种边关系数据,构建出用户异构图。
在一些实施例中,基于多个类别节点数据,确定多种边关系数据,包括:将目标用户的目标时段的目标设备上的所有行为类节点数据连接,得到第一种边关系数据;或者,将目标用户的目标设备上多个时段的目标序列进行连接,得到第二种边关系数据;或者,将目标用户的同一组目标设备下的多个时段之间的行为类节点数据的连接,得到第三种边关系数据;或者,将不同的用户类节点数据之间的边关系连接,得到第四种边关系数据;或者,将目标用户和目标设备之间的边关系连接,得到第五种边关系数据;或者,将行为类节点数据和资源实体类节点数据之间的边关系连接,得到第六种边关系数据;将第一种边关系数据至第二种变关系数据中的至少两种作为边关系数据。
可以理解的是,在基于多个类别节点数据,确定多种边关系数据视,可以分析数据集中的数据特性,构造出六种边关系,通过图结构来尝试构建各个节点之间的联系,以此来最大化的保留数据的完整语义信息,这六种边关系分别为:
将目标用户的目标时段的目标设备上的所有行为类节点数据连接,得到第一种边关系数据。也就是,Edge1:内部用户同一天下同一台主机上所有行为的时序连接,这里将边权赋1。
将目标用户的目标设备上多个时段的目标序列进行连接,得到第二种边关系数据。也就是,Edge2:内部用户同一个主机下多天之间的序列连接。这里边权的计算主要看多天之间序列的相似性,比如使用余弦相似度。
将目标用户的同一组目标设备下的多个时段之间的行为类节点数据的连接,得到第三种边关系数据。也就是,Edge3:内部用户同一组host下多天之间组操作行为的连接,这里将边权计算参考Edge2。
将不同的用户类节点数据之间的边关系连接,得到第四种边关系数据。也就是,Edge4:用户与用户之间边关系的构建,主要来源于Email通信的连接,这里将边权直接赋1。
将目标用户和目标设备之间的边关系连接,得到第五种边关系数据。也就是,Edge5:用户与主机之间的边关系连接,这里将边权直接赋1。
将行为类节点数据和资源实体类节点数据之间的边关系连接,得到第六种边关系数据。也就是,Edge6:用户行为和公司资源设备之间的边关系,这里将边权直接赋1。
在一些实施例中,上述步骤130、基于用户异构图,确定嵌入映射信息,包括:基于随机游走算法和用户异构图,得到预料信息;将预料信息输入到词向量模型中,得到嵌入映射信息。
可以理解的是,可以利用随机游走算法来从用户异构图中得到预料信息,这里将访问邻接节点的概率p值设置得比较大,回溯的概率q值设置得比较小,整体的游走是一个深度优先搜索(DFS)的方式。node的embedding主要在edge1、edge2和edge3中来进行,user和device的embedding主要在edge4、edge5和edge6中来进行。
可以使用random walk算法在对应的边中进行随机游走,每次游走都可以得到一段语料信息。
可以利用词向量模型Word2Vec中的SkipGram可以得到语料中每个词(代表着node、user或者device)的embedding信息(都是128维)。
同时,可以进行代码补丁过滤。合并相同的代码补丁,并过滤掉出现编译错误的补丁。最后将剩余的代码补丁按照顺序报告给开发人员。
通过随机游走,按照图构建中的六种规则,可以生成一条规范且完整的行为序列。将每个用户随机游走生成的行为序列作为预料,通过SkipGram算法针对每个节点进行表示学习。
随机游走中的概率公式为:
Figure 153310DEST_PATH_IMAGE001
其中,WN(v)表示节点v相关联的所有邻接节点的权值和,w(t,v)表示节点v和t之间的权值,两者相除即为v到t的转移概率。
word2vec的计算公式为:
Figure 141995DEST_PATH_IMAGE002
其中v表示每个中心节点,c为窗口大小,Pr为通过Softmax归一化概率得出。
Word2vec是根据语料生成词向量的方法,此处根据随机游走生成的序列作为语料,通过SkipGram算法针对节点进行表示学习。此处可以拟定学习目标为最大化似然函数,其中由于节点数量大导致计算时会运算量极大,因此可以采用常用的负采样及层次softmax来加速运算。
下面对本发明提供的基于异构图嵌入的用户异常行为检测装置进行描述,下文描述的基于异构图嵌入的用户异常行为检测装置与上文描述的基于异构图嵌入的用户异常行为检测方法可相互对应参照。
如图2所示,本发明还提供一种基于异构图嵌入的用户异常行为检测装置,该基于异构图嵌入的用户异常行为检测装置包括:获取模块210、第一确定模块220、第二确定模块230和第三确定模块240。
获取模块210,用于获取用户的操作日志信息;
第一确定模块220,用于从操作日志信息中获取多个类别节点数据,并基于多个类别节点数据,确定用户异构图;
第二确定模块230,用于基于用户异构图,确定嵌入映射信息;
第三确定模块240,用于基于操作日志信息和嵌入映射信息,确定用户行为属性。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于异构图嵌入的用户异常行为检测方法,该方法包括:获取用户的操作日志信息;从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;基于所述用户异构图,确定嵌入映射信息;基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于异构图嵌入的用户异常行为检测方法,该方法包括:获取用户的操作日志信息;从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;基于所述用户异构图,确定嵌入映射信息;基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于异构图嵌入的用户异常行为检测方法,该方法包括:获取用户的操作日志信息;从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;基于所述用户异构图,确定嵌入映射信息;基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于异构图嵌入的用户异常行为检测方法,其特征在于,包括:
获取用户的操作日志信息;
从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;所述从所述操作日志信息中获取多个类别节点数据,包括:从所述操作日志信息中获取用户类节点数据、行为类节点数据以及资源实体类节点数据;所述基于多个所述类别节点数据,确定用户异构图,包括:基于多个所述类别节点数据,确定多种边关系数据;基于多种所述边关系数据,确定所述用户异构图;所述基于多个所述类别节点数据,确定多种边关系数据,包括:将目标用户的目标时段的目标设备上的所有所述行为类节点数据连接,得到第一种边关系数据;或者,将所述目标用户的所述目标设备上多个时段的所述目标序列进行连接,得到第二种边关系数据;或者,将所述目标用户的同一组所述目标设备下的多个时段之间的所述行为类节点数据的连接,得到第三种边关系数据;或者,将不同的所述用户类节点数据之间的边关系连接,得到第四种边关系数据;或者,将所述目标用户和所述目标设备之间的边关系连接,得到第五种边关系数据;或者,将所述行为类节点数据和所述资源实体类节点数据之间的边关系连接,得到第六种边关系数据;将所述第一种边关系数据至所述第二种变关系数据中的至少两种作为所述边关系数据;
基于所述用户异构图,确定嵌入映射信息;
基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
2.根据权利要求1所述的基于异构图嵌入的用户异常行为检测方法,其特征在于,所述基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性,包括:
将所述操作日志信息和所述嵌入映射信息输入到行为检测模型中,得到所述行为检测模型输出的用户行为属性;
其中,所述行为检测模型为以样本日志信息和对应的样本映射信息为样本,以与所述样本日志信息和所述样本映射信息对应的用户行为属性样本数据为标签进行训练得到的。
3.根据权利要求2中所述的基于异构图嵌入的用户异常行为检测方法,其特征在于,所述行为检测模型包括:卷积神经网络层和双向长短时记忆循环神经网络层;
所述基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性,包括:
将所述操作日志信息中的日志维度特征和所述嵌入映射信息输入到所述卷积神经网络层,得到所述卷积神经网络层输出的时域维度特征;
将所述时域维度特征和所述嵌入映射信息输入到所述双向长短时记忆循环神经网络层,得到所述双向长短时记忆循环神经网络层输出的参考特征;
基于所述时域维度特征和所述参考特征,确定所述用户行为属性。
4.根据权利要求2所述的基于异构图嵌入的用户异常行为检测方法,其特征在于,所述样本日志信息包括异常行为样本和正常行为样本,所述样本日志信息的获取过程包括:
获取目标用户在目标时段内的样本日志序列;
从所述样本日志序列中,提取所述异常行为样本;
基于所述异常行为样本,在所述样本日志序列中间隔目标时长进行采样,提取出所述正常行为样本,所述正常行为样本与任一所述异常行为样本的时长间隔大于所述目标时长。
5.根据权利要求1至4中任一项所述的基于异构图嵌入的用户异常行为检测方法,其特征在于,所述基于所述用户异构图,确定嵌入映射信息,包括:
基于随机游走算法和所述用户异构图,得到预料信息;
将所述预料信息输入到词向量模型中,得到所述嵌入映射信息。
6.一种基于异构图嵌入的用户异常行为检测装置,其特征在于,包括:
获取模块,用于获取用户的操作日志信息;
第一确定模块,用于从所述操作日志信息中获取多个类别节点数据,并基于多个所述类别节点数据,确定用户异构图;所述从所述操作日志信息中获取多个类别节点数据,包括:从所述操作日志信息中获取用户类节点数据、行为类节点数据以及资源实体类节点数据;所述基于多个所述类别节点数据,确定用户异构图,包括:基于多个所述类别节点数据,确定多种边关系数据;基于多种所述边关系数据,确定所述用户异构图;所述基于多个所述类别节点数据,确定多种边关系数据,包括:将目标用户的目标时段的目标设备上的所有所述行为类节点数据连接,得到第一种边关系数据;或者,将所述目标用户的所述目标设备上多个时段的所述目标序列进行连接,得到第二种边关系数据;或者,将所述目标用户的同一组所述目标设备下的多个时段之间的所述行为类节点数据的连接,得到第三种边关系数据;或者,将不同的所述用户类节点数据之间的边关系连接,得到第四种边关系数据;或者,将所述目标用户和所述目标设备之间的边关系连接,得到第五种边关系数据;或者,将所述行为类节点数据和所述资源实体类节点数据之间的边关系连接,得到第六种边关系数据;将所述第一种边关系数据至所述第二种变关系数据中的至少两种作为所述边关系数据;第二确定模块,用于基于所述用户异构图,确定嵌入映射信息;
第三确定模块,用于基于所述操作日志信息和所述嵌入映射信息,确定用户行为属性。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述基于异构图嵌入的用户异常行为检测方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述基于异构图嵌入的用户异常行为检测方法。
CN202210218182.4A 2022-03-08 2022-03-08 基于异构图嵌入的用户异常行为检测方法及装置 Active CN114329455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210218182.4A CN114329455B (zh) 2022-03-08 2022-03-08 基于异构图嵌入的用户异常行为检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210218182.4A CN114329455B (zh) 2022-03-08 2022-03-08 基于异构图嵌入的用户异常行为检测方法及装置

Publications (2)

Publication Number Publication Date
CN114329455A CN114329455A (zh) 2022-04-12
CN114329455B true CN114329455B (zh) 2022-07-29

Family

ID=81034057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210218182.4A Active CN114329455B (zh) 2022-03-08 2022-03-08 基于异构图嵌入的用户异常行为检测方法及装置

Country Status (1)

Country Link
CN (1) CN114329455B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115185525B (zh) * 2022-05-17 2023-07-18 贝壳找房(北京)科技有限公司 数据倾斜代码块定位方法、装置、设备及介质
CN115268282A (zh) * 2022-06-29 2022-11-01 青岛海尔科技有限公司 家电设备的控制方法、装置、存储介质及电子装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958220A (zh) * 2019-10-24 2020-04-03 中国科学院信息工程研究所 一种基于异构图嵌入的网络空间安全威胁检测方法及***
CN111107072A (zh) * 2019-12-11 2020-05-05 中国科学院信息工程研究所 一种基于认证图嵌入的异常登录行为检测方法及***
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别***及方法
CN111915147A (zh) * 2020-07-08 2020-11-10 郑州轻工业大学 一种面向智能化的多源异构数据分析平台
CN111949803A (zh) * 2020-08-21 2020-11-17 深圳供电局有限公司 一种基于知识图谱的网络异常用户检测方法、装置和设备
CN112463848A (zh) * 2020-11-05 2021-03-09 中国建设银行股份有限公司 检测用户异常行为的检测方法、***、装置和存储介质
WO2021121244A1 (zh) * 2019-12-17 2021-06-24 深信服科技股份有限公司 一种告警信息生成方法、装置、电子设备及存储介质
CN113206855A (zh) * 2021-05-10 2021-08-03 中国工商银行股份有限公司 数据访问异常的检测方法、装置、电子设备及存储介质
CN113656797A (zh) * 2021-10-19 2021-11-16 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US20180129579A1 (en) * 2016-11-10 2018-05-10 Nec Laboratories America, Inc. Systems and Methods with a Realtime Log Analysis Framework

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958220A (zh) * 2019-10-24 2020-04-03 中国科学院信息工程研究所 一种基于异构图嵌入的网络空间安全威胁检测方法及***
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别***及方法
CN111107072A (zh) * 2019-12-11 2020-05-05 中国科学院信息工程研究所 一种基于认证图嵌入的异常登录行为检测方法及***
WO2021121244A1 (zh) * 2019-12-17 2021-06-24 深信服科技股份有限公司 一种告警信息生成方法、装置、电子设备及存储介质
CN111915147A (zh) * 2020-07-08 2020-11-10 郑州轻工业大学 一种面向智能化的多源异构数据分析平台
CN111949803A (zh) * 2020-08-21 2020-11-17 深圳供电局有限公司 一种基于知识图谱的网络异常用户检测方法、装置和设备
CN112463848A (zh) * 2020-11-05 2021-03-09 中国建设银行股份有限公司 检测用户异常行为的检测方法、***、装置和存储介质
CN113206855A (zh) * 2021-05-10 2021-08-03 中国工商银行股份有限公司 数据访问异常的检测方法、装置、电子设备及存储介质
CN113656797A (zh) * 2021-10-19 2021-11-16 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dynamically Modeling Heterogeneous Higher-Order Interactions for Malicious Behavior Detection in Event Logs;Corentin Larroche 等;《Cryptography and Security》;20210329;1-14 *
Web用户异常行为检测的优化研究;王青松 等;《辽宁大学学报(自然科学版)》;20210215;第48卷(第01期);74-81 *
基于图卷积的电信用户行为识别方法研究与仿真;季述郧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220115(第01期);I140-343 *

Also Published As

Publication number Publication date
CN114329455A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
CN110958220B (zh) 一种基于异构图嵌入的网络空间安全威胁检测方法及***
US11463476B2 (en) Character string classification method and system, and character string classification device
CN108366045B (zh) 一种风控评分卡的设置方法和装置
Pacheco et al. Uncovering coordinated networks on social media
CN106557695B (zh) 一种恶意应用检测方法和***
US20230289665A1 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN114329455B (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN110263538A (zh) 一种基于***行为序列的恶意代码检测方法
CN102955912B (zh) 一种程序恶意属性判别方法和服务器
CN108229170B (zh) 利用大数据和神经网络的软件分析方法和装置
WO2022180613A1 (en) Global iterative clustering algorithm to model entities' behaviors and detect anomalies
CN112839014A (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN111371757B (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN115982646B (zh) 一种基于云平台的多源测试数据的管理方法及***
CN115051854B (zh) 一种基于动态更新机制的内部威胁融合检测方法及***
CN114338248B (zh) 基于机器学习的用户异常行为检测方法及装置
CN111695117B (zh) 一种webshell脚本检测方法及装置
US11449789B2 (en) System and method for hierarchical classification
CN116091133A (zh) 一种目标对象属性的识别方法、装置及存储介质
CN114662099A (zh) 基于ai模型的应用程序恶意行为检测方法及设备
CN114676428A (zh) 基于动态特征的应用程序恶意行为检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant