CN111163057B - 一种基于异构信息网络嵌入算法的用户识别***及方法 - Google Patents

一种基于异构信息网络嵌入算法的用户识别***及方法 Download PDF

Info

Publication number
CN111163057B
CN111163057B CN201911246787.9A CN201911246787A CN111163057B CN 111163057 B CN111163057 B CN 111163057B CN 201911246787 A CN201911246787 A CN 201911246787A CN 111163057 B CN111163057 B CN 111163057B
Authority
CN
China
Prior art keywords
user
host
embedding
node
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911246787.9A
Other languages
English (en)
Other versions
CN111163057A (zh
Inventor
于爱民
李梦
蔡利君
马建刚
孟丹
于海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201911246787.9A priority Critical patent/CN111163057B/zh
Publication of CN111163057A publication Critical patent/CN111163057A/zh
Application granted granted Critical
Publication of CN111163057B publication Critical patent/CN111163057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种基于异构信息网络嵌入算法的用户识别***及方法,包括:数据处理模块、联合嵌入模块、评估分析模块;本发明基于行为分析的思路,利用多源异构的用户行为数据构建正常行为模型,当新时间周期的行为数据到来后,通过对比当前行为与正常行为模型的相似性执行用户识别,针对识别错误的情况,本发明还将基于点积相似性运算给出可疑行为排序。本发明可应用于企业内网中检测潜在的内部威胁,结合两种异构信息网络嵌入算法可以得到更加全面精确的行为模型,用户识别准确率得以提升10%左右,此外,本发明还将提供事件级别的溯源线索,可供安全监测人员进一步分析。

Description

一种基于异构信息网络嵌入算法的用户识别***及方法
技术领域
本发明涉及一种基于异构信息网络嵌入算法的用户识别***及方法,属于信息安全检测技术领域,用于企业内网环境中。
背景技术
当今最具破坏性的安全威胁不是来自外部的恶意人员或恶意软件,而是来自可信赖的内部人员。组织中的成员按照职责获取一定的访问控制权限,有效的身份认证是防御内部攻击的重要途径。然而身份认证机制主要包括账号密码、指纹识别等,仅在登录时有效,仍然存在诸多的安全隐患。现有研究通常基于行为分析建立用户正常行为模型,从而获得登录后持续有效的用户身份监测。因为无论是哪种形式的内部攻击,都会表现出一定程度的行为偏离,通过对比当前行为与历史正常模型的相似程度就可以识别用户身份,进而发现异常操作。
基于行为分析的用户识别可分为单域行为分析和多域行为分析两大类别。基于单域行为分析的用户识别是指利用单一类型的行为数据建模正常行为,例如:文件行为、邮件行为等。存在的问题是使用的数据源单一,难以刻画全面的正常行为模型,且通常采用简单的机器学习分类器,用户识别率不高。基于多域行为分析的用户识别方法借鉴多源数据融合的思想,尝试结合多种行为类型构建全面的行为模型。但思路上要么通过对比工作流相似性,要么采用特征工程提取多源行为特征,均没有考虑多种行为数据之间的关联。
在此背景下,本发明将多源异构的行为数据转化成异构信息网络,为分析行为关联创造了条件,使用局部嵌入算法和全局嵌入算法分别提取局部特征和全局特征从而可以构建全面的行为模型,并且能够捕获行为之间的关联信息,针对模型识别错误的情况,还可以进一步基于相似性计算给出可疑行为排序供安全人员分析溯源。
发明内容
本发明技术解决问题:解决现有基于行为分析的用户识别方法中存在的多源异构行为数据关联建模困难的问题,本发明提供一种基于异构信息网络嵌入算法的用户识别***及方法,能构建更加全面的行为模型,大大提高用户识别准确率,且能够针对可疑情况加以分析,提供事件级的可疑操作排序。
本发明技术解决方案:一种基于异构信息网络嵌入算法的用户识别***,其特征在于:所述异构信息网络嵌入算法是指基于神经网络实现的局部嵌入算法和基于元路径实现的全局嵌入算法,所述用户识别是指在企业内网中基于每台主机采集的多源异构审计日志数据识别潜在的操作用户,所述***包括数据处理模块、联合嵌入模块和评估分析模块,其中:
数据处理模块:有两个功能:第一个功能是从历史行为数据库中提取标准化的审计日志数据,这些日志数据将作为训练集用于构建异构信息网络G;第二个功能是对从内网主机中新采集的原始多源异构审计日志数据进行预处理;无论是历史行为数据库中规范化的审计日志数据还是新采集的原始审计日志数据均包含五种多源异构审计日志数据类型,这五种日志数据类型分别为登录日志数据、文件日志数据、邮件日志数据、HTTP日志数据和设备日志数据,这些数据分别记录了用户的登录行为、文件行为、邮件行为、WEB行为和外部设备连接行为;所述对原始多源异构审计日志数据进行预处理是指对每条日志数据进行标准化处理,使用日志解析器基于预定义的字段提取关键信息,所述预定义的字段包括主体、设备、客体和时间戳四个部分,所述主体指用户标识,所述设备指主机标识,所述客体根据不同的日志数据类型确定,用于标识特定日志数据类型的具体行为;在文件类型的日志数据中,所述客体采用文件路径与文件名的组合;所述时间戳是日志数据的发生时间;经过解析的新采集日志数据将被作为测试集;所述异构信息网络G把标准化的日志数据中基于预定义字段提取到的信息视为节点标识,其中主机标识作为中心节点,用户标识和行为标识作为主机标识的邻居节点,构建的异构信息网络遵循图2所示网络模式;
联合嵌入模块:以数据处理模块中构建的异构信息网络G作为输入,训练一个反映每台主机操作模式的模型,称为用户预测器,用户预测器将对测试集执行用户预测,最终得到对应于测试集中日志数据的潜在操作用户排序;训练用户预测器的过程是指学习异构信息网络G中节点的向量表示以及模型的参数。为了使得学习到的节点向量能够保留网络结构信息和节点间的相似性信息,联合嵌入模块采用了两种异构信息网络嵌入算法,称为局部嵌入算法和全局嵌入算法,局部嵌入算法用于学习每台主机与其邻居节点的交互,嵌入正常行为模式信息;全局嵌入算法利用元路径定义的语义嵌入不同类型节点之间的关联信息;最终通过联合目标函数将两个嵌入算法结合起来迭代训练;
评估分析模块,对联合嵌入模块中得到的预测结果进行评估,判别主机的真实操作用户是否与预测结果相一致;在联合嵌入模块,得到针对于测试集中的日志数据模型给出的预测结果A,该结果是一个序列,序列中的排名先后代表了测试集中的行为属于某个用户的概率,如果测试集中的行为对应的真实操作用户出现在预测序列中的前K个,则认为识别正确,反之,则表示测试集中的用户行为与训练集中的正常行为模式发生了偏离,称为可疑情况;针对此类可疑情况,通过基于相似性的异常分析,最终得到的是造成用户识别结果出现错误的可疑行为的排序,以便安全分析师或相关工作人员能够根据***给出的线索进行溯源查证。
所述数据处理模块中,构建异构信息网络的过程为:基于历史数据库中已经得到标准化处理的日志数据,利用提取到的主机、用户、行为标识作为节点构建异构信息网络G,其中主机标识作为中心节点,用户标识和行为标识作为主机标识的邻居节点。
所述联合嵌入模块中,局部嵌入算法基于神经网络实现,具体过程如下:
(1)首先将异构信息网络G中的所有节点映射到一个潜在空间,即将所有节点的向量表示随机初始化形成嵌入向量表V;
(2)给定主机p,分两个步骤聚合得到主机向量Vp,第一个步骤中,计算主机p的每一类行为标识邻居节点的节点类型向量
Figure BDA0002307872930000031
方法是将每种类型包含的所有行为标识邻居节点向量vn取平均;
Figure BDA0002307872930000032
其中,
Figure BDA0002307872930000033
代表主机p包含的第t种类型的行为标识邻居节点集合;
第二个步骤中,计算节点类型向量
Figure BDA0002307872930000034
的加权组合获得主机向量Vp
Figure BDA0002307872930000035
其中wt代表第t类节点类型向量的权重,本发明中行为标识邻居节点类型共有5种,所以t的取值为1到5,分别代表登录节点类型、文件节点类型、邮件节点类型、HTTP节点类型、设备节点类型;
(3)基于主机向量Vp,计算主机与用户之间的点积相似性,并进行潜在操作用户排序,其中vu代表用户向量;
Figure BDA0002307872930000036
(4)采用随机梯度下降(SGD)更新嵌入向量表V,并学习每一类节点类型向量的权重wt使用max-margin目标函数作为损失函数,损失函数定义为:
max(0,f(p,u′)-f(p,u)+ε)
其中,u为主机p的真实操作用户,即正例样本,u′则为负例样本,ε为边界值,如果f(p,u)与f(p,u′)之间的差值如果小于ε,则产生损失惩罚。
所述联合嵌入模块的具体实现中,全局嵌入算法基于元路径实现,实现过程如下:
(1)元路径定义不同类型节点之间的高阶语义关联,高阶语义关联是指原始网络中的边无法捕获的关联信息;给定元路径集合R,基于元路径的全局嵌入算法首先对节点的条件邻居分布建模,在异构信息网络G中,从节点i出发的元路径有多种,因此节点的邻居分布既取决于节点i,也取决于给定的元路径r,条件邻居分布函数定义如下:
Figure BDA0002307872930000041
其中,vi和vj代表节点i和j的向量表示,DST(r)表示节点i在元路径r目标侧的所有可能节点集合;
(2)元路径r目标侧的所有可能节点集合DST(r)中包含的节点数是巨大的,为减轻运算负担,使用负采样策略由下式得到近似解,公式左边即代表对上一个公式的近似;
Figure BDA0002307872930000042
Figure BDA0002307872930000043
表示是对公式取得近似解,j′是从为元路径r预定义的噪声分布
Figure BDA0002307872930000044
中采样的负节点,每个节点i采样k个负节点,偏置项br用来调整不同元路径的密度;
(3)使用随机梯度下降(SGD)学习嵌入向量表V和参数br,目标是使得似然函数最大化。
所述联合嵌入模块的具体实现中,联合目标函数的目的是将局部嵌入算法捕获的局部特征与全局嵌入算法捕获的全局特征有效结合起来,定义如下:
Figure BDA0002307872930000045
其中,ω∈[0,1]是一个预定义的参数,用于平衡模型重要性进行调优,添加正则化项以防止过拟合;其中Zunited代表联合嵌入模型的目标函数,Zglobal代表全局嵌入模型的目标函数,Zlocal代表局部嵌入模型的目标函数,λ为正则化参数;
运用联合目标函数进行迭代训练过程如下:
(1)基于参数为ω的伯努利分布采样局部嵌入算法和全局嵌入算法中的一个;
(2)若采样到局部嵌入算法,则按照局部嵌入算法操作步骤训练嵌入向量表V并学习每一类节点类型向量的权重wt,同样地,若采样到全局嵌入算法,则按照全局嵌入算法操作步骤训练嵌入向量表V并学习参数br,所述嵌入向量表V对于两个嵌入算法是共享的;
(3)重复执行步骤(1)(2),直至模型收敛,得到用户预测器。
所述评估分析模块中针对可疑情况的分析过程为:
可疑情况是测试集中的用户行为与训练集中的正常行为模式发生偏离导致的,在评估分析模块中,针对可疑情况,将依次计算主机行为标识邻居节点与主机真实操作用户节点的点积作为异常参考,点积分数越低,代表两个实体之间的相似性越低,则异常的风险越高,最终按照异常风险由高到低进行可疑行为排序:
Figure BDA0002307872930000051
其中,Lp代表最终得到的可疑行为序列,Ep代表主机p的行为标识邻居节点集合,vi表示节点i的向量表示,up代表主机p的真实操作用户的向量表示。
所述元路径集合R的确定需要经过元路径选择过程,具体如下:
(1)逐个计算添加每个元路径之后达到的识别准确率,并进行排序,得到每个元路径单独使用时对识别效果的影响;
(2)按照得到的排序逐步加入元路径,根据识别准确率的变化,最终贪心地选择能够使得用户识别准确率达到最高的组合作为最优元路径集合R。
本发明的一种基于异构信息网络嵌入算法的用户识别方法,步骤如下:
步骤(1)数据处理:收集一段时间间隔里内网中某台主机的审计日志数据,审计日志类型包括登录日志、文件日志、邮件日志、HTTP日志和设备日志;利用日志解析器对每种类型的日志逐条解析,提取预定义的关键字段,关键字段包括主体、客体、设备和时间戳,对于一条文件日志,提取到的主体是用户账号,客体是文件路径与文件名的组合,设备是主机编号,时间戳是日志记录的访问时间,解析后的日志数据将用作测试集,此外,利用历史行为数据库里一个时间窗口内标准化的日志数据作为训练集用于构建异构信息网络G;
步骤(2)异构信息网络构建:利用训练集构建异构信息网络G,把历史行为数据库标准化的日志数据中基于预定义字段提取到的信息视为节点标识,其中主机标识作为中心节点,用户标识和行为标识作为主机的邻居节点,针对每台主机p,将与其有关的所有行为标识邻居节点组成集合Ep,同时将其真实操作用户表示成up,每个独立的行为标识可以关联多个主机,如果两个主机p、q均与邮件实体e有过日志记录,则邮件实体e将同时作为两个主机p、q的邻居节点;
步骤(3)联合嵌入:得到异构信息网络G后,将迭代学习每个节点的向量表示,首先随机初始化嵌入向量表V,然后基于联合目标函数中的参数ω采样局部嵌入算法和全局嵌入算法中的一个;若采样到局部嵌入算法,则按照局部嵌入算法操作步骤训练嵌入向量表V并学习每一类节点类型向量的权重wt;若采样到全局嵌入算法,则按照全局嵌入算法操作步骤训练嵌入向量表V并学习参数br,重复这个迭代训练过程直到模型收敛,此时得到训练好的模型,称为用户预测器;
步骤(4)用户预测:用户预测器中包含训练后的节点嵌入向量表V以及局部嵌入算法和全局嵌入算法各自的参数,随后在测试集上执行用户预测任务,即给定待预测主机p,预测主机p上的日志数据属于哪个操作用户,预测结果是一个序列,序列中的排名先后代表了测试集中的日志数据属于某个用户的概率,排序的依据是主机向量与用户向量的点积相似性得分;
步骤(5)评估与分析:针对步骤(4)中得到的预测结果,如果测试集中的行为对应的真实操作用户出现在预测序列中的前K个,则认为识别正确,反之,则表示测试集中的用户行为与训练集中的正常行为模式发生偏离,称为可疑情况,针对此类可疑情况,将通过基于相似性的异常分析,最终得到造成用户识别结果出现错误的可疑行为的排序,以便安全分析师或相关工作人员能够根据***给出的线索进行溯源查证。
本发明与现有技术相比的优点在于:
(1)防御内部攻击的关键在于用户权限管理,而用户权限管理的有效途径是基于行为分析对用户身份持续监测,传统的用户识别方法均没有充分利用多源异构的行为数据,难以建模数据之间复杂的关联。本发明巧妙的利用异构信息网络将结构化的审计日志数据表示成图结构,为分析数据关联创造了条件;
(2)本发明结合两种异构信息网络嵌入算法自动学习节点的向量表示,这是一次将异构信息网络嵌入方法应用于安全领域的创新尝试,解决了传统方法依赖人工经验知识提取特征的问题,两种嵌入算法分别关注局部的行为模式特征和网络全局的关联特征,优点在于可以进行全面的用户行为模式刻画,大大提高了用户识别准确率;
(3)对于预测错误的可疑情况,本发明还能够根据实体间的相似性给潜在的异常操作排序,提供事件级别的可疑行为线索。安全分析人员可以基于这些事件级别的有效线索进行溯源查证;
(4)总的来说,本发明提出了一种基于异构信息网络嵌入算法的用户识别***,核心优势在于能够建模全面的用户行为特征,提高用户识别准确率,且能提供细粒度的异常分析。
附图说明
图1为本发明***的实现框图;
图2为本发明中异构信息网络的网络模式;
图3为本发明中局部嵌入算法的框架。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
本发明主要解决如何基于多源异构的主机审计日志识别潜在的操作用户,并针对识别错误的可疑情况给出有指导意义的异常分析。
如图1所示,本发明的***包括数据处理模块、联合嵌入模块、评估分析模块。数据处理模块,将原始的多源异构主机审计日志数据进行解析处理,保留预定义的关键字段,并利用标准化的历史日志数据构建异构信息网络;联合嵌入模块,用两种异构信息网络嵌入算法分别进行单个主机操作模式的学习和网络全局关联的捕获,两种异构信息网络嵌入算法称之为局部嵌入算法和全局嵌入算法,并通过联合函数将两者结合起来迭代训练,得到用户预测器;评估分析模块,对用户识别效果进行评估,针对识别错误的可疑情况,通过基于相似性的异常分析给出可疑行为排序。
数据处理模块具体实现如下:
(1)数据处理:收集一段时间间隔里内网中某台主机的审计日志数据,审计日志类型包括登录日志、文件日志、邮件日志、HTTP日志和设备日志;利用日志解析器对每种类型的日志逐条解析,提取预定义的关键字段,关键字段包括主体、客体、设备和时间戳,对于一条文件日志,提取到的主体是用户账号,客体是文件路径与文件名的组合,设备是主机编号,时间戳是日志记录的访问时间,解析后的日志数据将用作测试集。此外,利用历史行为数据库里一个时间窗口内标准化的日志数据作为训练集用于在下个步骤中构建异构信息网络G。
(2)异构信息网络构建:利用训练集构建异构信息网络G,把历史行为数据库标准化的日志数据中基于预定义字段提取到的信息视为节点标识,其中主机标识作为中心节点,用户标识和行为标识作为主机的邻居节点,构建的异构信息网络遵循图2所示网络模式。在本网络模式中,主要涉及六种节点类型,分别是PC、用户、登录、文件、邮件、HTTP、设备,其中PC是连接其余五种节点类型的超节点;涉及的边类型包括“PC访问文件”、“PC发送邮件”等。针对每台主机p,将与其有关的所有行为标识邻居节点组成集合Ep,同时将其真实操作用户表示成up,每个独立的行为标识可以关联多个主机,如果两个主机p、q均与邮件实体e有过日志记录,则邮件实体e将同时作为两个主机p、q的邻居节点;
联合嵌入模块具体实现如下:
传统方法往往采用特征工程的方式人工提取高维特征,需要人为的经验知识。本发明自动提取蕴含丰富结构和语义关联的特征向量用于表示用户和实体。然后基于训练好的用户预测器来预测测试集中日志数据的操作用户。步骤如下:
(1)初始化:首先随机初始化嵌入向量表V,V代表了构建的异构信息网络G中所有节点的向量表示;
(2)迭代训练:接下来执行迭代训练过程,基于联合目标函数中的参数ω采样局部嵌入算法和全局嵌入算法中的一个;若采样到的是局部嵌入算法,则按照局部嵌入模型的执行步骤进行训练,更新嵌入向量表V和每一类节点类型向量的权重wt;若采样到的是全局嵌入算法,则按照全局嵌入模型的执行步骤进行训练,更新嵌入向量表V和参数br,重复这个迭代训练过程直到模型收敛,此时得到了训练好的模型,称为用户预测器;
(3)用户预测:将测试集输入训练好的用户预测器中,用户预测器基于测试集中标准化的日志数据预测潜在的操作用户,预测结果是一个序列,序列中的排名先后代表了测试集中的日志数据属于某个用户的概率,排序的依据是主机向量与用户向量的点积相似性得分;
根据图3所示,所述局部嵌入算法的执行步骤如下:
(1)给定主机p,分两个步骤聚合得到主机向量Vp,第一个步骤中,计算主机p的每一类行为标识邻居节点的节点类型向量
Figure BDA0002307872930000081
方法是将每种类型包含的所有行为标识邻居节点向量vn取平均;
Figure BDA0002307872930000082
其中,
Figure BDA0002307872930000083
代表主机p包含的第t种类型的行为标识邻居节点集合;
第二个步骤中,计算节点类型向量
Figure BDA0002307872930000084
的加权组合获得主机向量Vp
Figure BDA0002307872930000085
其中,wt代表第t类节点类型向量的权重,本发明中行为标识邻居节点类型共有5种,所以t的取值为1到5,分别代表登录节点类型、文件节点类型、邮件节点类型、HTTP节点类型、设备节点类型;
(2)基于主机向量Vp,计算主机与用户之间的点积相似性,并进行潜在操作用户排序,其中vu代表用户向量;
Figure BDA0002307872930000086
(3)采用随机梯度下降(SGD)更新嵌入向量表V,并学习每一类节点类型向量的权重wt使用max-margin目标函数作为损失函数,损失函数定义为:
max(0,f(p,u′)-f(p,u)+ε)
其中,u为主机p的真实操作用户,即正例样本,u′则为负例样本,ε为边界值,如果f(p,u)与f(p,u′)之间的差值如果小于ε,则产生损失惩罚。
所述全局嵌入算法的执行步骤如下:
(1)元路径定义不同类型节点之间的高阶语义关联,高阶语义关联是指原始网络中的边无法捕获的关联信息;给定元路径集合R,基于元路径的全局嵌入算法首先对节点的条件邻居分布建模,在异构信息网络G中,从节点i出发的元路径有多种,因此节点的邻居分布既取决于节点i,也取决于给定的元路径r,条件邻居分布函数定义如下:
Figure BDA0002307872930000091
其中,vi和vj代表节点i和j的向量表示,DST(r)表示节点i在元路径r目标侧的所有可能节点集合;
(2)元路径r目标侧的所有可能节点集合DST(r)中包含的节点数是巨大的,为减轻运算负担,使用负采样策略由下式得到近似解,公式左边即代表对上一个公式的近似;
Figure BDA0002307872930000092
Figure BDA0002307872930000093
表示是对公式取得近似解,j′是从为元路径r预定义的噪声分布
Figure BDA0002307872930000095
中采样的负节点,每个节点i采样k个负节点,偏置项br用来调整不同元路径的密度;
(3)使用随机梯度下降(SGD)学习嵌入向量表V和参数br,目标是使得似然函数最大化。
评估分析模块具体实现如下:
(1)评估:对联合嵌入模块中得到的预测结果进行评估,判别主机的真实操作用户是否与预测结果相一致。在联合嵌入模块,得到了针对于测试集中的日志数据模型给出的预测结果A,该结果是一个序列,序列中的排名先后代表了测试集中的行为属于某个用户的概率。如果测试集中的行为对应的真实操作用户出现在预测序列中的前K个,则认为识别正确,反之,称为“可疑情况”。
(2)分析:模型认为“可疑情况”是由测试集中的用户行为与训练集中的正常行为模式发生偏离导致的,在评估分析模块中,针对可疑情况,将依次计算主机行为标识邻居节点与主机真实操作用户的点积作为异常参考,点积分数越低,代表两个实体之间的相似性越低,则异常的风险越高,最终按照异常风险由高到低进行可疑行为排序:
Figure BDA0002307872930000094
其中,Lp代表最终得到的可疑行为序列,Ep代表主机p的行为标识邻居节点集合,vi表示节点i的向量表示,up代表主机p的真实操作用户的向量表示。

Claims (8)

1.一种基于异构信息网络嵌入算法的用户识别***,其特征在于:所述异构信息网络嵌入算法是指基于神经网络实现的局部嵌入算法和基于元路径实现的全局嵌入算法,所述用户识别是指在企业内网中基于每台主机采集的多源异构审计日志数据识别潜在的操作用户,所述***包括数据处理模块、联合嵌入模块和评估分析模块,其中:
数据处理模块:有两个功能:第一个功能是从历史行为数据库中提取标准化的审计日志数据,这些日志数据将作为训练集用于构建异构信息网络G;第二个功能是对从内网主机中新采集的原始多源异构审计日志数据进行预处理;无论是历史行为数据库中规范化的审计日志数据还是新采集的原始审计日志数据均包含五种多源异构审计日志数据类型,这五种日志数据类型分别为登录日志数据、文件日志数据、邮件日志数据、HTTP日志数据和设备日志数据,这些数据分别记录了用户的登录行为、文件行为、邮件行为、WEB行为和外部设备连接行为;所述对原始多源异构审计日志数据进行预处理是指对每条日志数据进行标准化处理,使用日志解析器基于预定义的字段提取关键信息,所述预定义的字段包括主体、设备、客体和时间戳四个部分,所述主体指用户标识,所述设备指主机标识,所述客体根据不同的日志数据类型确定,用于标识特定日志数据类型的具体行为;在文件类型的日志数据中,所述客体采用文件路径与文件名的组合;所述时间戳是日志数据的发生时间;经过解析的新采集日志数据将被作为测试集;所述异构信息网络G把标准化的日志数据中基于预定义字段提取到的信息视为节点标识,其中主机标识作为中心节点,用户标识和行为标识作为主机标识的邻居节点;
联合嵌入模块:以数据处理模块中构建的异构信息网络G作为输入,训练一个反映每台主机操作模式的模型,称为用户预测器,用户预测器将对测试集执行用户预测,最终得到对应于测试集中日志数据的潜在操作用户排序;训练用户预测器的过程是指学习异构信息网络G中节点的向量表示以及模型的参数;为了使得学习到的节点向量能够保留网络结构信息和节点间的相似性信息,联合嵌入模块采用了两种异构信息网络嵌入算法,称为局部嵌入算法和全局嵌入算法,局部嵌入算法用于学习每台主机与其邻居节点的交互,嵌入正常行为模式信息;全局嵌入算法利用元路径定义的语义嵌入不同类型节点之间的关联信息;最终通过联合目标函数将两个嵌入算法结合起来迭代训练;
评估分析模块,对联合嵌入模块中得到的预测结果进行评估,判别主机的真实操作用户是否与预测结果相一致;在联合嵌入模块,得到针对于测试集中的日志数据模型给出的预测结果A,该结果是一个序列,序列中的排名先后代表了测试集中的行为属于某个用户的概率,如果测试集中的行为对应的真实操作用户出现在预测序列中的前K个,则认为识别正确,反之,则表示测试集中的用户行为与训练集中的正常行为模式发生了偏离,称为可疑情况;针对此类可疑情况,通过基于相似性的异常分析,最终得到的是造成用户识别结果出现错误的可疑行为的排序,以便安全分析师或相关工作人员能够根据***给出的线索进行溯源查证。
2.根据权利要求1所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述数据处理模块中,构建异构信息网络的过程为:基于历史数据库中已经得到标准化处理的日志数据,利用提取到的主机、用户、行为标识作为节点构建异构信息网络G,其中主机标识作为中心节点,用户标识和行为标识作为主机标识的邻居节点。
3.根据权利要求1所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述联合嵌入模块中,局部嵌入算法基于神经网络实现,具体过程如下:
(1)首先将异构信息网络G中的所有节点映射到一个潜在空间,即将所有节点的向量表示随机初始化形成嵌入向量表V;
(2)给定主机p,分两个步骤聚合得到主机向量Vp,第一个步骤中,计算主机p的每一类行为标识邻居节点的节点类型向量
Figure FDA0002839917240000021
方法是将每种类型包含的所有行为标识邻居节点向量vn取平均;
Figure FDA0002839917240000022
其中,
Figure FDA0002839917240000023
代表主机p包含的第t种类型的行为标识邻居节点集合;
第二个步骤中,计算节点类型向量
Figure FDA0002839917240000024
的加权组合获得主机向量Vp
Figure FDA0002839917240000025
其中,wt代表第t类节点类型向量的权重,本发明中行为标识邻居节点类型共有5种,所以t的取值为1到5,分别代表登录节点类型、文件节点类型、邮件节点类型、HTTP节点类型、设备节点类型;
(3)基于主机向量Vp,计算主机与用户之间的点积相似性,并进行潜在操作用户排序,其中vu代表用户向量;
Figure FDA0002839917240000026
(4)采用随机梯度下降(SGD)更新嵌入向量表V,并学习每一类节点类型向量的权重wt使用max-margin目标函数作为损失函数,损失函数定义为:
max(0,f(p,u′)-f(p,u)+ε)
其中,u为主机p的真实操作用户,即正例样本,u′则为负例样本,ε为边界值,如果f(p,u)与f(p,u′)之间的差值如果小于ε,则产生损失惩罚。
4.根据权利要求1所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述联合嵌入模块的具体实现中,全局嵌入算法基于元路径实现,实现过程如下:
(1)元路径定义不同类型节点之间的高阶语义关联,高阶语义关联是指原始网络中的边无法捕获的关联信息;给定元路径集合R,基于元路径的全局嵌入算法首先对节点的条件邻居分布建模,在异构信息网络G中,从节点i出发的元路径有多种,因此节点的邻居分布既取决于节点i,也取决于给定的元路径r,条件邻居分布函数定义如下:
Figure FDA0002839917240000031
其中,vi和vj代表节点i和j的向量表示,DST(r)表示节点i在元路径r目标侧的所有可能节点集合;
(2)元路径r目标侧的所有可能节点集合DST(r)中包含的节点数是巨大的,为减轻运算负担,使用负采样策略由下式得到近似解,公式左边即代表对上一个公式的近似;
Figure FDA0002839917240000032
Figure FDA0002839917240000033
表示是对公式取得近似解,j′是从为元路径r预定义的噪声分布
Figure FDA0002839917240000034
中采样的负节点,每个节点i采样k个负节点,偏置项br是神经网络训练的偏置项,用来调整不同元路径的密度;
(3)使用随机梯度下降(SGD)学习嵌入向量表V和参数偏置项br,目标是使得似然函数最大化。
5.根据权利要求1所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述联合嵌入模块的具体实现中,联合目标函数的目的是将局部嵌入算法捕获的局部特征与全局嵌入算法捕获的全局特征有效结合起来,定义如下:
Figure FDA0002839917240000035
其中,ω∈[0,1]是一个预定义的参数,用于平衡模型重要性进行调优,添加正则化项以防止过拟合;其中Zunited代表联合嵌入模型的目标函数,Zglobal代表全局嵌入模型的目标函数,Zlocal代表局部嵌入模型的目标函数,λ为正则化参数;
运用联合目标函数进行迭代训练过程如下:
(1)基于参数为ω的伯努利分布采样局部嵌入算法和全局嵌入算法中的一个;
(2)若采样到局部嵌入算法,则按照局部嵌入算法操作步骤训练嵌入向量表V并学习每一类节点类型向量的权重wt,同样地,若采样到全局嵌入算法,则按照全局嵌入算法操作步骤训练嵌入向量表V并学习参数br,其中参数br用来调整不同元路径的密度;
所述嵌入向量表V对于两个嵌入算法是共享的;
(3)重复执行步骤(1)(2),直至模型收敛,得到用户预测器。
6.根据权利要求1所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述评估分析模块中针对可疑情况的分析过程为:
可疑情况是测试集中的用户行为与训练集中的正常行为模式发生偏离导致的,在评估分析模块中,针对可疑情况,将依次计算主机行为标识邻居节点与主机真实操作用户节点的点积作为异常参考,点积分数越低,代表两个实体之间的相似性越低,则异常的风险越高,最终按照异常风险由高到低进行可疑行为排序:
Figure FDA0002839917240000041
其中,Lp代表最终得到的可疑行为序列,Ep代表主机p的行为标识邻居节点集合,vi表示节点i的向量表示,up代表主机p的真实操作用户的向量表示。
7.根据权利要求4所述的基于异构信息网络嵌入算法的用户识别***,其特征在于:所述元路径集合R的确定需要经过元路径选择过程,具体如下:
(1)逐个计算添加每个元路径之后达到的识别准确率,并进行排序,得到每个元路径单独使用时对识别效果的影响;
(2)按照得到的排序逐步加入元路径,根据识别准确率的变化,最终贪心地选择能够使得用户识别准确率达到最高的组合作为最优元路径集合R。
8.一种基于异构信息网络嵌入算法的用户识别方法,其特征在于,步骤如下:
步骤(1)数据处理:收集一段时间间隔里内网中某台主机的审计日志数据,审计日志类型包括登录日志、文件日志、邮件日志、HTTP日志和设备日志;利用日志解析器对每种类型的日志逐条解析,提取预定义的关键字段,关键字段包括主体、客体、设备和时间戳,对于一条文件日志,提取到的主体是用户账号,客体是文件路径与文件名的组合,设备是主机编号,时间戳是日志记录的访问时间,解析后的日志数据将用作测试集,此外,利用历史行为数据库里一个时间窗口内标准化的日志数据作为训练集用于构建异构信息网络G;
步骤(2)异构信息网络构建:利用训练集构建异构信息网络G,把历史行为数据库标准化的日志数据中基于预定义字段提取到的信息视为节点标识,其中主机标识作为中心节点,用户标识和行为标识作为主机的邻居节点,针对每台主机p,将与其有关的所有行为标识邻居节点组成集合Ep,同时将其真实操作用户表示成up,每个独立的行为标识可以关联多个主机,如果两个主机p、q均与邮件实体e有过日志记录,则邮件实体e将同时作为两个主机p、q的邻居节点;
步骤(3)联合嵌入:得到异构信息网络G后,将迭代学习每个节点的向量表示,首先随机初始化嵌入向量表V,然后基于联合目标函数中的参数ω采样局部嵌入算法和全局嵌入算法中的一个;若采样到局部嵌入算法,则按照局部嵌入算法操作步骤训练嵌入向量表V并学习每一类节点类型向量的权重wt;若采样到全局嵌入算法,则按照全局嵌入算法操作步骤训练嵌入向量表V并学习参数br,重复这个迭代训练过程直到模型收敛,此时得到训练好的模型,称为用户预测器;
步骤(4)用户预测:用户预测器中包含训练后的节点嵌入向量表V以及局部嵌入算法和全局嵌入算法各自的参数,随后在测试集上执行用户预测任务,即给定待预测主机p,预测主机p上的日志数据属于哪个操作用户,预测结果是一个序列,序列中的排名先后代表了测试集中的日志数据属于某个用户的概率,排序的依据是主机向量与用户向量的点积相似性得分;
步骤(5)评估与分析:针对步骤(4)中得到的预测结果,如果测试集中的行为对应的真实操作用户出现在预测序列中的前K个,则认为识别正确,反之,则表示测试集中的用户行为与训练集中的正常行为模式发生偏离,称为可疑情况,针对此类可疑情况,将通过基于相似性的异常分析,最终得到造成用户识别结果出现错误的可疑行为的排序,以便安全分析师或相关工作人员能够根据***给出的线索进行溯源查证。
CN201911246787.9A 2019-12-09 2019-12-09 一种基于异构信息网络嵌入算法的用户识别***及方法 Active CN111163057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911246787.9A CN111163057B (zh) 2019-12-09 2019-12-09 一种基于异构信息网络嵌入算法的用户识别***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911246787.9A CN111163057B (zh) 2019-12-09 2019-12-09 一种基于异构信息网络嵌入算法的用户识别***及方法

Publications (2)

Publication Number Publication Date
CN111163057A CN111163057A (zh) 2020-05-15
CN111163057B true CN111163057B (zh) 2021-04-02

Family

ID=70555734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911246787.9A Active CN111163057B (zh) 2019-12-09 2019-12-09 一种基于异构信息网络嵌入算法的用户识别***及方法

Country Status (1)

Country Link
CN (1) CN111163057B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737551B (zh) * 2020-05-26 2022-08-05 国家计算机网络与信息安全管理中心 一种基于异构图注意力神经网络的暗网线索检测方法
CN113742665B (zh) * 2020-06-05 2024-03-26 国家计算机网络与信息安全管理中心 用户身份识别模型构建、用户身份验证方法及装置
CN111752729B (zh) * 2020-06-30 2023-06-27 上海观安信息技术股份有限公司 一种构建三层关联关系模型的方法及三层关系识别方法
CN111651149B (zh) * 2020-07-03 2022-11-22 东软教育科技集团有限公司 一种便于部署的机器学习模型***及其调用方法
WO2022047659A1 (zh) * 2020-09-02 2022-03-10 大连大学 多源异构日志分析方法
CN112149124B (zh) * 2020-11-02 2022-04-29 电子科技大学 一种基于异构信息网络的安卓恶意程序检测的方法和***
CN112597240B (zh) * 2021-03-01 2021-06-04 索信达(北京)数据技术有限公司 一种基于联盟链的联邦学习的数据处理方法与***
CN113220911B (zh) * 2021-05-25 2024-02-02 中国农业科学院农业信息研究所 一种农业多源异构数据的分析与挖掘方法及其应用
US11880439B2 (en) 2021-06-16 2024-01-23 International Business Machines Corporation Enhancing verification in mobile devices using model based on user interaction history
CN113596097B (zh) * 2021-06-30 2023-08-18 联想(北京)有限公司 一种日志的传输方法及电子设备
CN113572739B (zh) * 2021-06-30 2023-02-24 中国人民解放军战略支援部队信息工程大学 一种网络有组织攻击入侵检测方法及装置
CN113656797B (zh) * 2021-10-19 2021-12-21 航天宏康智能科技(北京)有限公司 行为特征提取方法以及行为特征提取装置
CN114329099B (zh) * 2021-11-22 2023-07-07 腾讯科技(深圳)有限公司 重叠社区识别方法、装置、设备、存储介质及程序产品
CN114553497B (zh) * 2022-01-28 2022-11-15 中国科学院信息工程研究所 基于特征融合的内部威胁检测方法
CN114329455B (zh) * 2022-03-08 2022-07-29 北京大学 基于异构图嵌入的用户异常行为检测方法及装置
CN114598545B (zh) * 2022-03-23 2022-12-30 中国科学技术大学 一种内部安全威胁检测方法、***、设备及存储介质
CN115333915B (zh) * 2022-06-01 2023-12-05 中电莱斯信息***有限公司 一种面向异构主机的网络管控***
CN115118505B (zh) * 2022-06-29 2023-06-09 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法
CN116318465B (zh) * 2023-05-25 2023-08-29 广州南方卫星导航仪器有限公司 一种多源异构网络环境下的边缘计算方法及其***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794386B2 (en) * 2014-02-18 2017-10-17 Quiet, Inc. Anechoic cup or secondary anechoic chamber comprising metallic flake mixed with sound attenuating or absorbing materials for use with a communication device and related methods
US10078851B2 (en) * 2015-01-13 2018-09-18 Live Nation Entertainment, Inc. Systems and methods for leveraging social queuing to identify and prevent ticket purchaser simulation
CN105246130B (zh) * 2015-09-22 2019-04-05 华北电力大学(保定) 一种用于异构网络中的用户选择算法
CN107508721B (zh) * 2017-08-01 2018-11-02 南京云利来软件科技有限公司 一种基于元数据的数据采集方法
CN109471785A (zh) * 2018-11-15 2019-03-15 郑州云海信息技术有限公司 一种日志分析方法与装置
CN109753801B (zh) * 2019-01-29 2022-04-22 重庆邮电大学 基于***调用的智能终端恶意软件动态检测方法
CN110046943B (zh) * 2019-05-14 2023-01-03 华中师范大学 一种网络消费者细分的优化方法及优化***
CN110532881A (zh) * 2019-07-30 2019-12-03 长江大学 一种基于嵌入式人工智能芯片的人脸识别安防报警方法

Also Published As

Publication number Publication date
CN111163057A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111163057B (zh) 一种基于异构信息网络嵌入算法的用户识别***及方法
Khan et al. Malicious insider attack detection in IoTs using data analytics
Joshi et al. Investigating hidden Markov models capabilities in anomaly detection
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN111107072B (zh) 一种基于认证图嵌入的异常登录行为检测方法及***
Kotenko et al. Systematic literature review of security event correlation methods
Adhao et al. Feature selection using principal component analysis and genetic algorithm
Carminati et al. Evasion attacks against banking fraud detection systems
Wu et al. Factor-analysis based anomaly detection and clustering
CN114218998A (zh) 一种基于隐马尔可夫模型的电力***异常行为分析方法
CN112202718A (zh) 一种基于XGBoost算法的操作***识别方法、存储介质及设备
Nagarajan et al. Optimization of BPN parameters using PSO for intrusion detection in cloud environment
CN110290101B (zh) 智能电网环境中基于深度信任网络的关联攻击行为识别方法
CN115174263B (zh) 攻击路径动态决策方法与装置
US20230164162A1 (en) Valuable alert screening method efficiently detecting malicious threat
Jayasimhan et al. Anomaly detection using a clustering technique
CN115187064A (zh) 基于主成分和聚类法的青岛市地产发展指标分析
CN114039837A (zh) 告警数据处理方法、装置、***、设备和存储介质
Istiaque et al. Artificial Intelligence Based Cybersecurity: Two-Step Suitability Test
Zhang The WSN intrusion detection method based on deep data mining
Nazarudeen et al. Efficient DDoS Attack Detection using Machine Learning Techniques
Alves et al. Evaluating the behaviour of stream learning algorithms for detecting invasion on wireless networks
CN117371541B (zh) 一种零知识、免真实数据的模型推理方法
CN115563657B (zh) 一种数据信息安全处理方法、***及云平台
Alagrash et al. Malware Detection via Machine Learning and Recognition of Non Stationary Tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant