CN117370548A - 用户行为风险识别方法、装置、电子设备及介质 - Google Patents
用户行为风险识别方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN117370548A CN117370548A CN202311146867.3A CN202311146867A CN117370548A CN 117370548 A CN117370548 A CN 117370548A CN 202311146867 A CN202311146867 A CN 202311146867A CN 117370548 A CN117370548 A CN 117370548A
- Authority
- CN
- China
- Prior art keywords
- determining
- abnormal
- log
- risk
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002159 abnormal effect Effects 0.000 claims abstract description 125
- 238000012502 risk assessment Methods 0.000 claims abstract description 79
- 238000011156 evaluation Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000012550 audit Methods 0.000 claims description 7
- 238000013475 authorization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 43
- 230000006870 function Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用户行为识别方法、装置、电子设备及技术,涉及大数据技术领域。该方法包括:获取目标对象在多个风险评估维度上的日志数据;根据多个日志数据中的事件特征和预训练的日志识别模型,对多个日志数据进行识别,确定多个日志数据中的异常日志;根据异常日志,确定每个风险评估维度对应的标签的异常频次;根据每个风险评估维度对应的标签的异常频次,确定每个风险评估维度对应的标签的权重;根据每个风险评估维度对应的标签的权重,确定目标对象的风险评价指数;根据多个目标对象的风险评价指数和核密度估计算法,确定异常对象。该方法基于多源异构的日志数据,以多视角、多维度对用户的行为进行分析,提高了识别准确率和***安全性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户行为风险识别方法、装置、电子设备及介质。
背景技术
在数字化带来的巨大变化下,基于大数据技术和机器学习算法对用户进行画像和对用户行为分析,但是由于机器学习的学习样本中存在数据源缺失、以及存在用户行为视角的数据缺失、基于静态规则进行判断等问题,容易产生大量噪声和误报,用户行为分析不够准确,无法准确评估用户行为的风险。
发明内容
有鉴于此,本发明实施例提供一种用户行为风险识别方法、装置、电子设备及介质。
第一方面,本发明实施例提供了一种用户行为风险识别方法,包括:
获取目标对象在多个风险评估维度上的多个日志数据;
根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
在可选的实施例中,所述多个风险评估维度包括认证维度、授权维度、账户维度和审计维度中的一种或多种。
在可选的实施例中,所述根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志,包括:
基于所述多个日志数据,确定所述目标对象的账号属性;
根据所述多个日志数据中的事件特征,确定所述多个日志数据包括的事件,基于所述多个日志数据包括的事件,获得序列化事件模式集合;
基于滑动窗口事件将所述序列化事件模式集合进行划分,得到多个事件模式样本;
分别将多个所述事件模式样本以及所述目标对象的账号属性作为预训练的日志识别模型的输入数据,确定所述事件模式样本中的异常事件,所述异常事件对应的日志数据为异常日志。
在可选的实施例中,所述根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次,包括:
对所述异常日志进行分词,获取多个词语;
确定所述多个词语的权重,根据所述多个词语的权重,确定所述异常日志的关键词;
将所述关键词与每个所述风险评估维度对应的标签进行映射,确定所述关键词对应的标签;
统计所述关键词在所述异常日志中的次数,将所述关键词在所述异常日志中的次数,作为所述关键词对应的标签的异常频次。
在可选的实施例中,所述根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重,包括:
针对每个所述风险评估维度对应的标签,计算所述标签对应的关键词的权重与所述标签的异常频次的加权和,将所述加权和确定为所述标签的权重。
在可选的实施例中,所述根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数,包括:
确定每个所述风险评估维度对应的标签的指标值;
针对每个标签,计算所述标签的指标值与所述标签的权重的乘积,将所述乘积作为所述标签的风险值;
对多个所述风险评估维度对应的标签的风险值进行求和,将计算得到的和值作为所述目标对象的风险评价指数。
在可选的实施例中,所述根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象,包括:
根据核密度估计算法,对多个所述目标对象的风险评价指数进行密度估计,确定每个所述目标对象的风险评价指数的密度函数值;
将所述密度函数值大于或等于阈值的目标对象确定为异常对象或将密度函数值最大的目标对象确定为异常对象。
在可选的实施例中,所述方法还包括:在确定异常对象的情况下,锁定所述异常对象的账号,关闭所述异常对象的操作权限。
在可选的实施例中,所述方法还包括:根据每个所述风险评估维度对应的标签的权重,生成所述目标对象在每个所述风险维度上的行为画像。
第二方面,本发明实施例提供了一种用户行为风险识别装置,包括:
获取模块,用于获取目标对象在多个风险评估维度上的多个日志数据;
日志识别模块,用于根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
统计模块,用于根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
权重确定模块,用于根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
风险评价模块,用于根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
对象识别模块,用于根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
在可选的实施例中,所述日志识别模块,用于:基于所述多个日志数据,确定所述目标对象的账号属性;根据所述多个日志数据中的事件特征,确定所述多个日志数据包括的事件,基于所述多个日志数据包括的事件,获得序列化事件模式集合;基于滑动窗口事件将所述序列化事件模式集合进行划分,得到多个事件模式样本;分别将多个所述事件模式样本以及所述目标对象的账号属性作为预训练的日志识别模型的输入数据,确定所述事件模式样本中的异常事件,所述异常事件对应的日志数据为异常日志。
在可选的实施例中,所述统计模块用于:对所述异常日志进行分词,获取多个词语;确定所述多个词语的权重,根据所述多个词语的权重,确定所述异常日志的关键词;将所述关键词与每个所述风险评估维度对应的标签进行映射,确定所述关键词对应的标签;统计所述关键词在所述异常日志中的次数,将所述关键词在所述异常日志中的次数,作为所述关键词对应的标签的异常频次。
在可选的实施例中,所述权重确定模块用于:针对每个所述风险评估维度对应的标签,计算所述标签对应的关键词的权重与所述标签的异常频次的加权和,将所述加权和确定为所述标签的权重。
在可选的实施例中,所述风险评价模块用于:确定每个所述风险评估维度对应的标签的指标值;针对每个标签,计算所述标签的指标值与所述标签的权重的乘积,将所述乘积作为所述标签的风险值;对多个所述风险评估维度对应的标签的风险值进行求和,将计算得到的和值作为所述目标对象的风险评价指数。
在可选的实施例中,所述对象识别模块用于:根据核密度估计算法,对多个所述目标对象的风险评价指数进行密度估计,确定每个所述目标对象的风险评价指数的密度函数值;将所述密度函数值大于或等于阈值的目标对象确定为异常对象或将密度函数值最大的目标对象确定为异常对象。
在可选的实施例中,所述装置还包括锁定模块用于在确定异常对象的情况下,锁定所述异常对象的账号,关闭所述异常对象的操作权限。
在可选的实施例中,所述装置还包括画像生成模块,用于根据每个所述风险评估维度对应的标签的权重,生成所述目标对象在每个所述风险维度上的行为画像。
第三方面,本发明实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的用户行为风险识别方法。
第四方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的用户行为风险识别方法。
上述发明中的一个实施例具有如下优点或有益效果:
本发明实施例的用户行为风险识别方法,获取目标对象在多个风险评估维度上的多个日志数据;根据多个日志数据中的事件特征和预训练的日志识别模型,对多个日志数据进行识别,确定多个日志数据中的异常日志;根据异常日志,确定每个风险评估维度对应的标签的异常频次;根据每个风险评估维度对应的标签的异常频次,确定每个风险评估维度对应的标签的权重;根据每个风险评估维度对应的标签的权重,确定目标对象的风险评价指数;根据多个目标对象的风险评价指数和核密度估计算法,确定多个目标对象中的异常对象。本技术方案基于多源异构的日志数据,以多视角、多维度抽象出用户各个维度的行为,对用户行为进行全方位分析,识别异常用户,提高了识别准确率和***安全性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1示出了本发明实施例的用户行为识别方法的主要流程的示意图;
图2示出了本发明实施例的一种对日志数据进行预处理以及存储应用的示意图;
图3示出了本发明实施例的用户行为识别方法中各个风险评估维度对应的标签;
图4示出了本发明实施例的用户行为识别方法中各个风险评估维度对应的标签的指标值和权重;
图5示出了本发明实施例的用户行为识别方法的子流程的示意图;
图6示出了本发明实施例的用户行为识别方法识别出异常对象后的输出报警的示意图;
图7示出了本发明实施例的用户行为识别装置的主要模块的示意图;
图8示出了本发明实施例的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了本发明实施例的一种用户行为风险识别方法的流程示意图。如图1所示,该方法包括:
步骤S101:获取目标对象在多个风险评估维度上的多个日志数据。
其中,目标对象可以是4A统一安全管理平台上的用户。其中4A是指Authentication(认证)、Authorization(授权)、Account(账号)、Audit(审计)。多个风险评估维度可以包括认证维度、授权维度、账号维度和审计维度中的一种或多种。
日志数据是以文本形式记录下发生的事件的详细信息,可以包括以下一项或多项信息:时间戳、日志签名和日志参数。时间戳是指日志数据产生的时间点。日志签名是指能够唯一识别一类日志的特征信息的抽象表示,通常是日志数据中静态不变的部分。生成日志签名的方法可以是选择日志中能够区分不同日志类型的静态关键字段,使用哈希算法对这些字段的值进行哈希计算,生成唯一的哈希值作为日志签名。日志参数是指日志数据中变化的可记录字段,它记录了事件发生的具体详情和上下文信息。日志参数的作用是提供事件的特征信息,用于事件解析、事件关联分析等过程。
在可选的实施例中,在获取到目标对象在多个风险评估维度上的多个日志数据之后,对该日志数据进行预处理。其中,对日志数据进行预处理可以包括但不限于对日志数据进行清洗、缺失值处理、格式转化(将各种不同表达方式的日志转换成统一的描述形式)、数据补充采集、离散化编码和数据集成等操作。图2示出了一种对日志数据进行预处理以及存储应用的示意图,如图2所示,对采集的海量日志数据进行清洗、缺失值处理、格式转化、数据补充采集、离散化编码和数据集成等操作,然后存储预处理后的日志数据,并提供统计报表,以便于查看和应用日志数据。
步骤S102:根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志。
日志识别模型是利用深度学习算法训练得到的神经网络模型,用于识别异常日志。在可选的实施例中,日志识别模型可以是基于LSTM的深度神经网络模型DeepLog。
步骤S103:根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次。
每个风险评估维度对应的标签可以有多个或一个,标签用于标识目标对象的异常行为。作为可选的示例,各个风险评估维度对应的标签如图3所示。
其中,确定每个风险评估维度对应的标签的异常频次的过程可以包括:首先对异常日志进行分词,获取多个词语。确定多个词语的权重,例如基于TF-IDF算法计算每个词语的权重。根据多个词语的权重,确定异常日志的关键词,例如将权重大于或等于权值阈值的词语作为关键词,或将权重最大的N各词语作为关键词,N为大于或等于1的整数。然后,将关键词与每个风险评估维度对应的标签进行映射,确定关键词对应的标签。可选地,可以据关键词本身的语义或者通过规则匹配,将其映射到对应的标签上。例如包含“登录”、“退出”等词的关键词可以映射到“认证类”标签。最后统计关键词在异常日志中的次数,将关键词在异常日志中的次数,作为关键词对应的标签的异常频次。
步骤S104:根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重。
在本步骤中,可以计算每个标签对应的关键词的权重与该标签的异常频次的加权和,将该加权和确定为标签的权重。如下式(1)所示:
W = (1 - α) * w + α * F (1)
其中,W为标签权重,α为预设参数值,w为标签对应的关键词的权重,F为标签的异常频次。若标签对应的关键词为多个,则分别计算每个关键词的权重与该标签的异常频次的加权和,然后对加权和进行求和,得到该标签的权重。
步骤S105:根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数。
在可选的实施例中,本步骤可以包括:
确定每个风险评估维度对应的标签的指标值;指标值用于指示该标签所对应的的风险程度,指标值越高,该标签所对应的风险程度越高;
针对每个标签,计算标签的指标值与标签的权重的乘积,将乘积作为标签的风险值;
对多个风险评估维度对应的标签的风险值进行求和,将计算得到的和值作为目标对象的风险评价指数。
作为可选的示例,目标对象A对应的各个风险评估维度对应的标签的指标值和权重如图4所示,则目标对象A的风险评价指数为2.5*0.42+2.4*0.2+2.8*0.4+2.5*0.39=3.625。
步骤S106:根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
在本步骤中,根据核密度估计算法,对多个目标对象的风险评价指数进行密度估计,确定每个目标对象的风险评价指数的密度函数值;将密度函数值大于或等于阈值的目标对象确定为异常对象或将密度函数值最大的目标对象确定为异常对象。
具体的,将多个目标对象的风险评价指数作为风险样本集,风险样本集中的每个样本即为一个目标对象的风险评价指数。风险样本集X={x1,x2,…,xn}可以看作是从一个未知的概率密度函数f(x)中独立同分布抽取的。然后,选择一个合适的核函数K(x)和一个带宽参数h,用于平滑数据的分布。核函数K(x)通常是一个对称的、积分为1的概率密度函数,如高斯核、均匀核、三角核等。带宽参数h决定了核函数的宽度,影响了估计的平滑程度和偏差。对于每个样本点xi,计算其核密度估计值,即以xi为中心,以h为半径的区间内的样本点数除以总样本数和带宽h的乘积。最后,对于每个样本点xi,计算其密度函数值,即其核密度估计值与所有样本点的核密度估计值的平均值之比的倒数。每个样本点的密度函数值即为该样本点的异常得分,异常得分越高,说明该目标对象越异常。
本发明实施例的用户行为风险识别方法,获取目标对象在多个风险评估维度上的多个日志数据;根据多个日志数据中的事件特征和预训练的日志识别模型,对多个日志数据进行识别,确定多个日志数据中的异常日志;根据异常日志,确定每个风险评估维度对应的标签的异常频次;根据每个风险评估维度对应的标签的异常频次,确定每个风险评估维度对应的标签的权重;根据每个风险评估维度对应的标签的权重,确定目标对象的风险评价指数;根据多个目标对象的风险评价指数和核密度估计算法,确定多个目标对象中的异常对象。本技术方案基于多源异构的日志数据,以多视角、多维度抽象出用户各个维度的行为,对用户行为进行全方位分析,识别异常用户,提高了识别准确率和***安全性。
在可选的实施例中,如图5所示,步骤S102识别异常日志的过程包括:
步骤S501:基于所述多个日志数据,确定所述目标对象的账号属性;
步骤S502:根据所述多个日志数据中的事件特征,确定所述多个日志数据包括的事件,基于所述多个日志数据包括的事件,获得序列化事件模式集合;
步骤S503:基于滑动窗口事件将所述序列化事件模式集合进行划分,得到多个事件模式样本;
步骤S504:分别将多个所述事件模式样本以及所述目标对象的账号属性作为预训练的日志识别模型的输入数据,确定所述事件模式样本中的异常事件,所述异常事件对应的日志数据为异常日志。
在本实施例中,账号属性是指账号角色,例如4A账号管理员、审计管理员,普通用户、第三方厂商等。不同的账号属性设定不同的异常识别规则,如账号管理员,在操作相关账号删除、锁定等操作时可视为基本正常行为,若第三方厂家人员账号操作相应账号权限时,可视为异常行为。日志数据记录着***或用户的各种事件和行为。每条日志都包含了一个事件。例如用户登录***会产生一条登录日志,里面记录了这个登录事件。多个日志聚合在一起,反映出整个***的事件序列。多个日志按发生时间顺序排列,反映出整个***的事件序列。事件模式指的是日志数据中的事件序列模式,即事件发生的时间顺序模式。序列化事件模式是指把日志中记录的多个事件按时间顺序排列成一个序列。通过序列化事件模式可以观察到事件之间的时间关联关系。基于前一个时间片段的事件序列,预测下一个时间片段事件的异常概率。
日志数据的事件特征可以包括日志数据的日志参数。根据日志数据的事件特征,确定日志数据包括的事件,对日志数据包括的事件按照时间顺序进行排列,获得序列化事件模式集合。
然后,在时间维度上,使用滑动窗口将序列化事件模式集合分割成一个个时间相关的事件模式样本。最后将事件模式样本以及目标对象的账号属性作为预训练的日志识别模型的输入数据,确定事件模式样本中的异常事件,异常事件对应的日志数据为异常日志。
其中,在日志识别模型的训练阶段,从日志中抽取出事件,进行序列化,输入到日志识别模型中进行训练,学习事件规律。在训练日志识别模型时,可以采用生成与判别的模式进行训练,并在模型应用了注意力机制。在模型预测阶段,对新输入的日志,首先抽取出其中所记录的事件。然后根据事件发生的时间顺序,与模型学习到的时间规律进行比较,判断新事件是否符合学习到的事件规律,以判断该事件是否异常。
作为可选的示例,序列化的事件模式S={e(1),e(2),…,e(q)}后,使用滑动窗口将事件序列进行划分成一个个独立的事件模式样本S={s1,s2,…,sn},其中sj={e(j-z),e(j-z+1),…,e(j)},e(j)表示在滑动窗口尺寸为z时第j个事件模式。
以3尺寸的滑动窗口为例,第一个事件模型样本(11、2、20)中,11、2、20号事件是事件模式,而13号事件为异常事件,即在11、2、20号事件顺序的发生情况下,再发生13号事件则可以认定是异常事件发生。将滑动窗口按照步长为1进行滑动,就得到了第二个事件模式样本,但此时在2、20、13号事件顺序发生的情况下,14号事件的发生则认为是正常事件。
在可选的实施例中,本发明实施例的用户行为识别方法还包括:在确定异常对象的情况下,锁定所述异常对象的账号,关闭所述异常对象的操作权限。锁定异常对象的账号可以降低疑似被盗用户的操作风险,提高***安全性。在可选的实施例中,如图6所示,在确定异常对象时,还可以向异常对象输出不同风险等级的警报,并联动其它安全设备,自动限制异常对象的行为或增加身份验证难度等操作。
在可选的实施例中,本发明实施例的用户行为识别方法还包括:
根据每个所述风险评估维度对应的标签的权重,生成所述目标对象在每个所述风险维度上的行为画像。
本实施例可以从账号管理、认证记录、授权操作和审计操作四个维度生成用户的行为画像。具体地,可以根据每个风险评估维度对应的标签的权重,生成用户的行为画像,例如根据账号管理维度对应的标签的权重,确定账号异常操作行为(例如创建、提权、删除、暂停、撤回、静默账号忽然出现活动等异常操作行为)的比重,也可以对账号操作行为如登录的时间、地点、频次的异常监控,判断账号是否被盗用或被攻陷。
本发明实施例的用户行为风险识别装置,对4A认证域、授权域、账号域和审计域四域数据建模,在用户画像的多样性和维度的组合生成不同用户画像的特征构建4A用户风险矩阵模型,结合规则以及机器学习模型,对用户行为进行分析和异常检测,快速地感知4A内部用户的可疑非法行为,并实现4A风险用户自动化处置。
图7示出了本发明实施例的一种用户行为风险识别装置的结构示意图,如图7所示,该用户行为风险识别装置700包括:
获取模块701,用于获取目标对象在多个风险评估维度上的多个日志数据;
日志识别模块702,用于根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
统计模块703,用于根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
权重确定模块704,用于根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
风险评价模块705,用于根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
对象识别模块706,用于根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
在可选的实施例中,所述日志识别模块,用于:基于所述多个日志数据,确定所述目标对象的账号属性;根据所述多个日志数据中的事件特征,确定所述多个日志数据包括的事件,基于所述多个日志数据包括的事件,获得序列化事件模式集合;基于滑动窗口事件将所述序列化事件模式集合进行划分,得到多个事件模式样本;分别将多个所述事件模式样本以及所述目标对象的账号属性作为预训练的日志识别模型的输入数据,确定所述事件模式样本中的异常事件,所述异常事件对应的日志数据为异常日志。
在可选的实施例中,所述统计模块用于:对所述异常日志进行分词,获取多个词语;确定所述多个词语的权重,根据所述多个词语的权重,确定所述异常日志的关键词;将所述关键词与每个所述风险评估维度对应的标签进行映射,确定所述关键词对应的标签;统计所述关键词在所述异常日志中的次数,将所述关键词在所述异常日志中的次数,作为所述关键词对应的标签的异常频次。
在可选的实施例中,所述权重确定模块用于:针对每个所述风险评估维度对应的标签,计算所述标签对应的关键词的权重与所述标签的异常频次的加权和,将所述加权和确定为所述标签的权重。
在可选的实施例中,所述风险评价模块用于:确定每个所述风险评估维度对应的标签的指标值;针对每个标签,计算所述标签的指标值与所述标签的权重的乘积,将所述乘积作为所述标签的风险值;对多个所述风险评估维度对应的标签的风险值进行求和,将计算得到的和值作为所述目标对象的风险评价指数。
在可选的实施例中,所述对象识别模块用于:根据核密度估计算法,对多个所述目标对象的风险评价指数进行密度估计,确定每个所述目标对象的风险评价指数的密度函数值;将所述密度函数值大于或等于阈值的目标对象确定为异常对象或将密度函数值最大的目标对象确定为异常对象。
在可选的实施例中,所述装置还包括锁定模块用于在确定异常对象的情况下,锁定所述异常对象的账号,关闭所述异常对象的操作权限。
在可选的实施例中,所述装置还包括画像生成模块,用于根据每个所述风险评估维度对应的标签的权重,生成所述目标对象在每个所述风险维度上的行为画像。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
图8示出了本发明实施例的电子设备的结构示意图。如图8所示,该电子设备包括:
处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取目标对象在多个风险评估维度上的多个日志数据;
根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户行为识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用户行为识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种用户行为风险识别方法,其特征在于,包括:
获取目标对象在多个风险评估维度上的多个日志数据;
根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
2.根据权利要求1所述的方法,其特征在于,所述多个风险评估维度包括认证维度、授权维度、账户维度和审计维度中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志,包括:
基于所述多个日志数据,确定所述目标对象的账号属性;
根据所述多个日志数据中的事件特征,确定所述多个日志数据包括的事件,基于所述多个日志数据包括的事件,获得序列化事件模式集合;
基于滑动窗口事件将所述序列化事件模式集合进行划分,得到多个事件模式样本;
分别将多个所述事件模式样本以及所述目标对象的账号属性作为预训练的日志识别模型的输入数据,确定所述事件模式样本中的异常事件,所述异常事件对应的日志数据为异常日志。
4.根据权利要求1所述的方法,其特征在于,所述根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次,包括:
对所述异常日志进行分词,获取多个词语;
确定所述多个词语的权重,根据所述多个词语的权重,确定所述异常日志的关键词;
将所述关键词与每个所述风险评估维度对应的标签进行映射,确定所述关键词对应的标签;
统计所述关键词在所述异常日志中的次数,将所述关键词在所述异常日志中的次数,作为所述关键词对应的标签的异常频次。
5.根据权利要求4所述的方法,其特征在于,所述根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重,包括:
针对每个所述风险评估维度对应的标签,计算所述标签对应的关键词的权重与所述标签的异常频次的加权和,将所述加权和确定为所述标签的权重。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数,包括:
确定每个所述风险评估维度对应的标签的指标值;
针对每个标签,计算所述标签的指标值与所述标签的权重的乘积,将所述乘积作为所述标签的风险值;
对多个所述风险评估维度对应的标签的风险值进行求和,将计算得到的和值作为所述目标对象的风险评价指数。
7.根据权利要求1所述的方法,其特征在于,所述根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象,包括:
根据核密度估计算法,对多个所述目标对象的风险评价指数进行密度估计,确定每个所述目标对象的风险评价指数的密度函数值;
将所述密度函数值大于或等于阈值的目标对象确定为异常对象或将密度函数值最大的目标对象确定为异常对象。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
在确定异常对象的情况下,锁定所述异常对象的账号,关闭所述异常对象的操作权限。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
根据每个所述风险评估维度对应的标签的权重,生成所述目标对象在每个所述风险维度上的行为画像。
10.一种用户行为风险识别装置,其特征在于,包括:
获取模块,用于获取目标对象在多个风险评估维度上的多个日志数据;
日志识别模块,用于根据所述多个日志数据中的事件特征和预训练的日志识别模型,对所述多个日志数据进行识别,确定所述多个日志数据中的异常日志;
统计模块,用于根据所述异常日志,确定每个所述风险评估维度对应的标签的异常频次;
权重确定模块,用于根据每个所述风险评估维度对应的标签的异常频次,确定每个所述风险评估维度对应的标签的权重;
风险评价模块,用于根据每个所述风险评估维度对应的标签的权重,确定所述目标对象的风险评价指数;
对象识别模块,用于根据多个所述目标对象的风险评价指数和核密度估计算法,确定多个所述目标对象中的异常对象。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146867.3A CN117370548A (zh) | 2023-09-06 | 2023-09-06 | 用户行为风险识别方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311146867.3A CN117370548A (zh) | 2023-09-06 | 2023-09-06 | 用户行为风险识别方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370548A true CN117370548A (zh) | 2024-01-09 |
Family
ID=89388174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311146867.3A Pending CN117370548A (zh) | 2023-09-06 | 2023-09-06 | 用户行为风险识别方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370548A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596078A (zh) * | 2024-01-18 | 2024-02-23 | 成都思维世纪科技有限责任公司 | 一种基于规则引擎实现的模型驱动用户风险行为判别方法 |
-
2023
- 2023-09-06 CN CN202311146867.3A patent/CN117370548A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596078A (zh) * | 2024-01-18 | 2024-02-23 | 成都思维世纪科技有限责任公司 | 一种基于规则引擎实现的模型驱动用户风险行为判别方法 |
CN117596078B (zh) * | 2024-01-18 | 2024-04-02 | 成都思维世纪科技有限责任公司 | 一种基于规则引擎实现的模型驱动用户风险行为判别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11005872B2 (en) | Anomaly detection in cybersecurity and fraud applications | |
CN107528832B (zh) | 一种面向***日志的基线构建与未知异常行为检测方法 | |
US20200379868A1 (en) | Anomaly detection using deep learning models | |
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
CN111538642A (zh) | 一种异常行为的检测方法、装置、电子设备及存储介质 | |
CN113918367A (zh) | 一种基于注意力机制的大规模***日志异常检测方法 | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
CN114978968B (zh) | 微服务的异常检测方法、装置、计算机设备和存储介质 | |
CN117195250A (zh) | 一种数据安全管理方法及*** | |
CN117216801A (zh) | 一种基于人工智能的企业财务数据安全管理***及方法 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、***及介质 | |
Wang et al. | Embedding learning with heterogeneous event sequence for insider threat detection | |
CN111784404B (zh) | 一种基于行为变量预测的异常资产识别方法 | |
CN116776331A (zh) | 基于用户行为建模的内部威胁检测方法及装置 | |
US20230164162A1 (en) | Valuable alert screening method efficiently detecting malicious threat | |
CN116599743A (zh) | 4a异常绕行检测方法、装置、电子设备及存储介质 | |
Wang et al. | UFKLDA: An unsupervised feature extraction algorithm for anomaly detection under cloud environment | |
Sudha et al. | Analysis and evaluation of integrated cyber crime offences | |
Salazar et al. | Monitoring approaches for security and safety analysis: application to a load position system | |
Liu et al. | Mueba: A multi-model system for insider threat detection | |
CN116126807A (zh) | 一种日志分析方法及相关装置 | |
Periyasamy et al. | Prediction of future vulnerability discovery in software applications using vulnerability syntax tree (PFVD-VST). | |
CN114547640A (zh) | 涉敏操作行为判定方法、装置、电子设备及存储介质 | |
Li et al. | Memory‐Augmented Insider Threat Detection with Temporal‐Spatial Fusion | |
Mihailescu et al. | Unveiling Threats: Leveraging User Behavior Analysis for Enhanced Cybersecurity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |