CN117521042A - 基于集成学习的高危授权用户识别方法 - Google Patents
基于集成学习的高危授权用户识别方法 Download PDFInfo
- Publication number
- CN117521042A CN117521042A CN202410014208.2A CN202410014208A CN117521042A CN 117521042 A CN117521042 A CN 117521042A CN 202410014208 A CN202410014208 A CN 202410014208A CN 117521042 A CN117521042 A CN 117521042A
- Authority
- CN
- China
- Prior art keywords
- user
- risk
- data
- training
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000006399 behavior Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 80
- 238000000605 extraction Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000013486 operation strategy Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 23
- 238000012795 verification Methods 0.000 abstract description 6
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 8
- 238000013475 authorization Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于安全保护技术领域,具体公开了一种基于集成学习的高危授权用户识别方法,本发明在堡垒机中通过集成学习方式来构建出了高危授权用户识别模型,其中,集成学习能够获得比单个模型更高的预测性能,可以更准确地捕获潜在的风险模式;同时,在进行识别时,综合考虑了包含有用户行为、个人信息以及设备信息的多维度特征;如此,在使用集成学习而训练得到的模型来检测异常行为时,能够准确地辨别可能存在高风险授权行为的用户;由此,本发明将集成学习应用至堡垒机中,可以在实际访问过程中,实时的且有效地识别出潜在的高危授权用户;基于此,本发明加强了***的安全性和身份验证过程,相比于传统技术,其实时性以及准确性得到了大幅提升。
Description
技术领域
本发明属于安全保护技术领域,具体涉及一种基于集成学习的高危授权用户识别方法。
背景技术
随着各类应用的演进与扩张,有效的管理用户授权以及防止用户的高危授权变得越来越重要,现有技术中的应用管理服务可以提前从用户中筛选出高危授权用户,对筛选出来的实际高危授权用户执行安全限制操作;这样做虽然提升了对高危授权用户的管理能力;但是,随着目前技术和威胁的不断发展,此种识别方法已不能在实际访问过程中,实现对各个用户的准确识别,很容易遗漏某些用户异常特征导致漏报,且实时性以及准确性较低,会因无法准确判断访问用户是否为高危授权用户而影响用户的会话操作;基于此,如何提供一种实时性以及准确性高的高危授权用户的识别方法,已成为一个亟待解决的问题。
发明内容
本发明的目的是提供基于集成学习的高危授权用户识别方法,用以解决现有技术中所存在的实时性和准确性较低的问题。
为了实现上述目的,本发明提供了一种基于集成学习的高危授权用户识别方法,包括:
获取目标用户的用户数据,并对目标用户的用户数据进行ETL操作,过程中还包括数据抽取、数据转换和数据加载步骤,以消除错误和重复的用户数据;其中,所述用户数据包括所述目标用户的行为数据、个人信息数据以及设备信息数据;
对所述用户数据中的行为数据、个人信息数据以及设备信息数据进行特征提取,以得到所述目标用户的用户特征;
对所述目标用户的用户特征进行特征选择,通过消除不相关或冗余的特征来减少用户数据的维度,从而降低计算复杂度;
使用线性判别分析法LDA将用户数据从高维映射到低维的空间;
获取基于集成学习的高危授权用户识别模型,其中,所述高危授权用户识别模型是以多个样本的用户特征为输入,各个样本的用户识别结果为输出而训练得到的;
将所述目标用户的用户特征输入至所述高危授权用户识别模型,获取目标用户的用户识别结果;高危授权用户识别模型根据用户识别结果中的量化异常数据和正常数据的差异给出一个评分,分值越小,异常程度越高。根据得分统计异常数据的来源及有哪些数据特征影响来判定是否为高危授权用户。
基于上述公开的内容,本发明预先构建了基于集成学习的高危授权用户识别模型,其中,该高危授权用户识别模型是以海量样本用户的样本用户特征为输入,各个样本用户的用户识别结果为输出来训练得到的;如此,在应用时,只需要获取目标用户的行为数据、个人信息数据以及设备信息数据,对数据进行ETL数据清洗,然后对前述数据进行特征提取,得到目标用户的用户特征;对用户特征进行特征选择,减少需要处理的数据量;最后,将其输入至前述高危授权用户识别模型,根据得到的异常得分,通过进一步优化即可判定出目标用户是否为高危授权用户。授权用户每一次登录时都会收到自己的风险评分,以此对授权用户进行管理和提醒。
通过上述设计,本发明在堡垒机中通过集成学习来构建出了高危授权用户识别模型,其中,集成学习能够获得比已存在的其他模型更高的预测性能,不但可以适用于不同数据类型的异常检测,能够更有效地处理高维非线性可分数据空间中的难例异常识别问题,从而更准确地捕获潜在的风险模式,不会漏掉异常信息;同时,在进行识别时,综合考虑了包含有用户行为、个人信息以及设备信息的多维度特征;如此,在使用训练得到的模型来检测异常行为时,能够准确地辨别可能存在高风险授权行为的用户;由此,本发明将基于梯度提升树的高危授权用户识别模型应用至堡垒机中梯度提升决策树(Gradient BoostingDecision Tree,GBDT),在堡垒机中识别高危用户时,使用梯度提升树的方式具有显著的优势。一方面,梯度提升树是一种基于boosting集成学习思想的加法模型,它通过多轮迭代训练一系列的弱分类器,并在每轮迭代中,根据上一轮分类器的残差来拟合一个新的决策树。另一方面,梯度提升决策树模型能够处理大量的特征和样本,对非线性问题有较好的解决能力,因此可以有效地应用于这种场景中,帮助我们从海量的数据中识别出潜在的高危用户。这使得梯度提升树模型具有优秀的预测性能和泛化能力。在实际访问过程中,实时的且有效地识别出潜在的高危授权用户,并进行相应的报警;基于此,本发明加强了***的安全性和身份验证过程,相比于传统技术,其实时性以及准确性得到了大幅提升,准确性跟此前比较提升了很多,非常适用于在***安全保护技术领域的大规模应用与推广。
在一个可能的设计中,所述目标用户的用户识别结果还包括高危用户置信度,并对其进行安全认证,所述方法包括:
基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级;
根据所述目标用户的风险等级,采取与所述目标用户的风险等级相对应的操作策略,对所述目标用户进行安全认证。
一个可能的设计中,基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级,包括:
若所述目标用户的高危用户置信度处于置信度阈值与第一风险阈值之间,则确定所述目标用户的风险等级为三级风险用户;
若所述目标用户的高危用户置信度处于第一风险阈值与第二风险阈值之间,则确定所述目标用户的风险等级为二级风险用户;
若所述目标用户的高危用户置信度大于第二风险阈值,则确定所述目标用户的风险等级为一级风险用户,其中,所述一级风险用户、所述二级风险用户以及所述三级风险用户的风险等级依次降低。
在一个可能的设计中,在对所述目标用户进行安全认证后,所述方法还包括:
判断所述目标用户是否通过安全认证;
若否,则生成所述目标用户的封锁指令,并执行所述封锁指令,以阻断所述目标用户对敏感***或资源的访问。
在一个可能的设计中,在获取目标用户的用户数据前,所述方法还包括:
获取多个样本用户的历史用户数据,其中,任一样本用户的历史用户数据包括该任一样本用户的历史行为数据、历史个人信息数据、历史设备信息数据以及该任一样本用户的用户标签,且所述用户标签包括高危授权用户或低风险授权用户;
对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征;
将各个样本用户的样本用户特征与各个样本用户的用户标签进行关联处理,得到多个关联特征数据,并将多个关联特征数据划分为训练集和测试集;
以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,并在训练完成后,使用测试集测试训练后的梯度提升树模型,以在测试结果满足预设条件时,将训练后的梯度提升树模型,作为所述高危授权用户识别模型。
在一个可能的设计中,对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征,包括:
对于任一样本用户对应的历史用户数据,对所述任一样本用户对应的历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行初次特征提取处理,得到所述任一样本用户的初始用户特征;
对所述任一样本用户对应的初始用户特征中的各个特征进行特征选择处理,以提取出所述任一样本用户对应初始用户特征中的关键特征;
利用提取出的关键特征,组成所述任一样本用户对应的样本用户特征。
在一个可能的设计中,以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,包括:
1.初始化:首先确定模型的基本参数,提取授权用户操作日志数据,如登录时间、登录地点、登录设备、操作频率等,作为学习模型的输入变量。
2.迭代训练决策树:迭代地训练一系列弱分类器,并将这些弱分类器的结果进行加权组合,得到最终的强分类器。具体包括在每一轮迭代中,梯度提升树都会根据上一轮分类器的残差来拟合一个新的决策树。具体来说,梯度提升树的目标是最小化损失函数,而这个损失函数是通过梯度下降法来求解的。梯度提升树会计算出当前模型的残差,然后根据这个残差来拟合出一颗新的决策树,从而更新模型参数。
3.异常得分计算:确定特征数据的信息熵和条件熵。信息熵是对数据集中的不确定性或混乱程度的度量,而条件熵则表示在已知某一特征的条件下,对数据的不确定性的度量。根据信息增益方法,量化的表示特征数据对训练数据集的信息贡献度,而每一种异常数据都存在独有的异常评分。当识别出异常以后,再根据高危行为是由哪一类异常数据带来评出最后的异常得分。
本发明的有益效果是:本发明在堡垒机中通过集成学习方式来构建出了高危授权用户识别模型,其中,集成学习能够获得比单个模型更高的预测性能,可以更准确地捕获潜在的风险模式;同时,在进行识别时,综合考虑了包含有用户行为、个人信息以及设备信息的多维度特征;如此,在使用集成学习而训练得到的模型来检测异常行为时,能够准确地辨别可能存在高风险授权行为的用户;由此,本发明将基于集成学习的高危授权用户识别模型应用至堡垒机中,可以在实际访问过程中,实时的且有效地识别出潜在的高危授权用户,并进行相应的报警;基于此,本发明加强了***的安全性和身份验证过程,相比于传统技术,其实时性以及准确性得到了大幅提升,非常适用于在***安全保护技术领域的大规模应用与推广。
附图说明
图1为本发明实施例提供的基于集成学习的高危授权用户识别方法的步骤流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:参见图1所示,本实施例所提供的基于集成学习的高危授权用户识别方法,该方法利用集成学习中的梯度提升树算法来实现高危授权用户的识别,即通过汇集多个决策树,来逐步提升模型性能,从而可准确地辨别可能存在高风险授权行为的用户,且在每轮迭代中,根据前一轮的误差进行调整,从而使梯度提升树逐渐聚焦于高危授权模式的特征,进而优化模型的精确度和稳定性,如此,这种集成方法在堡垒机中的应用,能够有效地识别出潜在的高危授权用户,其实时性和准确性相比于传统技术得到了大幅提升,可有效加强***的安全性;其中,举例本方法可以但不限于在堡垒机中运行,可以理解的,前述执行主体并不构成对本申请实施例的限定,相应的,本方法的运行步骤可以但不限于如下述步骤S1~S4所示。
S1. 获取目标用户的用户数据,其中,所述用户数据包括所述目标用户的行为数据、个人信息数据以及设备信息数据;在本实施例中,举例行为数据可以但不限于包括登录数据、操作数据和交易数据;个人信息特征可以但不限于包括用户身份验证信息、个人资料信息和账户类型等;设备信息数据则可以但不限于包括设备识别信息(如用户登陆的设备类型、操作***、浏览器等)、IP地址、设备历史(用户过去使用的设备列表和频率)等;当然,前述用户数据可通过爬取得到,且在目标用户每次授权或访问前进行获取,以便后续根据用户数据来进行目标用户高危授权行为的实时识别,并对目标用户的用户数据进行ETL操作,过程包括数据抽取、数据转换和数据加载,以消除错误和重复的数据。在获取到目标用户的用户数据后,则可进行特征提取,以便后续基于提取出的特征,来进行高危授权行为用户的识别,其中,特征提取过程如下述步骤S2所示。
在获取目标用户的用户数据前,所述方法还包括:
获取多个样本用户的历史用户数据,其中,任一样本用户的历史用户数据包括该任一样本用户的历史行为数据、历史个人信息数据、历史设备信息数据以及该任一样本用户的用户标签,且所述用户标签包括高危授权用户或低风险授权用户;
对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征;
将各个样本用户的样本用户特征与各个样本用户的用户标签进行关联处理,得到多个关联特征数据,并将多个关联特征数据划分为训练集和测试集;
以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,并在训练完成后,使用测试集测试训练后的梯度提升树模型,以在测试结果满足预设条件时,将训练后的梯度提升树模型,作为所述高危授权用户识别模型。
进一步的,对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征,包括:
对于任一样本用户对应的历史用户数据,对所述任一样本用户对应的历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行初次特征提取处理,得到所述任一样本用户的初始用户特征;
对所述任一样本用户对应的初始用户特征中的各个特征进行特征选择处理,以提取出所述任一样本用户对应初始用户特征中的关键特征;
S2. 对所述用户数据中的行为数据、个人信息数据以及设备信息数据进行特征提取处理,以得到所述目标用户的用户特征;在本实施例中,相当于选取出重要特征(即关键特征);如,从登录数据中的登录时间内提取出小时、分钟、日期等时间相关特征,或者从文本数据中提取关键词等;当然,前述关键特征为模型训练时所确定的,而关键特征的确定过程,在下述模型训练过程中进行详细阐述;如此,从用户数据中提取出包含有行为、个人信息以及设备信息的关键特征后,即可组成目标用户的用户特征。
在完成用户数据中关键特征的提取后,即可获取基于集成学习的高危授权用户识别模型,以便后续基于该模型和提取出的关键特征,来进行高危授权用户的识别;其中,模型获取过程可以但不限于如下述步骤S3所示。
S3. 获取基于集成学习的高危授权用户识别模型,其中,所述高危授权用户识别模型是以多个样本用户的样本用户特征为输入,各个样本用户的用户识别结果为输出而训练得到的;在本实施例中,实质是使用多个样本用户的用户特征,来训练集成学习中的梯度提升树模型,从而得到前述高危授权用户识别模型;其中,梯度提升树是一种异质集成方法,它通过在不同的数据子集上训练多个决策树,来得到最终模型;同时,这些树是按顺序构建的,每一棵树都用来修正前一棵树的预测错误,如此,在迭代过程中,使用不同特征子集来训练模型,即可在每一轮迭代中,使梯度提升树逐渐聚焦于高危授权模式的特征,进而优化模型的精确度和稳定性。
在具体应用时,下述公开梯度提升树的其中一种训练方法,可以但不限于如下述步骤所示:
步骤一:获取多个样本用户的历史用户数据,其中,任一样本用户的历史用户数据包括该任一样本用户的历史行为数据、历史个人信息数据、历史设备信息数据以及该任一样本用户的用户标签,且所述用户标签包括高危授权用户或低风险授权用户;在具体应用时,这些标签也可以是多类别的,例如,分为不同级别的高危性质;同时,前述历史行为数据、历史个人信息数据和历史设备信息数据所包含的内容与前述用户数据相同,于此不再赘述。
在得到多个样本用户的历史用户数据后,则可进行特征提取,如下述步骤二所示。
步骤二:对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征;在本实施例中,可以但不限于先从各个历史用户数据中,进行初始特征提取,然后再从初始特征中提取出关键特征,从而来组成最终的样本用户特征;可选的,由于各个历史行为数据的特征提取过程相同,下述以任一样本用户为例,来具体阐述前述两次特征提取过程,可以但不限于如下述步骤(1)~(3)所示。
步骤(1):对于任一样本用户对应的历史用户数据,对所述任一样本用户对应的历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行初次特征提取处理,得到所述任一样本用户的初始用户特征;在具体应用时,可以但不限于对各个历史行为数据、历史个人信息数据以及历史设备信息数据进行有效信息提取(如登录数据中的登录时间、操作行为,设备信息中的设备名称,IP地址等等),并将提取出的有效信息,作为初始用户特征。
在得到前述任一样本用户对应的初始用户特征后,即可从初始用户特征提取出关键特征,其中,关键特征提取过程可以但不限于如下述步骤(2)所示。
步骤(2):对所述任一样本用户对应的初始用户特征中的各个特征进行特征选择处理,以提取出所述任一样本用户对应初始用户特征中的关键特征;在具体应用时,可以但不限于使用方差分析、互信息算法来计算初始用户特征中各个特征的重要性或相关性,从而根据重要性和相关性来进行特征选择,从而提取出关键特征;同时,还可使用梯度提升树模型中的特征重要性来进行特征选择;当然,基于方差分析、互信息算法来进行重要性或相关性分析,为特征选择中的常用技术,其原理不再赘述。
在完成关键特征提取后,即可利用提取的关键特征,来组成该任一样本用户对应的样本用户特征,如下述步骤(3)所示。
步骤(3):利用提取出的关键特征,组成所述任一样本用户对应的样本用户特征。
由此通过前述步骤(1)~步骤(3),即可提取出从各个样本用户的初始用户特征中提取出关键特征,从而组成各个样本用户的样本用户特征;而后,即可将各个样本用户特征与对应样本用户的用户标签进行关联,从而得到关联数据;其中,数据关联过程如下述步骤三所示。
步骤三:将各个样本用户的样本用户特征与各个样本用户的用户标签进行关联处理,得到多个关联特征数据,并将多个关联特征数据划分为训练集和测试集;在本实施例中,举例可以但不限于按照预设比例,来将多个关键特征数据划分为训练集和测试集;可选的,优选按照8:2的比例进行数据的划分。
在得到训练集和测试集后,即可进行梯度提升树的训练,其训练过程如下述步骤四所示。
步骤四:以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,并在训练完成后,使用测试集测试训练后的梯度提升树模型,以在测试结果满足预设条件时,将训练后的梯度提升树模型,作为所述高危授权用户识别模型;在本实施例中,任一样本用户的用户识别结果为高危用户置信度;如此,即可根据该置信度,并结合标签数据,来进行模型的调整。
其中,在本实施例中,模型训练过程如下述步骤a~f所示。
a.初始化迭代次数t为1,并从所述训练集中提取出第t次迭代时的训练子集;在本实施例中,在每次迭代时,可以但不限于从训练集中有放回的随机选取出若干训练数据,来组成每次迭代时的训练子集。
在得到第t次迭代时的训练子集后,即可基于此来进行模型训练,如下述步骤b~d所示。
b.以所述训练子集为输入,训练梯度提升树模型,以得到第t次迭代时的模型残差;在本实施例中,第t次迭代的训练输入与输出与前述一致,于此不再赘述;同时,举例可以但不限于采用如下公式(1),来计算出第t次迭代时的模型残差。
r_(it)=yi-F_{t-1}(xi),i=1,2,...,N (1)
上述公式(1)中,r_(it)表示第t次迭代时的模型残差,yi表示第t次迭代时的训练子集中的第i个训练数据的真实值(即标签数据);xi表示第i个训练数据,F_{t-1}表示第t-1次迭代时的模型预测值,N表示第t次迭代时的训练子集中的数据总数;同时,当t为1时,F_{t-1}为初始值,且。
在得到第t次迭代时的模型残差后,即可使用模型残差,来反过来训练模型,其训练过程如下述步骤c所示。
c.利用所述模型残差训练所述梯度提升树模型,得到第t次迭代时的模型预测函数;在本实施例中,模型预测函数相当于是通过残差,来新训练得到的回归树。
在得到模型预测函数后,即可进行模型的更新,其中,更新过程如下述步骤d所示。
d. 利用所述模型预测函数,更新所述梯度提升树模型,得到更新后的梯度提升树模型;在具体实施时,距离可以但不限于采用如下公式(2),来进行模型的更新。
F_t+1(x) = F_t(x) + η* h_t(x) (2)
上述公式(2)中,F_t+1(x) 表示更新后的梯度提升树模型, F_t(x) 表示第t次迭代时训练后的模型(即步骤b中得到的模型输出), h_t(x) 为第t次迭代时的模型预测函数,η表示学习率。
在基于前述公式(2),完成模型的更新后,即可结束第t次迭代;而后,则需要判断是否满足结束条件,并在不满足时,跳转至步骤a,并不断重复,直至满足结束条件时为止;其中,判断过程以及循环迭代过程如下述步骤e和步骤f所示。
e. 判断是否达到训练结束条件,其中,所述训练结束条件包括t是否等于最大迭代次数。
f. 若否,将t自加1以及将所述梯度提升树模型替换为所述更新后的梯度提升树模型,并重新从所述训练集中提取出第t次迭代时的训练子集,以重新训练所述梯度提升树模型,直至达到训练结束条件时为止,以在达到训练结束条件时,得到训练后的梯度提升树模型。
由此通过前述步骤a~f,即可完成梯度提升树的训练,得到训练后的梯度提升树模型;而后,即可用测试集来进行模型的测试;其中,举例可以但不限于使用K折交叉验证方法,来进行模型的测试,且使用准确率、召回率、F1分数、均方误差等指标来度量模型性能;如此,在经过K轮交叉验证后,则可将K个性能评估结果进行汇总(通常采用平均值作为模型性能的最终度量),从而来判断模型是否达到预设条件。
另外,在本实施例中,进行特征提取前,还需要进行数据的预处理,如对数据进行清洗、转换和归一化等操作;当然,前述过程为数据预处理的常用技术,其原理不再赘述。
由此通过前述设计,堡垒机收集所有在线用户的历史用户数据,并以此来训练集成学习模型如此,可提高识别的准确性;同时,梯度提升树在训练过程中可以自动适应数据的复杂性,因此,对于不同类型的高危授权用户识别问题具有很强的适应性。
通过前述步骤完成梯度提升树模型的训练以及测试后,即可构建出基于集成学习的高危授权用户识别模型;而后,将前述步骤S2所得到的用户特征输入至该高危授权用户识别模型中,则可得到目标用户的识别结果;其中,识别过程如下述步骤S4所示。
S4. 将所述目标用户的用户特征输入至所述高危授权用户识别模型,得到所述目标用户的用户识别结果,并在所述用户识别结果为目标用户属于高危授权用户时,进行安全报警;在本实施例中,举例所述目标用户的用户识别结果包括高危用户置信度,因此,当高危用户置信度大于或等于置信度阈值时,则可判定目标用户属于高危授权用户;同时,置信度阈值可根据实际使用而具体设定,在此不作具体限定。
更进一步的,在判定出目标用户属于高危授权用户后,本实施例还设置有相应的安全限制步骤,其运行过程如下述步骤S41和步骤S42所示。
S41. 基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级;在本实施例中,可设置不同的风险阈值,从而来根据高危用户置信度与风险阈值之间的大小关系,来确定出目标用户的风险等级;其中,若所述目标用户的高危用户置信度处于置信度阈值与第一风险阈值之间,则确定所述目标用户的风险等级为三级风险用户;若所述目标用户的高危用户置信度处于第一风险阈值与第二风险阈值之间,则确定所述目标用户的风险等级为二级风险用户;而若所述目标用户的高危用户置信度大于第二风险阈值,则确定所述目标用户的风险等级为一级风险用户;在具体应用时,所述一级风险用户、所述二级风险用户以及所述三级风险用户的风险等级依次降低,且置信度阈值小于第一风险阈值,第一风险阈值小于第二风险阈值;当然,前述风险阈值也可根据实际使用而具体设定,在此不作具体限定。
在确定出目标用户的风险等级后,即可根据风险等级来执行相应的操作策略,如下述步骤S42所示。
S42. 根据所述目标用户的风险等级,采取与所述目标用户的风险等级相对应的操作策略,对所述目标用户进行安全认证;在本实施例中,若目标用户为一级风险用户,可以采取更严格的操作,如多次验证、额外的身份验证等,以确保用户的身份和行为安全,如果继续出现威胁则限制用户登录;若目标用户为二级风险用户,则采取一些中等级别的操作,如限制某些敏感功能的访问、发送风险提示等,以提高安全性;而若目标用户为三级风险用户,可以采取较轻松的操作,如普通身份验证和监测;当然,前述不同等级对应的操作策略也可根据实际使用而具体设定,在此不限定于前述举例。
所述目标用户的用户识别结果还包括高危用户置信度,并对其进行安全认证,所述方法包括:
基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级;
根据所述目标用户的风险等级,采取与所述目标用户的风险等级相对应的操作策略,对所述目标用户进行安全认证。
进一步的,基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级,包括:
若所述目标用户的高危用户置信度处于置信度阈值与第一风险阈值之间,则确定所述目标用户的风险等级为三级风险用户;
若所述目标用户的高危用户置信度处于第一风险阈值与第二风险阈值之间,则确定所述目标用户的风险等级为二级风险用户;
若所述目标用户的高危用户置信度大于第二风险阈值,则确定所述目标用户的风险等级为一级风险用户,其中,所述一级风险用户、所述二级风险用户以及所述三级风险用户的风险等级依次降低。
另外,在经过前述步骤安全认证后,本实施例还会判断所述目标用户是否通过安全认证;若未通过安全认证,则可生成所述目标用户的封锁指令,并执行所述封锁指令,以阻断所述目标用户对敏感***或资源的访问;即实现对实际高危授权用户的强制下线,并收回其之前所获得的危险权限;如此,这种方式可以确保高危用户不再能够访问敏感***或资源,并从***中移除其不安全的权限设置。
由此通过前述步骤S1~S4所详细描述的基于集成学习的高危授权用户识别方法,本发明利用集成学习中的梯度提升树算法来实现高危授权用户的识别,即通过汇集多个决策树,来逐步提升模型性能,从而可准确地辨别可能存在高风险授权行为的用户,且在每轮迭代中,根据前一轮的误差进行调整,从而使梯度提升树逐渐聚焦于高危授权模式的特征,进而优化模型的精确度和稳定性,如此,这种集成方法在堡垒机中的应用,能够有效地识别出潜在的高危授权用户,其实时性和准确性相比于传统技术得到了大幅提升,可有效加强***的安全性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于集成学习的高危授权用户识别方法,其特征在于,应用于堡垒机,包括:
获取目标用户的用户数据,并对目标用户的用户数据进行ETL操作,过程中还包括数据抽取、数据转换和数据加载步骤,以消除错误和重复的用户数据;其中,所述用户数据包括所述目标用户的行为数据、个人信息数据以及设备信息数据;
对所述用户数据中的行为数据、个人信息数据以及设备信息数据进行特征提取,以得到所述目标用户的用户特征;
对所述目标用户的用户特征进行特征选择,通过消除不相关或冗余的特征来减少用户数据的维度,从而降低计算复杂度;
使用线性判别分析法LDA将用户数据从高维映射到低维的空间;
获取基于集成学习的高危授权用户识别模型,其中,所述高危授权用户识别模型是以多个样本的用户特征为输入,各个样本的用户识别结果为输出而训练得到的;
将所述目标用户的用户特征输入至所述高危授权用户识别模型,获取目标用户的用户识别结果;高危授权用户识别模型根据用户识别结果中的量化异常数据和正常数据的差异给出一个评分,分值越小,异常程度越高。
2.根据权利要求1所述的基于集成学习的高危授权用户识别方法,其特征在于,所述目标用户的用户识别结果还包括高危用户置信度,并对其进行安全认证,所述方法包括:
基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级;
根据所述目标用户的风险等级,采取与所述目标用户的风险等级相对应的操作策略,对所述目标用户进行安全认证。
3.根据权利要求2所述的基于集成学习的高危授权用户识别方法,其特征在于,基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级,包括:
若所述目标用户的高危用户置信度处于置信度阈值与第一风险阈值之间,则确定所述目标用户的风险等级为三级风险用户;
若所述目标用户的高危用户置信度处于第一风险阈值与第二风险阈值之间,则确定所述目标用户的风险等级为二级风险用户;
若所述目标用户的高危用户置信度大于第二风险阈值,则确定所述目标用户的风险等级为一级风险用户,其中,所述一级风险用户、所述二级风险用户以及所述三级风险用户的风险等级依次降低。
4.根据权利要求2所述的基于集成学习的高危授权用户识别方法,其特征在于,在对所述目标用户进行安全认证后,所述方法还包括:
判断所述目标用户是否通过安全认证;
若否,则生成所述目标用户的封锁指令,并执行所述封锁指令,以阻断所述目标用户对敏感***或资源的访问。
5.根据权利要求1所述的基于集成学习的高危授权用户识别方法,其特征在于,在获取目标用户的用户数据前,所述方法还包括:
获取多个样本用户的历史用户数据,其中,任一样本用户的历史用户数据包括该任一样本用户的历史行为数据、历史个人信息数据、历史设备信息数据以及该任一样本用户的用户标签,且所述用户标签包括高危授权用户或低风险授权用户;
对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征;
将各个样本用户的样本用户特征与各个样本用户的用户标签进行关联处理,得到多个关联特征数据,并将多个关联特征数据划分为训练集和测试集;
以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,并在训练完成后,使用测试集测试训练后的梯度提升树模型,以在测试结果满足预设条件时,将训练后的梯度提升树模型,作为所述高危授权用户识别模型。
6.根据权利要求5所述的基于集成学习的高危授权用户识别方法,其特征在于,对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征,包括:
对于任一样本用户对应的历史用户数据,对所述任一样本用户对应的历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行初次特征提取处理,得到所述任一样本用户的初始用户特征;
对所述任一样本用户对应的初始用户特征中的各个特征进行特征选择处理,以提取出所述任一样本用户对应初始用户特征中的关键特征;
利用提取出的关键特征,组成所述任一样本用户对应的样本用户特征。
7.根据权利要求5所述的基于集成学习的高危授权用户识别方法,其特征在于,以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,包括:
初始化迭代次数t为1,并从所述训练集中提取出第t次迭代时的训练子集;
以所述训练子集为输入,训练梯度提升树模型,以得到第t次迭代时的模型残差;
利用所述模型残差训练所述梯度提升树模型,得到第t次迭代时的模型预测函数;
利用所述模型预测函数,更新所述梯度提升树模型,得到更新后的梯度提升树模型;
判断是否达到训练结束条件,其中,所述训练结束条件包括t是否等于最大迭代次数;
若否,将t自加1以及将所述梯度提升树模型替换为所述更新后的梯度提升树模型,并重新从所述训练集中提取出第t次迭代时的训练子集,以重新训练所述梯度提升树模型,直至达到训练结束条件时为止,以在达到训练结束条件时,得到训练后的梯度提升树模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410014208.2A CN117521042B (zh) | 2024-01-05 | 2024-01-05 | 基于集成学习的高危授权用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410014208.2A CN117521042B (zh) | 2024-01-05 | 2024-01-05 | 基于集成学习的高危授权用户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521042A true CN117521042A (zh) | 2024-02-06 |
CN117521042B CN117521042B (zh) | 2024-05-14 |
Family
ID=89753559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410014208.2A Active CN117521042B (zh) | 2024-01-05 | 2024-01-05 | 基于集成学习的高危授权用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521042B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017020713A1 (zh) * | 2015-08-03 | 2017-02-09 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN110166438A (zh) * | 2019-04-19 | 2019-08-23 | 平安科技(深圳)有限公司 | 账户信息的登录方法、装置、计算机设备及计算机存储介质 |
CN111178767A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 风险控制方法及***、计算机设备及计算机可读存储介质 |
CN112417439A (zh) * | 2019-08-21 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 账号检测方法、装置、服务器及存储介质 |
CN113468510A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 异常登录行为数据检测方法及装置 |
CN113610366A (zh) * | 2021-07-23 | 2021-11-05 | 上海淇玥信息技术有限公司 | 风险警告生成方法、装置及电子设备 |
CN114398966A (zh) * | 2021-12-31 | 2022-04-26 | 北京久安世纪科技有限公司 | 一种基于堡垒机对用户画像进行预警的方法 |
CN115700787A (zh) * | 2021-07-14 | 2023-02-07 | 中移(成都)信息通信科技有限公司 | 一种异常对象的识别方法、装置、电子设备及存储介质 |
CN116723018A (zh) * | 2023-06-13 | 2023-09-08 | 中国电信股份有限公司 | 一种网络特征分析方法、装置、电子设备及存储介质 |
-
2024
- 2024-01-05 CN CN202410014208.2A patent/CN117521042B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017020713A1 (zh) * | 2015-08-03 | 2017-02-09 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN110166438A (zh) * | 2019-04-19 | 2019-08-23 | 平安科技(深圳)有限公司 | 账户信息的登录方法、装置、计算机设备及计算机存储介质 |
CN112417439A (zh) * | 2019-08-21 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 账号检测方法、装置、服务器及存储介质 |
CN111178767A (zh) * | 2019-12-31 | 2020-05-19 | 中国银行股份有限公司 | 风险控制方法及***、计算机设备及计算机可读存储介质 |
CN115700787A (zh) * | 2021-07-14 | 2023-02-07 | 中移(成都)信息通信科技有限公司 | 一种异常对象的识别方法、装置、电子设备及存储介质 |
CN113468510A (zh) * | 2021-07-15 | 2021-10-01 | 中国银行股份有限公司 | 异常登录行为数据检测方法及装置 |
CN113610366A (zh) * | 2021-07-23 | 2021-11-05 | 上海淇玥信息技术有限公司 | 风险警告生成方法、装置及电子设备 |
CN114398966A (zh) * | 2021-12-31 | 2022-04-26 | 北京久安世纪科技有限公司 | 一种基于堡垒机对用户画像进行预警的方法 |
CN116723018A (zh) * | 2023-06-13 | 2023-09-08 | 中国电信股份有限公司 | 一种网络特征分析方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HAO KONG等: "The Risk Prediction of Mobile User Tricking Account Overdraft Limit based on Fusion Model of Logistic and GBDT", ITNEC, 6 June 2019 (2019-06-06) * |
周杰: "基于生成对抗网络的异常检测方法的研究", 中国优秀博硕士学位论文全文数据库(硕士), 15 February 2021 (2021-02-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117521042B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108718310B (zh) | 基于深度学习的多层次攻击特征提取及恶意行为识别方法 | |
CN108566364B (zh) | 一种基于神经网络的入侵检测方法 | |
CN111914873A (zh) | 一种两阶段云服务器无监督异常预测方法 | |
CN107241358B (zh) | 一种基于深度学习的智能家居入侵检测方法 | |
CN111598179B (zh) | 电力监控***用户异常行为分析方法、存储介质和设备 | |
CN117220978B (zh) | 一种网络安全运营模型量化评估***及评估方法 | |
CN112637108B (zh) | 一种基于异常检测和情感分析的内部威胁分析方法及*** | |
Hong et al. | The entropy and PCA based anomaly prediction in data streams | |
Kalyani et al. | Performance assessment of different classification techniques for intrusion detection | |
CN116957049B (zh) | 基于对抗自编码器的无监督内部威胁检测方法 | |
CN116633689B (zh) | 基于网络安全分析的数据存储风险预警方法及*** | |
CN117056951B (zh) | 一种数字平台的数据安全管理方法 | |
CN117992953A (zh) | 基于操作行为跟踪的异常用户行为识别方法 | |
CN111784404B (zh) | 一种基于行为变量预测的异常资产识别方法 | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
CN117692242A (zh) | 一种基于图谱分析的网络攻击路径分析方法 | |
CN117407816A (zh) | 一种基于对比学习的多元时间序列异常检测方法 | |
CN117478358A (zh) | 一种决策推荐方法及装置 | |
CN117521042B (zh) | 基于集成学习的高危授权用户识别方法 | |
AL-Maliki et al. | Comparison study for NLP using machine learning techniques to detecting SQL injection vulnerabilities | |
CN116776334A (zh) | 一种基于大数据的办公软件漏洞分析方法 | |
Zhang et al. | False data injection attack testbed of industrial cyber-physical systems of process industry and a detection application | |
Guibene et al. | A pattern mining-based false data injection attack detector for industrial cyber-physical systems | |
Osamor et al. | Deep learning-based hybrid model for efficient anomaly detection | |
CN117807590B (zh) | 基于人工智能的信息安全预测及监控***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |