CN115883163A - 网络安全告警监测方法 - Google Patents

网络安全告警监测方法 Download PDF

Info

Publication number
CN115883163A
CN115883163A CN202211492668.3A CN202211492668A CN115883163A CN 115883163 A CN115883163 A CN 115883163A CN 202211492668 A CN202211492668 A CN 202211492668A CN 115883163 A CN115883163 A CN 115883163A
Authority
CN
China
Prior art keywords
alarm
frequency
coding
attack
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211492668.3A
Other languages
English (en)
Inventor
吴琪
王浩
甄倩
王爱宗
胡来刚
聂成林
钟响亮
田海瑞
许珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China Anhui Branch
Original Assignee
Agricultural Bank of China Anhui Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China Anhui Branch filed Critical Agricultural Bank of China Anhui Branch
Priority to CN202211492668.3A priority Critical patent/CN115883163A/zh
Publication of CN115883163A publication Critical patent/CN115883163A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于网络安全技术领域,特别涉及一种网络安全告警监测方法,能量化网络访问的风险值,告警的过滤规则也可以根据需求调整,以满足不同场景的监测分析需求。在实际应用过程中,大量的高风险告警与低风险告警得以被排查并过滤,运行人员只需对风险判断存疑的告警进行人工检测分析,显著降低网络安全监测分析工作的强度和复杂性。

Description

网络安全告警监测方法
技术领域
本发明属于网络安全技术领域,特别涉及一种网络安全告警监测方法。
背景技术
随着银行业数字化程度不断扩展和信息技术的快速发展,基于互联网的产品和应用越来越多,银行业务***遭受的网络威胁也越来越多样化,在***监测过程中会收到到大量告警。面对海量和多样化的网络安全告警,常见的解决方案是根据专家规则对告警的威胁等级进行分级,运行人员优先对高级别告警进行处置。尽管专家规则能减轻运行人员的分析工作,但分级规则一来网络安全专家对历史网络攻击行为的归纳总结,普适性及时效性差,不能扩展和迁移到新的生产场景。同时,网络威胁手段日益变化,专家规则中未记录的新的网络攻击行为无法被识别,存在漏报严重的情况,实际监测、分析和处置环节均无法脱离人工,运行人员实时监测和在线分析的压力大。
中国专利CN114816909A公开了一种基于机器学***衡预测结果的误报率和漏报率,仍旧不能满足减少运行人员实时监测和在线分析的压力。
发明内容
本发明的目的在于提供一种在有效保障网络运行安全的前提下能减轻人工分析压力的网络安全告警监测方法。
为实现以上目的,本发明采用的技术方案为:一种网络安全告警监测方法,包括如下步骤:
A、按照威胁级别标记历史日志中的攻击事件,并对历史日志数据进行预处理与特征提取;
从历史日志中提取的特征包括类别型特征,对类别型特征进行标签编码或频率编码,并对进行频率编码后的特征进一步进行一位有效编码或对频率编码结果按照其频次顺序进行标签编码,以保留类别变量中的子类频次属性和高频分布标识;
B、应用XGBoost算法学习历史日志中攻击事件的规则,构建告警模型,并将告警模型部署在告警***中;
C、告警模型在线分析实时网络访问信息后,量化并输出各攻击访问事件的风险值,
输出的风险值低于阈值a时,过滤该告警信息;
输出的风险值高于阈值b时,封禁攻击访问事件的访问ID;
输出的风险值在[a,b]区间时,将告警信息呈送至人工处理平台。
与现有技术相比,本发明存在以下技术效果:网络访问的安全风险监测得以量化,告警的过滤规则也可以根据需求灵活调整,从而满足不同场景的监测分析需求,模型泛化和扩展性强。在实际应用过程中,大量的高风险告警与低风险告警得以被排查并过滤,运行人员只需对风险判断存疑的告警进行人工检测分析,显著降低网络安全监测分析工作的强度和复杂性。
具体实施方式
下面通过对实施例的描述,对本发明的具体实施方式作进一步详细说明。
一种网络安全告警监测方法,包括如下步骤:
A、按照威胁级别标记历史日志中的攻击事件,并对历史日志数据进行预处理与特征提取。
B、应用XGBoost算法学习历史日志中攻击事件的规则,构建告警模型,并将告警模型部署在告警***中。
C、告警模型在线分析实时网络访问信息后,量化并输出各攻击访问事件的风险值,风险值越大,表示该访问是外部网络攻击等异常行为的可能性越大。
输出的风险值低于阈值a时,过滤该告警信息;
输出的风险值高于阈值b时,封禁攻击访问事件的访问ID;
输出的风险值在[a,b]区间时,将告警信息呈送至人工处理平台。
对告警***中的误报告警和低风险告警信息进行过滤,可以去除海量的低风险告警日志信息,减轻运行人员的实时分析研判压力;对高风险的告警信息,如外部网络攻击行为,通过自动化处置装置联动告警***的采集端,实现对风险IP的临时封禁等处置措施,中断高风险访问行为对内部网络的攻击。运行人员有限处理告警级别较高的异常访问行为,同时对临时封禁IP等自动处置措施进行复核,能大大提高了对高风险网络攻击行为的处置相应速度。风险值的过滤阈值可以根据需求调整,告警模型的监测分析应用更加灵活多变,
步骤A中,历史日志数据中访问事件的威胁级别由人工根据需求设定并标注。历史日志数据经过内容提取后,可能存在缺失、重复数据,经补充与清洗后,将每条访问信息处理成统一的标准化数据格式。历史日志数据包含告警信息的事件ID、访问时间、来源地址等。
告警日志数据主要包含数值型、类别型和文本型特征。对日志字段的特征进行加工、衍生和编码,将其转换为机器学习模型能够识别和计算的特征类型。
例如,
1、访问时间作为数值型特征,可以拆分为年、月、日、星期、小时、分钟、秒钟等特征,本实施例剔除年、分钟和秒钟信息,仅对访问时间的月、日、星期、小时进行提取。
2、威胁级别作为类别型特征,本实施例按照标定的威胁级别对历史日志信息进行标签编码。
3、事件ID作为类别型特征,本实施例根据事件ID中各子类出现的频次进行频率编码(Frequency Encoding),再根据频率编码中各子类的频次顺序关系进行标签编码(labelencoding),同时对频率编码中各子类进行一位有效编码(One-Hot编码),识别出现频次最高的子类。这样既能保留事件ID中子类的频次属性,还能标识其子类的高频分布,该特征提取方法还可以用于攻击事件等其他类别型数据的特征提取。
其中,事件ID为本领域常用的攻击事件类别,可以从相关工具书中查询;攻击类型通常包括侦查、访问、拒绝服务等。
4、IP地址字段类同时作为类型特征与数值特征参与模型构建,从而保留字段的内在规则和数理特性。本实施例根据网段规则进行IP地址段划分,作为类别变量编码进行编码,转为类型特征,同时,将IP地址字段直接转换为数值,两组特征均作为特征参数参与告警模型的构建。常见的IP地址字段,包括来源地址(srcAddress)、请求头(requestHeader)等。
5、端口号、安全域等连续数值型的特征,先截断数据两端异常值,再采用分箱和分区方法,按照数值分布的百分比例划分成确定的箱/块,避免连续数值变量中的异常值和噪声波动对后期模型训练产生的负面影响。
6、如事件名称、报文首行等文本信息包含网络安全中较为敏感的特定字段组合等重要特征,可以对其文本信息进行汇总,对文本内容进行词性分析、关键词抽取和停用词移除处理,再基于信息检索与数据挖掘技术(TF-IDF),计算文本分词内容中的词频和逆向文件频率,应用加权算法对语料库中的关键词内容做编码,得到日志的文本编码向量作为文本加工特征。
本实施例对历史日志中访问信息的数据分别采用不同的特征提取手段,保留数据的重要特征,其中关键数据保留多维特征,为告警模型训练的准确性奠定坚实基础。
通常,初期提取的特征可能高达6000维以上,并且大部分为文本特征,特征维度高,且训练集数据量少。为降低特征的维度,提高构建模型的鲁棒性,本实施例在对历史日志数据进行特征提取后,先基于卡方检验剔除与训练标签相关性低于设定阈值的特征,然后根据筛选后特征间的person系数,进一步剔除线性相关程度高于设定阈值的特征,避免特征相关性对模型训练过程的干扰。再在告警模型训练的过程中,结合包裹法和方差分析法,对剩余特征进行XGBoost模型多轮训练,每次训练随机选取1/3特征进行五折交叉训练,计算同一特征在不同特征组合和不同训练批次中的重要性权值(百分比)和方差,进一步剔除重要性权值低于设定阈值或方差大于设定阈值的特征,最终选取的特征维度小于等于2000。其中,包裹法是使用一个目标函数来进行多轮训练,每轮训练次选择若干特征或者排除若干特征,再基于新的特征集进行下一轮训练,直到选出最佳的特征子集为止;方差法是先计算各个特征的方差,然后根据设定阈值,选择方差大于阈值的特征。
由于历史日志中高风险网络攻击告警的样本在训练集中的比例较低,使得历史日志数据中心高风险网络攻击告警的样本数量显著低于中低风险的网络攻击告警样本。为避免样本数量不平衡导致的高风险告警监测误差,本实施例在告警模型的构建过程中,基于历史日志数据的学习过程包括如下两个阶段:
第一阶段对历史日志中对标记的网络攻击告警进行插值采样,即设计抽样函数,利用最邻近算法对少数类样本点进行近邻随机插值,构造网络攻击告警的插值样本组,所述的插值样本组与原始告警数据组合形成训练集;
第二阶段针对第一阶段得到的训练集,计算每个特征的最佳分割点并挑选出收益最大的特征。
第一阶段能合成稀缺样本,同时减少多数样本的采样比例,改善原始训练集中样本类别不平衡问题,避免模型对稀疏高风险网络安全告警缺少关注,导致识别不准的问题。第一阶段与第二阶段的进行多次迭代学习后,可以得到识别准确率符合要求的合成数据和特征分割点组合。
将离线学习的告警模型不熟在告警***的管理端,采集网络的实时告警信息并送入告警模型进行测试运行,得到该告警模型对实时告警信息的风险预测结果,同时应用现有的专家规则对实时告警信息进行人工监测和复核,能显著降低网络安全监测分析工作的强度和复杂性。针对告警模型漏报、误报的情况对其参数进行调整,待运行一定时长后,在识别准确率达标后,便能将告警模型输出结果接入自动告警处置模块,对威胁访问实时进行分级处理,从而缩小运行人员的监测关注范围,实现80%的误报和低风险告警信息过滤,中风险告警信息人工干预和高风险网络告警的自动封禁等防御措施,实现网络安全告警的在线自动化监测分析。

Claims (5)

1.一种网络安全告警监测方法,包括如下步骤:
A、按照威胁级别标记历史日志中的攻击事件,并对历史日志数据进行预处理与特征提取;
从历史日志中提取的特征包括类别型特征,对类别型特征进行标签编码或频率编码,并对进行频率编码后的特征进一步进行一位有效编码或对频率编码结果按照其频次顺序进行标签编码,以保留类别变量中的子类频次属性和高频分布标识;
B、应用XGBoost算法学习历史日志中攻击事件的规则,构建告警模型,并将告警模型部署在告警***中;
C、告警模型在线分析实时网络访问信息后,量化并输出各攻击访问事件的风险值,
输出的风险值低于阈值a时,过滤该告警信息;
输出的风险值高于阈值b时,封禁攻击访问事件的访问ID;
输出的风险值在[a,b]区间时,将告警信息呈送至人工处理平台。
2.根据权利要求1所述的网络安全告警监测方法,其特征在于:所述的类别型特征包括事件ID、攻击类型、威胁级别,
针对事件ID、攻击类型的特征提取方法为,根据事件ID或攻击类型中各子类的出现频次进行频率编码,再根据频率编码中各子类的频次顺序关系进行标签编码,同时对频率编码中各子类进行一位有效编码,识别出现频次最高的子类;
针对威胁级别的特征提取方法为,按照标定的威胁级别对历史日志信息进行标签编码。
3.根据权利要求1所述的网络安全告警监测方法,其特征在于:从历史日志中提取的特征还包括IP地址字段,针对IP地址字段数据,根据网段规则进行IP地址段划分,作为类别变量编码进行编码,转为类型特征;同时,IP地址字段直接转换为数值。
4.根据权利要求1所述的网络安全告警监测方法,其特征在于:所述的步骤A中,对历史日志数据进行特征提取后,先基于卡方检验剔除与训练标签相关性低于设定阈值的特征,然后根据筛选后特征间的person系数,进一步剔除线性相关程度高于设定阈值的特征;
在步骤B中,结合包裹法和方差分析法,对剩余特征进行XGBoost模型多轮训练,每次训练随机选取1/3特征进行五折交叉训练,计算同一特征在不同特征组合和不同训练批次中的重要性权值(百分比)和方差,进一步剔除重要性权值低于设定阈值或方差大于设定阈值的特征,最终选取的特征维度小于等于2000。
5.根据权利要求1所述的网络安全告警监测方法,其特征在于:在告警模型的构建过程中,基于历史日志数据的学习过程包括两个阶段,
第一阶段对历史日志中对标记的网络攻击告警进行插值采样,构造网络攻击告警的插值样本组,所述的插值样本组与原始告警数据组合形成训练集;
第二阶段针对第一阶段得到的训练集,计算每个特征的最佳分割点并挑选出收益最大的特征。
CN202211492668.3A 2022-11-25 2022-11-25 网络安全告警监测方法 Pending CN115883163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211492668.3A CN115883163A (zh) 2022-11-25 2022-11-25 网络安全告警监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211492668.3A CN115883163A (zh) 2022-11-25 2022-11-25 网络安全告警监测方法

Publications (1)

Publication Number Publication Date
CN115883163A true CN115883163A (zh) 2023-03-31

Family

ID=85764052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211492668.3A Pending CN115883163A (zh) 2022-11-25 2022-11-25 网络安全告警监测方法

Country Status (1)

Country Link
CN (1) CN115883163A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116962080A (zh) * 2023-09-19 2023-10-27 中孚信息股份有限公司 基于网络节点风险评估的告警过滤方法、***及介质
CN117291428A (zh) * 2023-11-17 2023-12-26 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116962080A (zh) * 2023-09-19 2023-10-27 中孚信息股份有限公司 基于网络节点风险评估的告警过滤方法、***及介质
CN116962080B (zh) * 2023-09-19 2023-12-15 中孚信息股份有限公司 基于网络节点风险评估的告警过滤方法、***及介质
CN117291428A (zh) * 2023-11-17 2023-12-26 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理***
CN117291428B (zh) * 2023-11-17 2024-03-08 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理***

Similar Documents

Publication Publication Date Title
CN115883163A (zh) 网络安全告警监测方法
CN112114995B (zh) 基于进程的终端异常分析方法、装置、设备及存储介质
CN110990393A (zh) 一种行业企业数据异常行为的大数据识别方法
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及***
CN105376193A (zh) 安全事件的智能关联分析方法与装置
CN115277180B (zh) 一种区块链日志异常检测与溯源***
CN115296933B (zh) 一种工业生产数据风险等级评估方法及***
CN113591485B (zh) 一种基于数据科学的智能化数据质量稽核***及方法
CN115222303B (zh) 基于大数据的行业风险数据分析方法、***及存储介质
CN116226894A (zh) 一种基于元仓的数据安全治理***及方法
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN110650124A (zh) 一种基于多层回声状态网络的网络流量异常检测方法
CN117896137A (zh) 一种基于大数据的计算机网络安全智能分析***及方法
CN110708296B (zh) 一种基于长时间行为分析的vpn账号失陷智能检测模型
CN117176441A (zh) 一种网络设备安全日志事件检测***、方法
CN114662981B (zh) 基于大数据应用的污染源企业监管方法
CN117033501A (zh) 大数据采集分析***
CN115514581B (zh) 一种用于工业互联网数据安全平台的数据分析方法及设备
CN116647389A (zh) 一种工业控制***网络访问安全性预警***及方法
CN113162904B (zh) 一种基于概率图模型的电力监控***网络安全告警评估方法
CN115567241A (zh) 一种多站点网络感知检测***
CN114490235A (zh) 智能化识别日志数据中的数量关系及其异常的算法模型
CN117935519B (zh) 一种燃气检测警报***
CN117540372B (zh) 智能学习的数据库入侵检测与响应***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination