CN110135167B - 一种随机森林的边缘计算终端安全等级评估方法 - Google Patents

一种随机森林的边缘计算终端安全等级评估方法 Download PDF

Info

Publication number
CN110135167B
CN110135167B CN201910399303.8A CN201910399303A CN110135167B CN 110135167 B CN110135167 B CN 110135167B CN 201910399303 A CN201910399303 A CN 201910399303A CN 110135167 B CN110135167 B CN 110135167B
Authority
CN
China
Prior art keywords
test
training
safety
random forest
security level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910399303.8A
Other languages
English (en)
Other versions
CN110135167A (zh
Inventor
雷文鑫
文红
侯文静
刘文洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Power Grid International Co ltd
University of Electronic Science and Technology of China
Original Assignee
China South Power Grid International Co ltd
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South Power Grid International Co ltd, University of Electronic Science and Technology of China filed Critical China South Power Grid International Co ltd
Priority to CN201910399303.8A priority Critical patent/CN110135167B/zh
Publication of CN110135167A publication Critical patent/CN110135167A/zh
Application granted granted Critical
Publication of CN110135167B publication Critical patent/CN110135167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种随机森林的边缘计算侧终端安全等级评估方法,包括以下步骤:S1.设定终端个安全测试单项以及各个测试单项的测试结果;S2.对接入的智能终端进行测试,S3.确定智能终端安全等级和单项测试结果集的对应关系;S4.计算每个边缘终端对应的安全等级,得到数据集;S5.将数据集划分为训练集和测试集;S6.将训练集输入随机森林进行训练,得到成熟的分类器模型;S7.将测试集输入训练得到的随机森林分类器模型中,得到测试结果与步骤S4安全等级对比得到达标分类器;S8.利用达标分类器模型评估新接入的终端安全等级。本发明将边缘终端的数据安全需求按等级划分,根据面临的安全风险、***复杂度,能够通过量化的客观标准进行边缘计算侧终端安全评估。

Description

一种随机森林的边缘计算终端安全等级评估方法
技术领域
本发明涉及边缘计算终端安全等级评估方法,特别是涉及一种随机森林的边缘计算终端安全等级评估方法。
背景技术
随着万物互联的飞速发展及广泛应用,智能终端将成为万物互联关键节点,并产生海量实时数据。根据IDC统计数据,到2020年将有超过500亿个终端和设备接入网络,其中超过50%的数据需要在网络边缘侧分析、处理与存储。大量边缘设备产生的海量数据需要更敏捷的连接、更有效的数据处理,同时要有更好的数据保护。面对大量异构终端接入物联网,边缘计算侧也面临着更大的数据安全威胁和隐患,存在一些不受信任的终端及移动边缘应用开发者的非法接入问题。因此,需要对边缘计算终端的数据安全需求按等级划分,在终端、边缘节点、边缘计算服务之间建立新的安全接入机制,以保证数据的机密性、完整性、用户信息隐私性。这种背景下,对于边缘计算终端的安全性能进行测评,首先在边缘计算侧对终端安全进行单项测评,根据各测试单项的测试结果科学计算,进行终端安全等级的划分,实现不同安全级别需求的安全使用,达到智能终端安全有效。
边缘侧的计算资源支持,使得其可以采用较为复杂的计算方法进行终端安全性能评估,实现终端安全等级的客观、有效和精确划分,本专利提出将终端和数据安全需求按等级划分,根据面临的安全风险、***复杂度等,通过量化的客观标准进行边缘计算侧终端安全等级的评测。
随机森林(Random forest)是2001年由LeoBreiman提出的机器学习算法,主要应用于回归和分类。它的基本思想是利用自助法(bootstrap)重采样技术和节点随机***技术构建多棵决策树,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,通过分类树投票得到新数据的分类结果。
基于边缘计算能力的支撑,在随机森林算法下实现智能终端的数据安全需求按等级划分,对于实现边缘计算***安全性能的最大优化具有重大意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种随机森林的边缘计算终端安全等级评估方法,根据智能终端各单项安全性能的测试得到测试结果,并采用随机森林算法进行智能终端的安全等级划分,提高了安全等级划分的准确性。
本发明的目的是通过以下技术方案来实现的:一种随机森林的边缘计算侧终端安全等级评估方法,包括以下步骤:
S1.在边缘计算侧搭建安全测试平台,设定终端的k个测试单项,每个测试单项的测试结果为0或1,其中0表示不通过,1表示通过;
S2.在边缘侧的安全测试平台上,按照k个测试单项对m+n台智能终端进行测试,得到每一台智能终端的安全性能单项测试结果集,其中第i台智能终端的安全性能单项测试结果集为:
Xi=[xi1,xi2,...,xik],i=1,2,...,m+n;
其中,xij为第i台智能终端的第j个测试单项得分,j=1,2,...,k;将所有智能终端的单项测试结果用(m+n)*k维矩阵X表示:
Figure BDA0002059213410000021
S3.确定智能终端安全等级和单项测试结果集的对应关系;
S4.按照步骤S3中的对应关系,计算每个Xi=[xi1,xi2,...,xik]对应的安全等级yi,计算完毕后得到数据集D={(X1,y1),(X2,y2),...,(Xm+n,ym+n)};
S5.划分数据集D,取数据集D的前m项为训练集T,后n项为测试集S:
训练集T={(X1,y1),(X2,y2),...,(Xm,ym)},占数据集的比例为
Figure BDA0002059213410000022
测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)},占数据集的比例为
Figure BDA0002059213410000023
优选地,训练集T和测试集S的大小可以调整,数据集越大,训练集数据越多,训练效果越好,对测试集的分类越准确;
S6.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}作为样本集合,输入随机森林分类器模型中进行训练,得到成熟的分类器模型;
S7.训练完成后,将测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}输入训练得到的随机森林分类器模型中,得到测试结果与步骤S4安全等级对比得到达标分类器;
S8.将新接入的待测边缘计算侧智能终端接入安全测试平台得到测试结果,输入达标的分类器模型中进行评估,得到对应的安全等级。
进一步地,所述步骤S3包括以下子步骤:
S31.将智能终端的安全等级划分为y类;
S32.令第i台智能终端的测试单项总得分
Figure BDA0002059213410000031
0≤sumi≤k;
S33.以
Figure BDA0002059213410000032
为间隔确定安全等级划分范围,当
Figure BDA0002059213410000033
时,第i台智能终端的安全等级为0,
Figure BDA0002059213410000034
时安全等级为1,
Figure BDA0002059213410000035
时安全等级为2,以此类推,
Figure BDA0002059213410000036
时安全等级为t,t=1,2,...,y-1;sumi越大表示智能终端的安全性能越好。
进一步地,所述步骤S6包括以下子步骤:
S61.选择随机森林算法构建随机森林分类器模型,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能;
S62.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}划分为少数类样本集Tmin和多数类样本集Tmax,其中,
Figure BDA0002059213410000037
并且Tmin∩Tmax={T};
S63.从原始样本集中随机的抽取三分之二个样本点,得到训练集T′,观察T′的少数类数据集Tmin′,多数类数据集Tmax′;
S64.计算
Figure BDA0002059213410000038
值,给出条件
Figure BDA0002059213410000039
Figure BDA00020592134100000310
S65.如果训练集T′满足S64中的条件,则保存抽取得到的训练集,若训练集T′不满足S64中的条件,则舍弃抽取得到训练集;
S66.重复步骤S63~S65,直至得到Ntree个满足条件的训练集,其中,Ntree为拟构造决策树数量,最终得到的Ntree个训练集为
Figure BDA00020592134100000311
其中i=1,2,...,Ntree
S67.在i=1,2,...,Ntree时,利用训练集Ti,训练一个CART决策树Hi,依据Gini指标选取最优特征。
其中,所述步骤S62包括以下子步骤:
S621.统计训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}中各个安全等级的样本数目;
S622.对于每一个安全等级,若其对应的样本数目大于预设阈值H,则将该安全等级的所有样本加入多数类样本集Tmax;若其对应的样本数目小于或等于预设阈值H,将该安全等级的所有样本加入少数类样本集Tmin
其中,所述步骤S67包括以下子步骤:
S671.对于训练集Ti,计算基尼指数Gini,
Figure BDA00020592134100000312
Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯;其中Pk表示分类结果中第k个类别出现的频率;
S672.对于含有N个样本的训练集Ti,根据属性A的第i个属性值,将数据集Ti划分成两部分,计算出Gain_GINI,
Figure BDA0002059213410000041
其中n1、n2为样本子集Ti1、Ti2的样本个数;
S673.对于属性A,分别计算任意属性值将数据集划分成两部分之后的Gain_GINI,选取其中的最小值,作为属性A得到的最优二分方案:
Figure BDA0002059213410000042
S674.对于样本集Ti,计算所有属性的最优二分方案,选取其中的最小值,作为样本集Ti的最优二分方案:
Figure BDA0002059213410000043
进一步地,所述步骤S7包括以下子步骤:
S71.测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}为待测样本;
S72.对于i=1,2,...,Ntree,决策树初始投票权重为1,令Ri=Timax′/Timin′;
更新每棵决策树的投票权重为
Figure BDA0002059213410000044
S73.对于j=m+1,m+2,...,m+n,i=1,2,...,Ntree,输入待测样本Xj,由S66的决策树Hi输出Hi(Xj),预测的最终类别为
Figure BDA0002059213410000045
即为测试样本Xj对应的安全等级;
S74.设定判决分类器误差门限值θ,0≤θ≤1。
如果
Figure BDA0002059213410000046
m+1≤j≤m+n,则分类器满足预设门限值,为达标分类器,若不满足则返回步骤S5重新训练,其中
Figure BDA0002059213410000047
进一步地,所述步骤S8包括以下子步骤:
S81.将新接入的待测边缘计算侧智能终端接入安全测试平台得到k项测试单项测试结果X=[x1,x2,...,xk];
S82.将测试结果输入达标的分类器模型中,
Figure BDA0002059213410000048
i=1,2,...,Ntree。f(X)即为对应安全等级。
本发明的有益效果是:(1)本发明根据边缘计算智能终端各单项安全性能的测试,采用随机森林分类算法实现对智能终端安全等级的客观准确划分,实现边缘计算***安全性能的最大优化;(2)本发明利用随机森林算法构建分类模型,随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力,训练速度快,可以得到变量等级分类结果,获得较为准确的量化客观标准;(3)本发明对不同的边缘智能终端设备进行安全测试,并以每台终端测试结果数据集为反馈,以实现分类器的训练和安全等级的划分,提高了安全等级划分结果的可信度。
附图说明
图1为本发明的方法流程图;
图2为实施例中一种随机森林的边缘计算终端安全等级评估方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种随机森林的边缘计算侧终端安全等级评估方法,包括以下步骤:
S1.在边缘计算侧搭建安全测试平台,设定终端的k个测试单项,每个测试单项的测试结果为0或1,其中0表示不通过,1表示通过;
S2.在边缘侧的安全测试平台上,按照k个测试单项对m+n台智能终端进行测试,得到每一台智能终端的安全性能单项测试结果集,其中第i台智能终端的安全性能单项测试结果集为:
Xi=[xi1,xi2,...,xik],i=1,2,...,m+n;
其中,xij为第i台智能终端的第j个测试单项得分,j=1,2,...,k;将所有智能终端的单项测试结果用(m+n)*k维矩阵X表示:
Figure BDA0002059213410000051
S3.确定智能终端安全等级和单项测试结果集的对应关系;
S4.按照步骤S3中的对应关系,计算每个Xi=[xi1,xi2,...,xik]对应的安全等级yi,计算完毕后得到数据集D={(X1,y1),(X2,y2),...,(Xm+n,ym+n)};
S5.划分数据集D,取数据集D的前m项为训练集T,后n项为测试集S:
训练集T={(X1,y1),(X2,y2),...,(Xm,ym)},占数据集的比例为
Figure BDA0002059213410000061
测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)},占数据集的比例为
Figure BDA0002059213410000062
在本申请的实施例中,训练集T和测试集S的大小可以调整,数据集越大,训练集数据越多,训练效果越好,对测试集的分类越准确;
S6.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}作为样本集合,输入随机森林分类器模型中进行训练,得到成熟的分类器模型;
S7.训练完成后,将测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}输入训练得到的随机森林分类器模型中,得到测试结果与步骤S4安全等级对比得到达标分类器;
S8.将新接入的待测边缘计算侧智能终端接入安全测试平台得到测试结果,输入达标的分类器模型中进行评估,得到对应的安全等级。
进一步地,所述步骤S3包括以下子步骤:
S31.将智能终端的安全等级划分为y类;
S32.令第i台智能终端的测试单项总得分
Figure BDA0002059213410000063
0≤sumi≤k;
S33.以
Figure BDA0002059213410000064
为间隔确定安全等级划分范围,当
Figure BDA0002059213410000065
时,第i台智能终端的安全等级为0,
Figure BDA0002059213410000066
时安全等级为1,
Figure BDA0002059213410000067
时安全等级为2,以此类推,
Figure BDA0002059213410000068
时安全等级为t,t=1,2,...,y-1;sumi越大表示智能终端的安全性能越好。
进一步地,所述步骤S6包括以下子步骤:
S61.选择随机森林算法构建随机森林分类器模型,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能;
S62.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}划分为少数类样本集Tmin和多数类样本集Tmax,其中,
Figure BDA0002059213410000069
并且Tmin∩Tmax={T};
S63.从原始样本集中随机的抽取三分之二个样本点,得到训练集T′,观察T′的少数类数据集Tmin′,多数类数据集Tmax′;
S64.计算
Figure BDA00020592134100000610
值,给出条件
Figure BDA00020592134100000611
Figure BDA00020592134100000612
S65.如果训练集T′满足S64中的条件,则保存抽取得到的训练集,若训练集T′不满足S64中的条件,则舍弃抽取得到训练集;
S66.重复步骤S63~S65,直至得到Ntree个满足条件的训练集,其中,Ntree为拟构造决策树数量,最终得到的Ntree个训练集为
Figure BDA0002059213410000071
其中i=1,2,...,Ntree
S67.在i=1,2,...,Ntree时,利用训练集Ti,训练一个CART决策树Hi,依据Gini指标选取最优特征。
其中,所述步骤S62包括以下子步骤:
S621.统计训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}中各个安全等级的样本数目;
S622.对于每一个安全等级,若其对应的样本数目大于预设阈值H,则将该安全等级的所有样本加入多数类样本集Tmax;若其对应的样本数目小于或等于预设阈值H,将该安全等级的所有样本加入少数类样本集Tmin
其中,所述步骤S66包括以下子步骤:
S671.对于训练集Ti,计算基尼指数Gini,
Figure BDA0002059213410000075
Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯;其中Pk表示分类结果中第k个类别出现的频率;
S672.对于含有N个样本的训练集Ti,根据属性A的第i个属性值,将数据集Ti划分成两部分,计算出Gain_GINI,
Figure BDA0002059213410000072
其中n1、n2为样本子集Ti1、Ti2的样本个数;
S673.对于属性A,分别计算任意属性值将数据集划分成两部分之后的Gain_GINI,选取其中的最小值,作为属性A得到的最优二分方案:
Figure BDA0002059213410000073
S674.对于样本集Ti,计算所有属性的最优二分方案,选取其中的最小值,作为样本集Ti的最优二分方案:
Figure BDA0002059213410000074
进一步地,所述步骤S7包括以下子步骤:
S71.测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}为待测样本;
S72.对于i=1,2,...,Ntree,决策树初始投票权重为1,令Ri=Timax′/Timin′;
更新每棵决策树的投票权重为
Figure BDA0002059213410000081
S73.对于j=m+1,m+2,...,m+n,i=1,2,...,Ntree,输入待测样本Xj,由S66的决策树Hi输出Hi(Xj),预测的最终类别为
Figure BDA0002059213410000082
即为测试样本Xj对应的安全等级;
S74.设定判决分类器误差门限值θ,0≤θ≤1。
如果
Figure BDA0002059213410000083
m+1≤j≤m+n,则分类器满足预设门限值,为达标分类器,若不满足则返回步骤S5重新训练,其中
Figure BDA0002059213410000084
进一步地,所述步骤S8包括以下子步骤:
S81.将新接入的待测边缘计算侧智能终端接入安全测试平台得到k项测试单项测试结果X=[x1,x2,...,xk];
S82.将测试结果输入达标的分类器模型中,
Figure BDA0002059213410000085
i=1,2,...,Ntree。f(X)即为对应安全等级。
如图2所示,在本申请的实施例中,利用训练的随机森林,输入待测边缘终端得到边缘计算终端安全等级的过程如下:
1.在边缘计算侧,先将10台边缘智能终端接入安全测试平台,设计终端测试单项为22项,得到每台边缘智能终端的单项测试结果为Xi=[x1,x2,...,x22],i=1,2,...,10,所有边缘智能终端的单项测试结果集为10*22维矩阵X,其中xij=0或xij=1。
Figure BDA0002059213410000086
2.确定边缘终端安全等级和单项测试结果集的对应关系。
1)本次评估将边缘智能终端的安全等级分为0,1,2,3四类;
2)令第i台智能终端的测试单项总得分
Figure BDA0002059213410000087
0≤sumi≤22;
3)根据sum值确定安全等级划分,当0≤sum≤5时对应安全等级为0,6≤sum≤10时安全等级为1,11≤sum≤15时安全等级为2,16≤sum≤22时安全等级为3,安全等级越高代表终端的安全性能越好。安全等级对应关系下表所示:
总分sum 0~5 6~10 11~15 16~22
安全级别Y<sub>i</sub> 0 1 2 3
安全程度 很差 一般 安全
3.计算每个Xi=[x1,x2,...,x22]的安全等级yi,计算完毕后得到数据集:
D={(X1,y1),(X2,y2),...,(X10,y10)}。
4.由于数据集不够大,因此采用了蒙特卡洛算法将数据集D按比例进行扩充。
5.将数据集D划分为训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}和测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)},测试集作为待测样本。
6.从原始样本集中随机的抽取三分之二个样本点,得到训练集T′。观察T′的少数类数据集Tmin′,多数类数据集Tmax′。
7.计算
Figure BDA0002059213410000091
值:如果训练集T′满足
Figure BDA0002059213410000092
Figure BDA0002059213410000093
则重复进行步骤6,重复Ntree次,Ntree为拟构造决策树数量。得到随机采样后的训练集Ti,i=1,2,...,Ntree
8.对i=1,2,...,Ntree,使用训练集Ti生成一颗不剪枝的树Hi。从22个特征中随机选择M个特征,在每个节点上从M个特征依据Gini指标选取最优特征,***直到树生长到最大。
9.对于i=1,2,...,Ntree,决策树初始投票权重为1,令Ri=Timax′/Timin′,更新每棵决策树的投票权重为
Figure BDA0002059213410000094
10.对于j=m+1,m+2,...,m+n,i=1,2,...,Ntree,输入待测样本Xj,由决策树Hi输出Hi(Xj),预测的测试样本类别为
Figure BDA0002059213410000095
即为测试样本对应的安全等级。
11.设定判决分类器误差门限值θ=0.98。
Figure BDA0002059213410000096
m+1≤j≤m+n,分类器满足预设门限值,为达标分类器。
12.将新接入的待测边缘计算侧智能终端接入安全测试平台得到22项测试单项测试结果X=[x1,x2,...,x22]。
13.将测试结果X=[x1,x2,...,x22]输入达标的分类器模型中,
Figure BDA0002059213410000101
i=1,2,...,Ntree。f(X)即为待测边缘计算侧智能终端对应安全等级。
在本申请的实施例中,步骤S6除采用机器学习随机森林算法构建分类模型外,还可以采用k-近邻算法、朴素贝叶斯算法、SVM算法和决策树算法,或者卷积神经网络算法、前馈神经网络算法和径向基神经网络算法构建相应神经网络,并利用训练集对神经网络训练,得到相应的成熟模型。
综上,本发明基于机器学***衡的场景处理效果有着明显的提高,数据量少的处理效果接较好。
以上所述是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应该看作是对其他实施例的排除,而可用于其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种随机森林的边缘计算侧终端安全等级评估方法,其特征在于:包括以下步骤:
S1.在边缘计算侧搭建安全测试平台,设定终端的k个测试单项,每个测试单项的测试结果为0或1,其中0表示不通过,1表示通过;
S2.在边缘侧的安全测试平台上,按照k个测试单项对m+n台智能终端进行测试,得到每一台智能终端的安全性能单项测试结果集,其中第i台智能终端的安全性能单项测试结果集为:
Xi=[xi1,xi2,...,xik],i=1,2,...,m+n;
其中,xij为第i台智能终端的第j个测试单项得分,j=1,2,…,k;将所有智能终端的单项测试结果用(m+n)*k维矩阵X表示:
Figure FDA0002702230890000011
S3.确定智能终端安全等级和单项测试结果集的对应关系;
S4.按照步骤S3中的对应关系,计算每个Xi=[xi1,xi2,…,xik]对应的安全等级yi,计算完毕后得到数据集D={(X1,y1),(X2,y2),…,(Xm+n,ym+n)};
S5.划分数据集D,取数据集D的前m项为训练集T,后n项为测试集S:
训练集T={(X1,y1),(X2,y2),…,(Xm,ym)},占数据集的比例为
Figure FDA0002702230890000012
测试集S={(Xm+1,ym+1),(Xm+2,ym+2),…,(Xm+n,ym+n)},占数据集的比例为
Figure FDA0002702230890000013
S6.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}作为样本集合,输入随机森林分类器模型中进行训练,得到成熟的分类器模型;
所述步骤S6包括以下子步骤:
S61.选择随机森林算法构建随机森林分类器模型,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值;
S62.将训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}划分为少数类样本集Tmin和多数类样本集Tmax,其中,
Figure FDA0002702230890000014
并且Tmin∩Tmax={T};
S63.从原始样本集中随机的抽取三分之二个样本点,得到训练集T′,观察T′的少数类数据集Tmin′,多数类数据集Tmax′;
S64.计算
Figure FDA0002702230890000021
值,给出条件
Figure FDA0002702230890000022
Figure FDA0002702230890000023
S65.如果训练集T′满足S64中的条件,则保存抽取得到的训练集,若训练集T′不满足S64中的条件,则舍弃抽取得到训练集;
S66.重复步骤S63~S65,直至得到Ntree个满足条件的训练集,其中,Ntree为拟构造决策树数量,最终得到的Ntree个训练集为
Figure FDA0002702230890000024
其中i=1,2,…,Ntree
S67.在i=1,2,…,Ntree时,利用训练集Ti,训练一个CART决策树Hi,依据Gini指标选取最优特征;
S7.训练完成后,将测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}输入训练得到的随机森林分类器模型中,得到测试结果与步骤S4安全等级对比得到达标分类器;
所述步骤S7包括以下子步骤:
S71.测试集S={(Xm+1,ym+1),(Xm+2,ym+2),...,(Xm+n,ym+n)}为待测样本;
S72.对于i=1,2,…,Ntree,决策树初始投票权重为1,令Ri=Timax′/Timin′;
更新每棵决策树的投票权重为
Figure FDA0002702230890000025
S73.对于j=m+1,m+2,…,m+n,i=1,2,…,Ntree,输入待测样本Xj,由S66的决策树Hi输出Hi(Xj),预测的最终类别为
Figure FDA0002702230890000026
即为测试样本Xj对应的安全等级;
S74.设定判决分类器误差门限值θ,0≤θ≤1;
如果
Figure FDA0002702230890000027
则分类器满足预设门限值,为达标分类器,若不满足则返回步骤S5重新训练,其中
Figure FDA0002702230890000028
S8.将新接入的待测边缘计算侧智能终端接入安全测试平台得到测试结果,输入达标的分类器模型中进行评估,得到对应的安全等级。
2.根据权利要求1所述的一种随机森林的边缘计算侧终端安全等级评估方法,其特征在于:所述步骤S3包括以下子步骤:
S31.将智能终端的安全等级划分为y类;
S32.令第i台智能终端的测试单项总得分
Figure FDA0002702230890000031
S33.以
Figure FDA0002702230890000032
为间隔确定安全等级划分范围,当
Figure FDA0002702230890000033
时,第i台智能终端的安全等级为0,
Figure FDA0002702230890000034
时安全等级为1,
Figure FDA0002702230890000035
时安全等级为2,以此类推,
Figure FDA0002702230890000036
时安全等级为t,t=1,2,...,y-1;sumi越大表示智能终端的安全性能越好。
3.根据权利要求1所述的一种随机森林的边缘计算侧终端安全等级评估方法,其特征在于:所述步骤S8包括以下子步骤:
S81.将新接入的待测边缘计算侧智能终端接入安全测试平台得到k项测试单项测试结果X=[x1,x2,...,xk];
S82.将测试结果输入达标的分类器模型中,
Figure FDA0002702230890000037
f(X)即为对应安全等级。
4.根据权利要求1所述的一种随机森林的边缘计算侧终端安全等级评估方法,其特征在于:所述步骤S62包括以下子步骤:
S621.统计训练集T={(X1,y1),(X2,y2),...,(Xm,ym)}中各个安全等级的样本数目;
S622.对于每一个安全等级,若其对应的样本数目大于预设阈值H,则将该安全等级的所有样本加入多数类样本集Tmax;若其对应的样本数目小于或等于预设阈值H,将该安全等级的所有样本加入少数类样本集Tmin
5.根据权利要求1所述的一种随机森林的边缘计算侧终端安全等级评估方法,其特征在于:所述步骤S67包括以下子步骤:
S671.对于训练集Ti,计算基尼指数Gini,
Figure FDA0002702230890000038
Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯;其中Pk表示分类结果中第k个类别出现的频率;
S672.对于含有N个样本的训练集Ti,根据属性A的第i个属性值,将数据集Ti划分成两部分,计算出Gain_GINI,
Figure FDA0002702230890000039
其中n1、n2为样本子集Ti1、Ti2的样本个数;
S673.对于属性A,分别计算任意属性值将数据集划分成两部分之后的Gain_GINI,选取其中的最小值,作为属性A得到的最优二分方案:
Figure FDA00027022308900000310
S674.对于样本集Ti,计算所有属性的最优二分方案,选取其中的最小值,作为样本集Ti的最优二分方案:
Figure FDA0002702230890000041
CN201910399303.8A 2019-05-14 2019-05-14 一种随机森林的边缘计算终端安全等级评估方法 Active CN110135167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910399303.8A CN110135167B (zh) 2019-05-14 2019-05-14 一种随机森林的边缘计算终端安全等级评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910399303.8A CN110135167B (zh) 2019-05-14 2019-05-14 一种随机森林的边缘计算终端安全等级评估方法

Publications (2)

Publication Number Publication Date
CN110135167A CN110135167A (zh) 2019-08-16
CN110135167B true CN110135167B (zh) 2020-11-20

Family

ID=67573839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910399303.8A Active CN110135167B (zh) 2019-05-14 2019-05-14 一种随机森林的边缘计算终端安全等级评估方法

Country Status (1)

Country Link
CN (1) CN110135167B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124855A (zh) * 2019-11-29 2020-05-08 苏州浪潮智能科技有限公司 一种硬盘引入风险评估方法、***及设备
CN113128532B (zh) * 2019-12-31 2023-06-20 北京超星未来科技有限公司 一种训练样本数据的获取方法、处理方法、装置及***
CN111506508A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 边缘计算测试方法、装置、设备和可读存储介质
CN111935171B (zh) * 2020-08-24 2022-12-06 南方电网科学研究院有限责任公司 一种边缘计算下基于机器学习的终端安全策略选择方法
CN112287345B (zh) * 2020-10-29 2024-04-16 中南大学 基于智能风险检测的可信边缘计算***
CN112583844B (zh) * 2020-12-24 2021-09-03 北京航空航天大学 一种面向高级可持续威胁攻击的大数据平台防御方法
CN112801145B (zh) * 2021-01-12 2024-05-28 深圳市中博科创信息技术有限公司 安全监测方法、装置、计算机设备及存储介质
CN113191455B (zh) * 2021-05-26 2024-06-07 平安国际智慧城市科技股份有限公司 边缘计算盒子选举方法、装置、电子设备及介质
CN113569482B (zh) * 2021-07-29 2024-02-06 石家庄铁道大学 隧道服役性能的评估方法、装置、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874927A (zh) * 2018-05-31 2018-11-23 桂林电子科技大学 基于超图和随机森林的入侵检测方法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网***人信用评价方法
CN109344848A (zh) * 2018-07-13 2019-02-15 电子科技大学 基于Adaboost的移动智能终端安全等级分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140450B2 (en) * 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN107886135A (zh) * 2017-12-01 2018-04-06 江苏蓝深远望科技股份有限公司 一种处理不平衡大数据的并行随机森林算法
CN108306894A (zh) * 2018-03-19 2018-07-20 西安电子科技大学 一种基于攻击发生置信度的网络安全态势评估方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874927A (zh) * 2018-05-31 2018-11-23 桂林电子科技大学 基于超图和随机森林的入侵检测方法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网***人信用评价方法
CN109344848A (zh) * 2018-07-13 2019-02-15 电子科技大学 基于Adaboost的移动智能终端安全等级分类方法

Also Published As

Publication number Publication date
CN110135167A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110135167B (zh) 一种随机森林的边缘计算终端安全等级评估方法
Arbin et al. Comparative analysis between k-means and k-medoids for statistical clustering
CN108540451A (zh) 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN102291392B (zh) 一种基于Bagging算法的复合式入侵检测方法
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN106899440A (zh) 一种面向云计算的网络入侵检测方法及***
CN112001788B (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN112437053A (zh) 入侵检测方法及装置
Lawrence et al. Explaining neural matrix factorization with gradient rollback
Shamsabadi et al. Confidential-PROFITT: confidential PROof of fair training of trees
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Eunice et al. Network anomaly detection technology based on deep learning
CN104572623B (zh) 一种在线lda模型的高效数据总结分析方法
CN113901705A (zh) 一种火灾风险评估方法、装置、终端设备及存储介质
Thanh et al. An approach to reduce data dimension in building effective network intrusion detection systems
CN112508363A (zh) 基于深度学习的电力信息***状态分析方法及装置
CN116702132A (zh) 网络入侵检测方法及***
Gao et al. The use of under-and oversampling within ensemble feature selection and classification for software quality prediction
CN115577259A (zh) 高压直流输电***故障选极方法、装置和计算机设备
CN115018007A (zh) 一种基于改进id3决策树的敏感数据分类方法
CN114997378A (zh) 归纳式图神经网络剪枝方法、***、设备及存储介质
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant