CN108846429B - 基于无监督学习的网络空间资源自动分类方法及装置 - Google Patents

基于无监督学习的网络空间资源自动分类方法及装置 Download PDF

Info

Publication number
CN108846429B
CN108846429B CN201810548471.4A CN201810548471A CN108846429B CN 108846429 B CN108846429 B CN 108846429B CN 201810548471 A CN201810548471 A CN 201810548471A CN 108846429 B CN108846429 B CN 108846429B
Authority
CN
China
Prior art keywords
clustering
value
class
resources
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810548471.4A
Other languages
English (en)
Other versions
CN108846429A (zh
Inventor
王继龙
缪葱葱
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810548471.4A priority Critical patent/CN108846429B/zh
Publication of CN108846429A publication Critical patent/CN108846429A/zh
Application granted granted Critical
Publication of CN108846429B publication Critical patent/CN108846429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于无监督学习的网络空间资源自动分类方法及装置,其中方法包括:采集分类器所处的网络环境的资源,以生成资源集合;根据预设n维属性对资源集合的资源进行属性标记,以生成新的资源集合;通过提取函数对新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;通过Parametric Bootstrap方法得到K值,并运用K均值聚类对初始样本空间进行分类,以将初始样本空间分为K类资源;将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。该方法按照聚类结果,对网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。

Description

基于无监督学习的网络空间资源自动分类方法及装置
技术领域
本发明涉及网络空间测绘技术领域,特别涉及一种基于无监督学习的网络空间资源自动分类方法及装置。
背景技术
网络空间已成为人类社会第五疆域,包含政治、经济、军事、文化、社会、生态等诸多维度,正发展成为一个与物理世界平行的新世界。近年来,随着互联网技术的发展以及互联网多样化,网络空间资源呈现多样化发展的趋势,但其实网络空间目前还缺失最基本概念模型和空间理论基础。网络中许多资源是客观存在的,但是迄今为止我们还没有***和全面地命名他们,尤其没有真正站在网络空间里面去命名和描述他们。而网络资源的多样性和复杂性给管理者、用户带来了相当大的困扰。
互联网的发展带动了网络空间资源的数目和数据量呈现***式增长。网络空间资源指在网络空间中能够直接感知到的实体资源,包含各种网络应用服务、信息资源和虚拟主体,为了更好表达网络空间与物理世界的衔接关系,特别把网络基础设施也纳入网络空间资源的研究范畴,同时也是为了更加***及更高效的利用网络资源,提升网络这一“疆域”的安全性,对于网络空间资源进行分门别类显得尤为重要。
网络空间资源的复杂性、多样性、资源数目的增长速度以及新型网络空间资源的诞生速度,这些都决定了单纯靠人工手动标记的方式对网络空间资源进行分类是不可行的,故而利用算法对网络空间资源进行自动分类是必然的。生物都有相应的图谱,网络空间资源也需要图谱给其分类。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于无监督学习的网络空间资源自动分类方法,该方法可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。
本发明的另一个目的在于提出一种基于无监督学习的网络空间资源自动分类装置。
为达到上述目的,本发明一方面实施例提出了一种基于无监督学习的网络空间资源自动分类方法,包括以下步骤:采集分类器所处的网络环境的资源,以生成资源集合;根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。
本发明实施例的基于无监督学习的网络空间资源自动分类方法,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置;按照聚类结果,可以对网络空间资源框架进行扩增及补充,从而可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。
另外,根据本发明上述实施例的基于无监督学习的网络空间资源自动分类方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过Parametric Bootstrap方法得到K值,进一步包括:在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型;通过所述统计量的模型的生成数据样本集合;获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS;在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。
进一步地,在本发明的一个实施例中,所述运用K均值聚类对所述初始样本空间进行分类,进一步包括:从所述初始样本空间中任意选择K个特征向量作为初始聚类中心;获取所述初始样本空间中的其他对象与所述聚类中心的距离;将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。
进一步地,在本发明的一个实施例中,所述将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,进一步包括:将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中。
进一步地,在本发明的一个实施例中,所述将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,还包括:如果特征值与当前每一类的差值都大于上界阈值,则新增一类,以归入新类中。
为达到上述目的,本发明另一方面实施例提出了一种基于无监督学习的网络空间资源自动分类装置,包括:采集模块,用于采集分类器所处的网络环境的资源,以生成资源集合;标记模块,用于根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;提取模块,用于通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;初始化模块,用于通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;归类模块,用于将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。
本发明实施例的基于无监督学习的网络空间资源自动分类装置,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置;按照聚类结果,可以对网络空间资源框架进行扩增及补充,从而可以对网络资源进行自动分类,并有利于网络空间资源图谱的构建。
另外,根据本发明上述实施例的基于无监督学习的网络空间资源自动分类装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述初始化模块进一步用于在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型,且通过所述统计量的模型的生成数据样本集合,并获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS,并在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。
进一步地,在本发明的一个实施例中,所述初始化模块进一步用于从所述初始样本空间中任意选择K个特征向量作为初始聚类中心,获取所述初始样本空间中的其他对象与所述聚类中心的距离,并将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。
进一步地,在本发明的一个实施例中,所述归类模块进一步用于将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中。
进一步地,在本发明的一个实施例中,所述归类模块进一步用于在特征值与当前每一类的差值都大于上界阈值时新增一类,以归入新类中。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图;
图2为根据本发明另一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图;
图3为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的具体实施方式示意图;
图4为根据本发明一个实施例的基于无监督学习的网络空间资源自动分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法。
图1是本发明一个实施例的基于无监督学习的网络空间资源自动分类方法的流程图。
如图1所示,该基于无监督学习的网络空间资源自动分类方法包括以下步骤:
在步骤S101中,采集分类器所处的网络环境的资源,以生成资源集合。
可以理解的是,如图2所示,首先,本发明实施例进行网络空间资源搜集,即实现分类器所部署位置的网络空间资源的搜集,并归入集合U中。
具体而言,如图3所示,网络空间资源的搜集是对分类器所处的网络环境进行资源的搜集,并形成集合U。建立一个网络空间资源的集合U,表示“未分类的网络空间资源”,对应分类器所处的网络环境中搜集到的网络空间资源,将其加入到U中,并顺序标记为C1,C2,…,Ci,…,故而有U={C1,C2,…,Ci,…}。
在步骤S102中,根据预设n维属性对资源集合的资源进行属性标记,以生成新的资源集合。
可以理解的是,如图2所示,本发明实施例进行资源属性标注,是将各种多样的网络空间资源按照人为设定好的n维属性进行标注。也就是说,按照设计好的n维属性,对U中的资源进行属性标注,形成C。
具体而言,U中的每一个元素都是一个分类器所在的网络环境中的资源,由于网络空间资源的多样性,它们在实际中的表现形式可能各不相同,如要对其进行自动分类,则要对每一个元素进行统一的标注,选择若干属性去代表该元素,具体的属性数目及标注方式可根据实际情况自行选择,为了表示方便,设对每一个资源Ci共选择n个属性进行标注,则Ci可表示为:
Figure BDA0001680511840000051
在步骤S103中,通过提取函数对新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间。
可以理解的是,如图2所示,本发明实施例进行特征向量提取,是将标注好的资源属性进行特征向量的提取,得到特征向量。也就是说,本发明实施例按照需要,自定义特征向量的提取函数Feature_Extraction(),并对Ci进行特征向量的提取,得到Ri,并形成初始样本空间Z。
具体而言,根据第S102步中属性的数目选择以及实际情况,自定义一个特征向量提取函数Feature_Extraction(),用其对标注后的资源Ci进行特征提取,得到Ci的特征向量Ri。Ri←Feature_Extraction(Ci),将所有的Ri作为一个初始样本Z,Z={R1,R2,…,Rn}。
在步骤S104中,通过Parametric Bootstrap方法得到K值,并运用K均值聚类对初始样本空间进行分类,以将初始样本空间分为K类资源。
可以理解的是,如图2所示,本发明实施例进行资源聚类,是利用K均值聚类的方法,将资源对应的特征向量分为K类,并可以运用Parametric Bootstrap方法得到K值,同时,可以运用K均值聚类的方法对初始样本空间Z进行分类,将样本空间分为K类。
也就是说,使用K均值聚类(K-means)算法实现对网络空间资源的自动分类,由于网络空间资源的多样性,对于K均值聚类中的K值的选取就变得难以预测,所以这一步分为两个子部分来进行:K值的确定;用K均值聚类以实现自动分类。
进一步地,在本发明的一个实施例中,通过Parametric Bootstrap方法得到K值,进一步包括:在获取特征向量之后,先将K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型;通过统计量的模型的生成数据样本集合;获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS;在聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足预设条件,以确定K值。
具体而言,在本分类器的实现中,关于K值的确定,用的是Parametric Bootstrap方法。Parametric Bootstrap方法是Bootstrap方法的一种延伸,Bootstrap是一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。中心思想是通过从样本中重抽样,构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有耗尽样本中的信息,Bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。Bootstrap的一个关键之处在于每次重抽样之后的size要与原来数据样本相同,Parametric Bootstrap方法也遵循这一点,但与Bootstrap方法不同的是,它不是从原始集合中重新抽样本,而是设定一个特定的数学模型,然后通过这个模型来重新模拟出样本数据,并且可以进行多次。
在本分类器中,具体操作为:
(1)得到特征向量Ri之后,先将K值取一个较小的值(如K=2),然后按照K-means方法,可以得到K种类的均值和协方差矩阵等一些统计值。
(2)根据实际场景及经验,设定一种数学模型,假定原始数据是从该模型中随机生成的(如假定为高斯模型),这样就可以用具有步骤①中求得的相应统计量的模型来重新生成数据样本集合,重新生成后的size与原样本相同。
(3)设计一个估计聚类好坏的指标(如总体类内误差WSS等),从K+1开始起,每次递增1,逐一考察模拟生成的样本的聚类的WSS。
(4)K值的确定遵循这样的策略:只要K+1类的真实数据经K均值聚类计算的WSS,至少比k类的模拟点下的μ*WSS要小(μ是人为设定的阈值,一般85%≤μ≤1),那么我们就接受K+1类;后面依次增加k,直到不满足小于等于的条件。
进一步地,在本发明的一个实施例中,运用K均值聚类对初始样本空间进行分类,进一步包括:从初始样本空间中任意选择K个特征向量作为初始聚类中心;获取初始样本空间中的其他对象与聚类中心的距离;将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。
具体而言,利用K均值聚类实现资源自动分类的算法如下:
(1)从初始样本Z中,任意选择K个特征向量作为初始聚类中心。
(2)对于初始样本Z中的其他对象Ri,计算它们与上述聚类中心的距离,此
处距离的计算方法可以是每两个点之间的欧氏距离,也可以根据实际效率选择。按
照距离最近的准则将它们归到最近的聚类中心所对应的类。
(3)将每个类别中的所有对象所对应的均值作为该类别的聚类中心,计算目
标函数的值,更新聚类中心。
(4)迭代第2步与第3步,直到新生成的聚类中心与上一步的聚类中心相等
或它们的差小于指定的阈值ζ。
在步骤S105中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。
可以理解的是,如图2所示,本发明实施例资源归类,是将U中的每一个资源按照分类好的结果归入其代表特征向量所在的类中,完善网络空间资源图谱。也就是说,将S104中分成的K类资源归入到每一类的聚类中心R’j所对应的网络空间资源图谱类中。
进一步地,在本发明的一个实施例中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,进一步包括:将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入相类似的类中。
具体而言,本发明实施例将S104步中实现了将n个特征向量分为了K类,将每一类的聚类中心R’1,R’2,…,R’k作为该类的代表特征向量,将R’j与现有的网络空间资源图谱中的每一类作比较,将其归到与其最为相类似的类中,并将R’j所在类中的其他的特征向量对应的网络资源一并归入该类中。
进一步地,在本发明的一个实施例中,将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,还包括:如果特征值与当前每一类的差值都大于上界阈值,则新增一类,以归入新类中。
具体而言,若R’j的特征值与现有框架中的每一类的差值都大于上界阈值β,则在现有框架中新增一类,并将R’j所在类中的其他的特征向量对应的网络资源一并归入该新类中。另外,本发明实施例的具体实施方式如图3所示。
根据本发明实施例提出的基于无监督学习的网络空间资源自动分类方法,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置,按照聚类结果,对网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。
其次参照附图描述根据本发明实施例提出的基于无监督学习的网络空间资源自动分类装置。
图4是本发明一个实施例的基于无监督学习的网络空间资源自动分类装置的结构示意图。
如图4所示,该基于无监督学习的网络空间资源自动分类装置10包括:采集模块100、标记模块200、提取模块300、初始化模块400和归类模块500。
其中,采集模块100用于采集分类器所处的网络环境的资源,以生成资源集合。标记模块200用于根据预设n维属性对资源集合的资源进行属性标记,以生成新的资源集合。提取模块300用于通过提取函数对新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间。初始化模块400用于通过Parametric Bootstrap方法得到K值,并运用K均值聚类对初始样本空间进行分类,以将初始样本空间分为K类资源。归类模块500用于将K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱。本发明实施例的装置10按照聚类结果,对网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。
进一步地,在本发明的一个实施例中,初始化模块400进一步用于在获取特征向量之后,先将K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型,且通过统计量的模型的生成数据样本集合,并获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS,并在聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足预设条件,以确定K值。
进一步地,在本发明的一个实施例中,初始化模块400进一步用于从初始样本空间中任意选择K个特征向量作为初始聚类中心,获取初始样本空间中的其他对象与聚类中心的距离,并将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值。
进一步地,在本发明的一个实施例中,归类模块500进一步用于将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入相类似的类中。
进一步地,在本发明的一个实施例中,归类模块500进一步用于在特征值与当前每一类的差值都大于上界阈值时新增一类,以归入新类中。
需要说明的是,前述对基于无监督学习的网络空间资源自动分类方法实施例的解释说明也适用于该实施例的基于无监督学习的网络空间资源自动分类装置,此处不再赘述。
根据本发明实施例提出的基于无监督学习的网络空间资源自动分类装置,通过手工标注网络空间资源属性,并提取相关特征向量,用Parametric Bootstrap方法确定K的取值,并保存K个簇的中心位置,按照聚类结果,对的网络空间资源框架可以进行扩增及补充,有利于网络空间资源图谱的构建。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (2)

1.一种基于无监督学习的网络空间资源自动分类方法,其特征在于,包括以下步骤:
采集分类器所处的网络环境的资源,以生成资源集合;
根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;
通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;
通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;以及
将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱,所述将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,进一步包括:将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中;如果特征值与当前每一类的差值都大于上界阈值,则新增一类,以归入新类中;
所述运用K均值聚类对所述初始样本空间进行分类,进一步包括:
从所述初始样本空间中任意选择K个特征向量作为初始聚类中心;
获取所述初始样本空间中的其他对象与所述聚类中心的距离;
将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值;
还包括,运用K均值聚类实现资源自动分类:
(1)从初始样本Z中,任意选择K个特征向量作为初始聚类中心;
(2)对于所述初始样本Z中的其他对象Ri,计算所述Ri与所述聚类中心的距离,所述距离的计算方法为每两个点之间的欧氏距离或者根据实际效率选择,按照距离最近的准则将所述Ri归到最近的聚类中心所对应的类;
(3)将每个类别中的所有对象所对应的均值作为所述每个类别的聚类中心,计算目标函数的值,更新聚类中心;
(4)迭代第2步与第3步,直到新生成的聚类中心与上一步的聚类中心相等或差值小于指定的阈值ζ;
所述通过Parametric Bootstrap方法得到K值,进一步包括:
在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型;
通过所述统计量的模型的生成数据样本集合;
获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS;
在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。
2.一种基于无监督学习的网络空间资源自动分类装置,其特征在于,包括:
采集模块,用于采集分类器所处的网络环境的资源,以生成资源集合;
标记模块,用于根据预设n维属性对所述资源集合的资源进行属性标记,以生成新的资源集合;
提取模块,用于通过提取函数对所述新的资源集合进行特征提取,以得到特征向量,并获取初始样本空间;
初始化模块,用于通过Parametric Bootstrap方法得到K值,并运用K均值聚类对所述初始样本空间进行分类,以将所述初始样本空间分为K类资源;以及
归类模块,用于将所述K类资源归入到每一类的聚类中心所对应的网络空间资源图谱类中,以完善网络空间资源图谱;所述归类模块进一步用于将每一类的聚类中心作为对应的特征向量,将归到最为相类似的类中,并将所在类中的其他特征向量对应的网络资源一并归入所述相类似的类中;在特征值与当前每一类的差值都大于上界阈值时新增一类,以归入新类中;
所述初始化模块进一步用于从所述初始样本空间中任意选择K个特征向量作为初始聚类中心,获取所述初始样本空间中的其他对象与所述聚类中心的距离,并将每个类别中的所有对象所对应的均值作为类别的聚类中心,并获取目标函数的值,以更新所述聚类中心,直到更新后的聚类中心与前聚类中心相等或差值小于预设阈值;
所述初始化模块还用于,运用K均值聚类实现资源自动分类:
选择单元,用于从初始样本Z中,任意选择K个特征向量作为初始聚类中心;
计算单元,用于对于所述初始样本Z中的其他对象Ri,计算所述Ri与所述聚类中心的距离,所述距离的计算方法为每两个点之间的欧氏距离或者根据实际效率选择,按照距离最近的准则将所述Ri归到最近的聚类中心所对应的类;
更新单元,用于将每个类别中的所有对象所对应的均值作为所述每个类别的聚类中心,计算目标函数的值,更新聚类中心;
迭代单元,用于迭代第计算单元与更新单元,直到新生成的聚类中心与上一步的聚类中心相等或差值小于指定的阈值ζ;
所述初始化模块进一步用于在获取所述特征向量之后,先将所述K值取一个预设值,并通过K-means方法得到K种类的统计值,并且获取统计量的模型,且通过所述统计量的模型的生成数据样本集合,并获取估计聚类好坏的指标,从K+1开始起,每次递增1,以逐一考察模拟生成的样本的聚类的WSS,并在所述聚类的WSS满足预设条件时,接受K+1类,且后面依次增加k,直到不满足所述预设条件,以确定所述K值。
CN201810548471.4A 2018-05-31 2018-05-31 基于无监督学习的网络空间资源自动分类方法及装置 Active CN108846429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810548471.4A CN108846429B (zh) 2018-05-31 2018-05-31 基于无监督学习的网络空间资源自动分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810548471.4A CN108846429B (zh) 2018-05-31 2018-05-31 基于无监督学习的网络空间资源自动分类方法及装置

Publications (2)

Publication Number Publication Date
CN108846429A CN108846429A (zh) 2018-11-20
CN108846429B true CN108846429B (zh) 2023-04-07

Family

ID=64210292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810548471.4A Active CN108846429B (zh) 2018-05-31 2018-05-31 基于无监督学习的网络空间资源自动分类方法及装置

Country Status (1)

Country Link
CN (1) CN108846429B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263227B (zh) * 2019-05-15 2023-07-18 创新先进技术有限公司 基于图神经网络的团伙发现方法和***
CN114244824B (zh) * 2021-11-25 2024-05-03 国家计算机网络与信息安全管理中心河北分中心 一种网络空间WEB类资产风险Server同性快速识别的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810386A (zh) * 2014-02-13 2014-05-21 国家电网公司 一种基于非监督学习的继电保护装置聚类方法
CN107016068A (zh) * 2017-03-21 2017-08-04 深圳前海乘方互联网金融服务有限公司 知识图谱构建方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102131099B1 (ko) * 2014-02-13 2020-08-05 삼성전자 주식회사 지식 그래프에 기초한 사용자 인터페이스 요소의 동적 수정 방법
CN105608091B (zh) * 2014-11-21 2019-02-05 ***通信集团公司 一种动态医疗知识库的构建方法及装置
CN105357063B (zh) * 2015-12-14 2019-09-10 金润方舟科技股份有限公司 一种网络空间安全态势实时检测方法
CN106528768A (zh) * 2016-11-04 2017-03-22 北京中电普华信息技术有限公司 一种咨询热点分析方法及装置
CN106708016B (zh) * 2016-12-22 2019-12-10 中国石油天然气股份有限公司 故障监控方法和装置
CN106850333B (zh) * 2016-12-23 2019-11-29 中国科学院信息工程研究所 一种基于反馈聚类的网络设备识别方法及***
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备
CN107886949B (zh) * 2017-11-24 2021-04-30 科大讯飞股份有限公司 一种内容推荐方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810386A (zh) * 2014-02-13 2014-05-21 国家电网公司 一种基于非监督学习的继电保护装置聚类方法
CN107016068A (zh) * 2017-03-21 2017-08-04 深圳前海乘方互联网金融服务有限公司 知识图谱构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Building thesaurus-based knowledge graph based on schema layer;Bo Qiao 等;《Cluster Computing》;第20卷;全文 *

Also Published As

Publication number Publication date
CN108846429A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN105488539B (zh) 分类模型的生成方法及装置、***容量的预估方法及装置
CN103119582B (zh) 降低第一多变量数据组和第二多变量数据组之间的不相似度
JP5521881B2 (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
CN111667050B (zh) 度量学习方法、装置、设备及存储介质
CN111611486B (zh) 基于在线教育大数据的深度学习样本标注方法
CN111008693B (zh) 一种基于数据压缩的网络模型构建方法、***和介质
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN112001422B (zh) 一种基于深度贝叶斯学习的图像标记估计方法
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及***
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN103927510A (zh) 图像识别装置和图像识别方法
CN111046930A (zh) 一种基于决策树算法的供电服务满意度影响因素识别方法
CN108846429B (zh) 基于无监督学习的网络空间资源自动分类方法及装置
CN109189876A (zh) 一种数据处理方法及装置
JP5139874B2 (ja) ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法
CN111159241B (zh) 一种点击转化预估方法及装置
CN117294727A (zh) 一种基于云原生和容器技术的云边端协同管理方法
CN109213831A (zh) 事件检测方法和装置、计算设备及存储介质
CN108681505A (zh) 一种基于决策树的测试用例排序方法和装置
CN114898804A (zh) 生物标志物确定方法及装置、存储介质、电子设备
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
CN111782978B (zh) 兴趣点数据的处理方法及装置、电子设备、可读介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant