CN110765329B - 一种数据的聚类方法和电子设备 - Google Patents

一种数据的聚类方法和电子设备 Download PDF

Info

Publication number
CN110765329B
CN110765329B CN201911030402.5A CN201911030402A CN110765329B CN 110765329 B CN110765329 B CN 110765329B CN 201911030402 A CN201911030402 A CN 201911030402A CN 110765329 B CN110765329 B CN 110765329B
Authority
CN
China
Prior art keywords
data
clustering
generate
attribute
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911030402.5A
Other languages
English (en)
Other versions
CN110765329A (zh
Inventor
张首斌
薛智慧
潘季明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201911030402.5A priority Critical patent/CN110765329B/zh
Publication of CN110765329A publication Critical patent/CN110765329A/zh
Application granted granted Critical
Publication of CN110765329B publication Critical patent/CN110765329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据的聚类方法及电子设备,该方法包括:获取目标数据,对所述目标数据进行分类处理,生成包含多类数据的数据群;基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集。本申请所提供的方法能够全面深入地获取目标数据,快速地对数据群进行初步划分,然后基于细致划分数据的目的,对数据集进行进一步的细致划分,精确地划分生成了数据子集,直观地反映出数据的分布和状况。

Description

一种数据的聚类方法和电子设备
技术领域
本申请涉及于互联网大数据和安全技术领域,具体涉及一种数据的聚类方法和电子设备。
背景技术
随着互联网信息技术、智能制造和物联网技术的普及,网络基础设施平台和***的建设,互联网设备品牌和种类变得日益繁杂,互联网应用和服务也逐渐推广开来,涉及的行业和用户面也越来越广,同一种产品或者服务有可能针对不同用户群体,一个用户也可能使用多种产品和服务。在互联网大数据环境下,快速发现数据并准确的对其进行群体聚类和划分,发掘存在于网络中用户、企业、社区、产品、设备以及应用服务之间的显性和隐性关系,可以帮助企业、运营商以及政府决策机构更好的了解当前所处的网络环境,对于完善和优化网络运营环境、网络安全防护都有一定的积极作用。
现有技术一中关于数据的获取与划分的技术,主要采用主动探测技术,能够完成对目标区域联网的指定类型和品牌的发现。现有技术还采用爬虫技术抓取网页文本和链接信息,对每个用户的文本信息进行分类统计,可清晰地分析出每个用户的兴趣偏好和关注点,将网络社区用户群按照相同兴趣爱好进行划分。以上现有技术具有以下缺陷:数据来源只采用主动探测或者被动检测,来源单一;设备探测和服务监控只针对特定的应用场景,网络服务覆盖率低;并且现有技术的数据获取与划分的方法,用法单一,不能快速地将多类数据迅速地划分,划分结果也不够精细。
发明内容
为了解决上述技术问题,本申请实施例提供了一种数据的聚类方法,应用于电子设备中,所述方法包括:
一种数据的聚类方法,所述方法包括:
获取目标数据,对所述目标数据进行分类处理,生成包含多类数据的数据群;
基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;
基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集。
优选地,所述的基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集基于聚类特征对所述包含多类数据的数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集,包括:
对所述数据群进行预处理,以使所述包含多类数据的数据群具有所需的标准属性,其中所述预处理包括;
读取所述包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将所述具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
优选地,所述的基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集,包括:
利用二阶聚类算法对所述多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于所述待划分数据集的属性特征对所述待划分数据集进行进一步划分,以生成所需要的多个数据子集;
其中,所述离群数据具有与所述多个待划分数据集的属性特征不同的属性特征。
优选地,所述方法还包括:
对所述离群数据进行溯源分析;
基于所述离群数据的溯源分析结果,更新离群数据的属性特征;
基于更新后的所述离群数据的属性特征,更新所述数据集,以对更新后的所述数据集合进行分类处理。
优选地,所述目标数据包括网络数据,所述获取目标数据包括:
利用主动探测和/或被动探测的方式进行网络数据采集;
其中,所述主动探测的方式包括:对所述网络数据对应的网络空间进行端口检测,根据检测的结果抓取所述网络数据。
优选地,所述的对所述目标数据进行分类处理,生成包含多类数据的数据群,包括:
对所述目标数据进行流量报文分类和/或扩展数据处理,基于所述目标数据的类别属性将所述目标数据整合成包含多类数据的数据群。
优选地,所述方法还包括:
将生成的所述数据子集进行可视化处理。
本申请还提供一种电子设备,包括:
分类模块,其用于获取目标数据,对所述目标数据进行分类处理,生成包含多类数据的数据群;
预处理模块,其用于基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;
聚类模块,其用于基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集。
优选地,所述预处理模块进一步用于:对所述数据群进行预处理,以使所述包含多类数据的数据群具有所需的标准属性,其中,所述预处理包括:读取所述包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将所述具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
优选地,所述聚类模块进一步用于:利用二阶聚类算法对所述多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于所述待划分数据集的属性特征对所述待划分数据集进行进一步划分,以生成所需要的多个数据子集;其中,所述离群数据具有与所述多个待划分数据集的属性特征不同的属性特征。
与现有技术相比,本申请实施例的有益效果在于:
能够全面深入地获取目标数据,利用了不同的方式,对目标数据进行初步分类,快速地对数据群进行初步划分,生成了多个大类的数据集,然后基于细致划分数据的目的,对数据集进行进一步的细致划分,精确地划分生成了数据子集,数据子集为最终划分的结果,更加精确,直观地反映出数据的分布和状况,以便供企业、网络运营和监管机构进行综合评估和分析。利用二阶聚类算法能有效的分析处理复杂的网络数据,对于混合类型的数据属性能实时对网络数据进行群体的划分,根据离群数据可以发现新的网络数据类型;实现了对数据挖掘的纵深突破和横向扩展,数据划分维度更广,且粒度更细;服务类型和门类扩展能力强,群体发现不再局限于某一类设备和产品,便于开发维护。
附图说明
图1为本申请实施例中一种数据的聚类方法的流程示意图;
图2为本申请实施例中一种数据的聚类方法的另一流程示意图;
图3为本申请实施例中电子设备的示意图;
图4为本申请实施例中一种数据的聚类方法的具体框架示意图;
图5为本申请实施例中一种数据的聚类方法的利用主动探测获取数据的示意图;
图6为本申请实施例中一种数据的聚类方法的对目标数据进行分类处理的示意图;
图7为本申请实施例中对数据的聚类流程的示意图。
具体实施方式
下面,结合附图对本申请的具体实施例进行详细的描述,但不作为本申请的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所公开的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
下面,结合附图详细的说明本申请实施例。
如图1所示,本申请实施例提供一种数据的聚类方法,该方法包括:
S1:获取目标数据,对目标数据进行分类处理,生成包含多类数据的数据群;
具体地,在本实施例中,首先,通过不同的方式获取目标数据,目标数据可为网络数据、本地数据、历史输入数据等。获取数据的方式包括网络爬虫技术与互联网深度解析技术等方法,全面深入地获取与挖掘目标网络数据。将所获取的多种目标数据进行初步分类,以利于后续的聚类操作。分类处理具体可包括,按照目标数据的类型进行分类,例如,将所获取的互联网服务数据进行报文分类处理。对获取的多种目标数据进行分类处理后,生成包含多类数据的数据群,数据群为包含有多种不同类别数据的混合数据的集合,生成的数据群中具有不同类别的数据。例如,当互联网服务数据为企业服务数据时,对企业服务数据进行分类处理,生成包含与企业服务信息相关数据的数据群。
S2:基于聚类特征对数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;
具体地,在本实施例中,基于聚类特征对数据群进行第一聚类操作,可对生成的数据群进行聚类划分。其中聚类特征包括数据的结构、内容、对象等,由于生成的数据群具有不同的聚类特征,例如,WEB数据应用分类、服务器类型、数据所属行业分类等,根据数据群中的包含不同聚类特征的数据,对数据群进行第一类聚类操作,第一类聚类操作对生成的数据群进行预处理,以对数据群进行初步的划分,通过第一类聚类操作,对数据群进行快速的划分,并生成多个大类的数据集,第一类聚类操作是基于数据群中具有不同聚类特征的数据来进行的。例如,当所获取的数据群为与企业服务信息相关数据的数据群时,在进行第一类聚类操作后,与企业服务信息相关数据的数据群可划分为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集等,通过第一类聚类操作,生成了具有不同聚类特征的多个数据集,数据集为包含有不同聚类特征的数据的集合,生成的多个数据集包含不同聚类特征的数据。
S3:基于数据集的属性特征对数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集。
具体地,在本实施例中,为了将所生成的数据集进行进一步的划分,基于数据集的属性特征对数据集进行第二聚类操作,属性特征包括数据的归属、具体类型、细化类别等等。第二类聚类操作对生成的数据集进行进一步的聚类划分,第二类聚类操作是基于数据集中具有不同属性特征的数据来进行的,相对于第一类聚类操作,第二类聚类操作更加细化。例如,当所生成的数据集为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集时,在进行第二聚类操作后,多个数据集可根据属性特征,生成多个数据子集,数据子集为具有不同的属性特征的数据的集合,相对于数据集,数据子集所包含的数据具有进一步细化的属性类别。例如,厂商数据子集、型号数据子集、工控数据子集、型号数据子集、金融数据子集。等等。生成的多个数据子集可具有不同的属性特征。数据子集具有十分精确的特点,直观地反映出数据的分布和状况。
通过本申请实施例的数据的聚类方法,能够全面深入地获取目标数据,利用了不同的方式,对目标数据进行初步分类,快速地对数据群进行初步划分,生成了多个大类的数据集,然后基于细致划分数据的目的,对数据集进行进一步的细致划分,精确地划分生成了数据子集,数据子集为最终划分的结果,更加精确,直观地反映出数据的分布和状况,以便供企业、网络运营和监管机构进行综合评估和分析。
在本申请的一个实施例中,如图1、图4和图7所示,该数据的聚类方法还包括以下步骤:
对数据群进行预处理,以使包含多类数据的数据群具有所需的标准属性,其中预处理包括:
读取包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
具体地,在本实施例中,基于聚类特征对数据群进行第一聚类操作,可对生成的数据群进行聚类划分。根据数据群中的包含不同聚类特征的数据,对数据群进行第一类聚类操作,第一类聚类操作对生成的数据群进行预处理,预处理是对数据群进行初步的划分。先对具有多维度的数据群进行初步处理,如缺失值处理、去除噪声数据、合并冗余特征属性等。预处理使数据群具有所需的标准属性,标准属性根据使用环境由用户自定义,例如,设备类别标准、服务类别标准、WEB门类标准等,预处理具体包括;首先读取包含多类数据的数据群中具有相同类别或相似类别的数据单元,数据单元为数据群中具有相同或相似类别数据的小型数据集合。将初步处理后的数据群进行标准化和归一化处理,读取数据群中处于统一量纲的数据单元。根据各数据单元的密集度,将具有相同类别或相似类别的数据单元进行聚合操作,在这里,逐个读取数据单元中多维数据的集中的数据,其中包括应用服务数据单元、位置数据单元、WEB服务数据单元等,不同数据单元中包含连续型属性,如服务发布时间、位置区域编号等,和分类型属性,如WEB应用分类、服务器类型、各个中间件类别、文本内容所属行业分类等,在生成数据集的同时,预先对密集区域的数据点进行聚类,形成诸多小的数据单元。最后,将具有相同类别或相似类别的数据单元进行聚合操作,生成具有不同聚类特征的多个数据集。例如,当数据群为与企业服务信息相关数据的数据群时,在进行第一类聚类操作后,与企业服务信息相关数据的数据群可划分为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集等,通过对数据群的预处理和第一类聚类操作,生成了具有不同聚类特征的多个数据集,数据集为包含有不同聚类特征的数据的集合,生成的多个数据集包含不同聚类特征的数据。
在本申请的一个实施例中,如图1、图4和图7所示,该数据的聚类方法还包括以下步骤:
利用二阶聚类算法对多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于待划分数据集的属性特征对待划分数据集进行进一步划分,以生成所需要的多个数据子集;
其中,所述离群数据具有与所述多个待划分数据集的属性特征不同的属性特征。
具体地,在本实施例中,以数据集为对象,利用凝聚法(agglomerativehierarchical clustering method),逐个地合并数据,直到期望的子集数量。生成的期望的子集的数量即为具有不同属性特征的多个数据子集。
在本实施例中,以数据集作为算法模块的输入进行二阶聚类算法建模。模型输出为多个待划分数据集和离群数据,抽取离群数据,并对待划分数据集进行进一步划分,即得到多个数据子集,以此作为聚类划分的结果,其中群体的多少和划分的粒度可以根据算法中的粗估和精定相配合的方法来确定。其所划分的结果跟输入的数据相关,例如获取了企业和制造业相关数据在群体划分后根据划分粒度可有工控群体、轻工行业群体、能源群体等输出。在进行第二聚类操作后,多个数据集可根据属性特征,生成多个数据子集,数据子集为具有不同的属性特征的数据的集合,相对于数据集,数据子集所包含的数据具有进一步细化的属性类别。例如,厂商数据子集、型号数据子集、工控数据子集、型号数据子集、金融数据子集等。生成的多个数据子集可具有不同的属性特征。数据子集具有十分精确的特点,直观地反映出数据的分布和状况。在本实施例中,通过离群数据发现了安防新兴行业群体,主要集中在摄像头厂商,并重新确定了新的特征属性如应用服务数据集的流量协议层中增加了Hikvision-Webs、DVRDVS-Webs等,WEB服务数据中增加了Hikvision、Dahua等。
如图2和图7所示,本申请实施例提供一种数据的聚类方法,该方法还包括:
S4:对所述离群数据进行溯源分析;
基于离群数据的溯源分析结果,更新离群数据的属性特征;
基于更新后的离群数据的属性特征,更新所述数据集,以对更新后的数据集合进行分类处理。
在本实施例中,对于离群数据,即输出是离群点的数据,需溯源找回离群数据所属原始样本数据,然后分析其各个属性特征和原始记录信息,人为确定是否属于新兴群体,将判定为新兴群体的数据作为发现的新群体样本,重新确定新群体应抽取的特征属性并反馈给数据处理阶段,以便下次进行划分时能处理新兴群体的数据。例如,通过离群数据发现了安防新兴行业群体,主要集中在摄像头厂商,并重新确定了新的特征属性如应用服务数据集的流量协议层中增加了Hikvision-Webs、DVRDVS-Webs等,WEB服务数据中增加了Hikvision、Dahua等。对离群数据的溯源分析,确定了离群数据的属性特征,更新了新的数据集。这样,就可以将安防新兴行业群体的离群数据再次经过聚合操作,直到生成包含其属性特征的期望数量的数据子集。
如图4和图5所示,在本申请的一个实施例中,所述目标数据包括网络数据,所述获取目标数据包括以下步骤:
利用主动探测和/或被动探测的方式进行网络数据采集;
其中,主动探测的方式包括:对网络数据对应的网络空间进行端口检测,根据检测的结果抓取网络数据。
具体地,在本实施例中,网络数据采集包括服务主动探测、流量报文采集以及历史日志和扩展数据。例如,利用主动探测的方式进行网络数据采集,即,数据收集,可以分布式节点形式进行部署,探测依赖于指纹信息库,首先,输入需探测的数据,进行端口集筛选,根据指纹信息整合需探测的端口集,然后依据需求对指定的IP地址空间或者全域地址空间进行端口存活检测和协议检测,如果检测出端口存活,则根据指纹库中的设备和服务特征构造特定的探测报文发起探测,最后收集服务端的应答报文数据,根据检测的结果抓取网络数据。进一步地,网络数据流量采集可利用被动采集,通常部署在企业、运营商网关或者其他网络出口作旁路形式,采集到的报文和主动探测报文数据在下一个步骤进一步分类处理。历史日志和扩展数据主要是用来进一步扩大数据采集规模,可以包含IP、URL和域名信息的一种或者多种,供数据分类阶段的数据提取和后续的地址库和域名库查询使用。
在本申请的一个实施例中,如图4和图6所示,所述的对所述目标数据进行分类处理,生成包含多类数据的数据群,包括以下步骤:
对目标数据进行分类处理,生成包含多类数据的数据群,包括:
对目标数据进行流量报文分类和/或扩展数据处理,基于目标数据的类别属性将目标数据整合成包含多类数据的数据群。
具体地,在本实施例中,对获取的目标数据进行分类处理,包括流量处理和日志及扩展数据处理。例如,报文原始数据首先经过报文分类进行传统服务(如ssl、http、ftp、telnet、dns、samba等)分类,分类时可以采用端口识别方式提升处理效率,也可结合应用识别提高精准度,未知服务数据按TCP/UDP归类;分类完成后由应用识别模块对所有的TCP/UDP流量、HTTP、SLL等承载有上层应用的服务数据进行二次深度扫描,标记每条会话信息所属服务类别(IM、文件传输、传统协议、加密隧道、远程控制、工业控制等)及应用协议名称(如QQ、百度网盘、迅雷加密、TeamView、Modbus等);识别之后依据每个服务和协议的不同,同时结合指纹库构建协议解码器,进行应用服务指纹识别和应用服务协议字段解析,对已经识别的服务数据和应用报文数据进一步挖掘,如软件版本、WEB服务版本类型(nginx、apache等)、设备信息(厂商、固件版本、软件版本、规格型号、配置等),最终把设备数据、应用数据以及服务数据聚合。将经过协议解析的流量数据与日志及扩展数据一起送入IP/URL/Domain抽取模块,抽取出服务端可能存在的IP、URL或者Host/Domain信息;后续经过IP地址库或者URL地址库查询,获取到当前网络服务位置、归属及相关联的WEB服务门类信息。在数据分类处理最终阶段,对所有收集到的应用服务信息数据、位置数据信息数据和WEB服务数据进行数据去重和筛选,完成对数据的划分和聚合。最终基于目标数据的类别属性将目标数据整合成包含多类数据的数据群。
如图2和图4所示,本申请实施例提供一种数据的聚类方法,该方法还包括:
S5:将生成的数据子集进行可视化处理。
在本实施例中,最终生成的数据子集具有精细化并且属性明显的特点,可将数据子集存储,并对数据子集进行可视化处理,可使用户直观地查看最终生成的数据子集,以便于利用该数据子集进行其他处理。可视化是针对OLAP(On-Line Analytical Processing,即联机分析处理,目标是探索并挖掘数据价值为决策作为参考)中数据存储和服务接口的应用,主要采用开源Zeppelin框架,提供可数据驱动的、可交互且可协作的数据报表;通过可视化技术可以对网络服务中不同门类、不同层次数据子集提供直观的分类。
下面结合一个具体实施例对二阶聚类算法进行详细的说明,二阶聚类算法的原理为:设定输入数据集
Figure BDA0002249973030000101
中有N个数据
Figure BDA0002249973030000102
具体可对应应用型数据、设备型数据、服务型数据、中间件数据等,每个数据由D个属性刻画,具体如端口属性、协议属性、IP属性、设备指纹属性、中间件对象属性等,其中有D1个连续型属性(continuous attribute)和D2个分类型属性(categorical attribute),设
Figure BDA0002249973030000103
其中
Figure BDA0002249973030000104
表示第n个数据在第s连续型属性下的属性值,
Figure BDA0002249973030000105
表示第n个数据在第t分类型属性下的属性值,已知第t个分类型属性有εt种可能取值,如工控协议类型有29种,具体如Modbus/DNP3/Profinet/OPCUA/Omron_fins/Siemens_S7等。CJ={C1,...,CJ}表示对输入数据集
Figure BDA0002249973030000111
的子集的数量(即簇数)为J的聚类,其中Cj表示聚类CJ中第j个子集(即簇),不失一般性,设子集Cj中有Nj个数据,
Figure BDA0002249973030000112
在预聚类阶段,首先逐个将数据集
Figure BDA0002249973030000113
中数据,***到聚类特征树(CF树)中,实现CF树的生长;当CF树的体积超出设定尺寸时,先剔除当前CF树上的潜在离群数据(即离群点),而后增加空间阈值并对CF树进行瘦身(rebuilding),再将不增加瘦身后的CF树体积的离群数据***CF树中;当遍历所有数据后,不能***CF树中的潜在离群数据即为真正离群数据(在完成数据集
Figure BDA0002249973030000114
中所有数据到CF树上的***后,仍为潜在离群数据的元项,视为最终离群数据);最后将最终CF树叶元项(leaf entry)对应子集的聚类特征输出至算法的下一阶段。
聚类阶段的输入为预聚类阶段输出的最终CF树的叶元项的子集(sub-cluster),记为C1,...,CJ0,事实上,并非包含具体数据点的子集,只是各子集的聚类特征:
Figure BDA0002249973030000115
因此本阶段的工作是根据输入数据
Figure BDA0002249973030000116
对子集C1,...,CJ0进行二度聚类,最终实现期望子集数的聚类结果。其中自动确定聚类的最佳子集数是二阶聚类算法的特点之一。主要通过粗估和精定,达到了准确确定聚类最佳子集数的效果。粗估主要借助贝叶斯信息准则(BIC,Bayesian information ciriterion)以找到最佳子集数的大致范围。精定是从最佳子集数的初步估计开始,依据前后两个聚类中最近子集距离的比值,精确定位最佳子集数。
经过上述计算,得到了最终的聚类
Figure BDA00022499730300001111
但是并不知道该聚类中的各子集都具体地包含了那些数据,只知道各子集的聚类特征,因此需要通过此步骤完成数据集
Figure BDA0002249973030000117
中各数据到相应子集的分派。因为实施过程中考虑了离群数据,所以设置阈值
Figure BDA0002249973030000118
其中ρs表示第s个连续型属性的取值范围,εt表示第t个分类型属性的取值数目。对于数据
Figure BDA0002249973030000119
而言,如果
Figure BDA00022499730300001110
Figure BDA0002249973030000121
Figure BDA0002249973030000122
分派至子集
Figure BDA0002249973030000124
中;否则视数据
Figure BDA0002249973030000123
为离群数据。
本申请实施例还提供一种电子设备,包括:分类模块,其用于获取目标数据,对目标数据进行分类处理,生成包含多类数据的数据群;预处理模块,其用于基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;聚类模块,其用于基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集。
具体地,如图3所示,在本实施例中,分类模块通过不同的方式获取目标数据,目标数据可为网络数据、本地数据、历史输入数据等。获取数据的方式包括网络爬虫技术与互联网深度解析技术等方法,全面深入地获取与挖掘目标网络数据。将所获取的多种目标数据进行初步分类,以利于后续的聚类操作。分类处理具体可包括,按照目标数据的类型进行分类,例如,将所获取的互联网服务数据进行报文分类处理。对获取的多种目标数据进行分类处理后,生成包含多类数据的数据群,数据群为包含有多种不同类别数据的混合数据的集合,生成的数据群中具有不同类别的数据。例如,当互联网服务数据为企业服务数据时,对企业服务数据进行分类处理,生成包含与企业服务信息相关数据的数据群。
具体地,在本实施例中,预处理模块用于基于聚类特征对数据群进行第一聚类操作,可对生成的数据群进行聚类划分。其中聚类特征包括数据的结构、内容、对象等,由于生成的数据群具有不同的聚类特征,例如,WEB数据应用分类、服务器类型、数据所属行业分类等,根据数据群中的包含不同聚类特征的数据,对数据群进行第一类聚类操作,第一类聚类操作对生成的数据群进行预处理,以对数据群进行初步的划分,通过第一类聚类操作,对数据群进行快速的划分,并生成多个大类的数据集,第一类聚类操作是基于数据群中具有不同聚类特征的数据来进行的。例如,当所获取的数据群为与企业服务信息相关数据的数据群时,在进行第一类聚类操作后,与企业服务信息相关数据的数据群可划分为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集等,通过第一类聚类操作,生成了具有不同聚类特征的多个数据集,数据集为包含有不同聚类特征的数据的集合,生成的多个数据集包含不同聚类特征的数据。
具体地,在本实施例中,为了将所生成的数据集进行进一步的划分,聚类模块用于基于数据集的属性特征对数据集进行第二聚类操作,属性特征包括数据的归属、具体类型、细化类别等等。第二类聚类操作对生成的数据集进行进一步的聚类划分,第二类聚类操作是基于数据集中具有不同属性特征的数据来进行的,相对于第一类聚类操作,第二类聚类操作更加细化。例如,当所生成的数据集为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集时,在进行第二聚类操作后,多个数据集可根据属性特征,生成多个数据子集,数据子集为具有不同的属性特征的数据的集合,相对于数据集,数据子集所包含的数据具有进一步细化的属性类别。例如,厂商数据子集、型号数据子集、工控数据子集、型号数据子集、金融数据子集。等等。生成的多个数据子集可具有不同的属性特征。数据子集具有十分精确的特点,直观地反映出数据的分布和状况。
具体地,在本实施例中,预处理模块进一步用于:对数据群进行预处理,以使包含多类数据的数据群具有所需的标准属性,其中,预处理包括:读取包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
具体地,在本实施例中,基于聚类特征对数据群进行第一聚类操作,可对生成的数据群进行聚类划分。根据数据群中的包含不同聚类特征的数据,对数据群进行第一类聚类操作,第一类聚类操作对生成的数据群进行预处理,预处理是对数据群进行初步的划分。先对具有多维度的数据群进行初步处理,如缺失值处理、去除噪声数据、合并冗余特征属性等。预处理使数据群具有所需的标准属性,标准属性根据使用环境由用户自定义,例如,设备类别标准、服务类别标准、WEB门类标准等,预处理具体包括;首先读取包含多类数据的数据群中具有相同类别或相似类别的数据单元,数据单元为数据群中具有相同或相似类别数据的小型数据集合。将初步处理后的数据群进行标准化和归一化处理,读取数据群中处于统一量纲的数据单元。根据各数据单元的密集度,将具有相同类别或相似类别的数据单元进行聚合操作,在这里,逐个读取数据单元中多维数据的集中的数据,其中包括应用服务数据单元、位置数据单元、WEB服务数据单元等,不同数据单元中包含连续型属性,如服务发布时间、位置区域编号等,和分类型属性,如WEB应用分类、服务器类型、各个中间件类别、文本内容所属行业分类等,在生成数据集的同时,预先对密集区域的数据点进行聚类,形成诸多小的数据单元。最后,将具有相同类别或相似类别的数据单元进行聚合操作,生成具有不同聚类特征的多个数据集。例如,当数据群为与企业服务信息相关数据的数据群时,在进行第一类聚类操作后,与企业服务信息相关数据的数据群可划分为设备类别数据集、服务类别数据集、地域数据集、WEB门类数据集、企业机构数据集等,通过对数据群的预处理和第一类聚类操作,生成了具有不同聚类特征的多个数据集,数据集为包含有不同聚类特征的数据的集合,生成的多个数据集包含不同聚类特征的数据。
具体地,在本实施例中,聚类模块进一步用于:利用二阶聚类算法对多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于待划分数据集的属性特征对待划分数据集进行进一步划分,以生成所需要的多个数据子集;其中,离群数据具有与所述多个待划分数据集的属性特征不同的属性特征。
具体地,在本实施例中,以数据集为对象,利用凝聚法(agglomerativehierarchical clustering method),逐个地合并数据,直到期望的子集数量。生成的期望的子集的数量即为具有不同属性特征的多个数据子集。
在本实施例中,以数据集作为算法模块的输入进行二阶聚类算法建模。模型输出为多个待划分数据集和离群数据,抽取离群数据,并对待划分数据集进行进一步划分,即得到多个数据子集,以此作为聚类划分的结果,其中群体的多少和划分的粒度可以根据算法中的粗估和精定相配合的方法来确定。其所划分的结果跟输入的数据相关,例如获取了企业和制造业相关数据在群体划分后根据划分粒度可有工控群体、轻工行业群体、能源群体等输出。在进行第二聚类操作后,多个数据集可根据属性特征,生成多个数据子集,数据子集为具有不同的属性特征的数据的集合,相对于数据集,数据子集所包含的数据具有进一步细化的属性类别。例如,厂商数据子集、型号数据子集、工控数据子集、型号数据子集、金融数据子集等。生成的多个数据子集可具有不同的属性特征。数据子集具有十分精确的特点,直观地反映出数据的分布和状况。在本实施例中,通过离群数据发现了安防新兴行业群体,主要集中在摄像头厂商,并重新确定了新的特征属性如应用服务数据集的流量协议层中增加了Hikvision-Webs、DVRDVS-Webs等,WEB服务数据中增加了Hikvision、Dahua等。
本申请技术方案带来的有益效果:
本申请能够全面深入地获取目标数据,利用了不同的方式,对目标数据进行初步分类,快速地对数据群进行初步划分,生成了多个大类的数据集,然后基于细致划分数据的目的,对数据集进行进一步的细致划分,精确地划分生成了数据子集,数据子集为最终划分的结果,更加精确。本申请采用主动探测和被动检测两种方式对特定的互联网空间进行数据采集,且同时支持服务器日志和第三方扩展数据,可以进一步完善数据群;协议识别使得服务不再局限于传统WEB服务等典型应用场景,支持加密流量分类,同时互联网服务类别进一步细化到应用级别,数量达到千级;通过深度解析技术,充分挖掘流量中服务和设备信息,扩展应用和服务类别属性。多维度划分方法采用OLAP多维分析技术,结合二阶聚类算法使得最终划分更精确,可以更加真实反映出网络中服务分布和应用状况,以便供企业、网络运营和监管机构进行综合评估和分析。
结合OLAP多维分析技术利用二阶聚类算法能有效的分析处理复杂的网络数据,对于混合类型的数据属性能实时对网络数据进行群体的划分,根据离群数据可以发现新的网络数据类型;基于指纹协议识别和协议解析技术进行数据解析,结合IP地址位置查询、URL及与域名库查询,实现了对数据挖掘的纵深突破和横向扩展,数据划分维度更广,且粒度更细;整个装置扩展依赖于网络服务的指纹库、IP地址库和URL分类库,服务类型和门类扩展能力强,群体发现不再局限于某一类设备和产品,便于开发维护。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种数据的聚类方法,所述方法包括:
获取目标数据,对所述目标数据进行分类处理,生成包含多类数据的数据群;
基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;
基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集;
所述的基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集,包括:
利用二阶聚类算法对所述多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于所述待划分数据集的属性特征对所述待划分数据集进行进一步划分,以生成所需要的多个数据子集;
其中,所述离群数据具有与所述多个待划分数据集的属性特征不同的属性特征;
所述方法还包括:
对所述离群数据进行溯源分析;
基于所述离群数据的溯源分析结果,更新离群数据的属性特征;
基于更新后的所述离群数据的属性特征,更新所述数据集,以对更新后的所述数据集合进行分类处理。
2.根据权利要求1所述的方法,其特征在于,所述的基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集,包括:
对所述数据群进行预处理,以使所述包含多类数据的数据群具有所需的标准属性,其中所述预处理包括:
读取所述包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将所述具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
3.根据权利要求1所述的方法,其特征在于,所述目标数据包括网络数据,所述获取目标数据包括:
利用主动探测和/或被动探测的方式进行网络数据采集;
其中,所述主动探测的方式包括:对所述网络数据对应的网络空间进行端口检测,根据检测的结果抓取所述网络数据。
4.根据权利要求1所述的方法,其特征在于,所述的对所述目标数据进行分类处理,生成包含多类数据的数据群,包括:
对所述目标数据进行流量报文分类和/或扩展数据处理,基于所述目标数据的类别属性将所述目标数据整合成包含多类数据的数据群。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将生成的所述数据子集进行可视化处理。
6.一种电子设备,其特征在于,包括:
分类模块,其用于获取目标数据,对所述目标数据进行分类处理,生成包含多类数据的数据群;
预处理模块,其用于基于聚类特征对所述数据群进行第一聚类操作,生成具有不同聚类特征的多个数据集;
聚类模块,其用于基于所述数据集的属性特征对所述数据集进行第二聚类操作,生成具有不同属性特征的多个数据子集;
所述聚类模块进一步用于:利用二阶聚类算法对所述多个数据集进行聚类划分,生成多个待划分数据集和离群数据,基于所述待划分数据集的属性特征对所述待划分数据集进行进一步划分,以生成所需要的多个数据子集;其中,所述离群数据具有与所述多个待划分数据集的属性特征不同的属性特征;
所述聚类模块还用于:对所述离群数据进行溯源分析;
基于所述离群数据的溯源分析结果,更新离群数据的属性特征;
基于更新后的所述离群数据的属性特征,更新所述数据集,以对更新后的所述数据集合进行分类处理。
7.根据权利要求6所述的电子设备,其特征在于,所述预处理模块进一步用于:对所述数据群进行预处理,以使所述包含多类数据的数据群具有所需的标准属性,其中,所述预处理包括:读取所述包含多类数据的数据群中具有相同类别或相似类别的数据单元,根据各数据单元的密集度,将所述具有相同类别或相似类别的数据单元进行聚合操作,以生成具有不同聚类特征的多个数据集。
CN201911030402.5A 2019-10-28 2019-10-28 一种数据的聚类方法和电子设备 Active CN110765329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911030402.5A CN110765329B (zh) 2019-10-28 2019-10-28 一种数据的聚类方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911030402.5A CN110765329B (zh) 2019-10-28 2019-10-28 一种数据的聚类方法和电子设备

Publications (2)

Publication Number Publication Date
CN110765329A CN110765329A (zh) 2020-02-07
CN110765329B true CN110765329B (zh) 2022-09-23

Family

ID=69334197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911030402.5A Active CN110765329B (zh) 2019-10-28 2019-10-28 一种数据的聚类方法和电子设备

Country Status (1)

Country Link
CN (1) CN110765329B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786903B (zh) * 2020-05-28 2022-02-25 西安电子科技大学 一种基于约束模糊聚类和粒计算的网络流量分类方法
CN111711633B (zh) * 2020-06-22 2021-08-13 中国科学技术大学 多阶段融合的加密流量分类方法
CN112884091B (zh) * 2021-04-28 2021-07-23 睿至科技集团有限公司 一种基于大数据的智能数据分析方法及其终端设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808339A (zh) * 2010-04-06 2010-08-18 哈尔滨工业大学 一种应用k-means和先验知识的话务小区自适应分类方法
CN102314519B (zh) * 2011-10-11 2012-12-19 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法
CN103927643B (zh) * 2014-04-30 2017-07-07 清远初曲智能科技有限公司 一种大规模订单处理与配送路径优化的方法
CN105471670B (zh) * 2014-09-11 2019-08-02 中兴通讯股份有限公司 流量数据分类方法及装置
CN104573050A (zh) * 2015-01-20 2015-04-29 安徽科力信息产业有限责任公司 一种基于Canopy聚类和BIRCH层次聚类的连续属性离散化方法
CN109804379B (zh) * 2016-08-10 2023-12-29 西门子股份公司 通过并行语义微聚合的大数据k-匿名化
CN107633007B (zh) * 2017-08-09 2021-09-28 五邑大学 一种基于层次化ap聚类的商品评论数据标签化***和方法
CN107609102A (zh) * 2017-09-12 2018-01-19 电子科技大学 一种短文本在线聚类方法
CN109508748A (zh) * 2018-11-22 2019-03-22 北京奇虎科技有限公司 一种聚类方法及装置
CN110348526B (zh) * 2019-07-15 2021-05-07 武汉绿色网络信息服务有限责任公司 一种基于半监督聚类算法的设备类型识别方法和装置

Also Published As

Publication number Publication date
CN110765329A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
US11462007B2 (en) System for simplified generation of systems for broad area geospatial object detection
CN110765329B (zh) 一种数据的聚类方法和电子设备
CN111506599B (zh) 基于规则匹配和深度学习的工控设备识别方法及***
CN116739389A (zh) 基于云计算的智慧城市管理方法及***
CN111565205A (zh) 网络攻击识别方法、装置、计算机设备和存储介质
Amerini et al. Blind image clustering based on the normalized cuts criterion for camera identification
CN110071829B (zh) Dns隧道检测方法、装置及计算机可读存储介质
CN113328985B (zh) 一种被动物联网设备识别方法、***、介质及设备
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN113205134A (zh) 一种网络安全态势预测方法及***
US11477225B2 (en) Pre-emptive computer security
CN111935185A (zh) 基于云计算构建大规模诱捕场景的方法及***
CN109344913B (zh) 一种基于改进MajorClust聚类的网络入侵行为检测方法
CN110311870B (zh) 一种基于密度数据描述的ssl vpn流量识别方法
CN109067778B (zh) 一种基于蜜网数据的工控扫描器指纹识别方法
CN114818850A (zh) 基于聚类压缩的网络流空间映射表征方法、装置和存储介质
US20160239264A1 (en) Re-streaming time series data for historical data analysis
Fagroud et al. Connected devices classification using feature selection with machine learning
CN111901137A (zh) 一种利用蜜罐告警日志挖掘多步攻击场景的方法
CN112532562B (zh) 一种对抗性网络的恶意数据流检测方法及***
CN113032774B (zh) 异常检测模型的训练方法、装置、设备及计算机存储介质
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品
Sinadskiy et al. Formal Model and Algorithm for Zero Knowledge Complex Network Traffic Analysis
Burnaev Time-series classification for industrial applications: road surface damage detection use case
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant