CN116846690A - 基于行业分类和概率模型的IPv6网络空间测绘方法 - Google Patents

基于行业分类和概率模型的IPv6网络空间测绘方法 Download PDF

Info

Publication number
CN116846690A
CN116846690A CN202311119847.7A CN202311119847A CN116846690A CN 116846690 A CN116846690 A CN 116846690A CN 202311119847 A CN202311119847 A CN 202311119847A CN 116846690 A CN116846690 A CN 116846690A
Authority
CN
China
Prior art keywords
port
industry
probability
ipv6
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311119847.7A
Other languages
English (en)
Other versions
CN116846690B (zh
Inventor
李澄清
谷泽伟
王陆陆
韩宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202311119847.7A priority Critical patent/CN116846690B/zh
Publication of CN116846690A publication Critical patent/CN116846690A/zh
Application granted granted Critical
Publication of CN116846690B publication Critical patent/CN116846690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/659Internet protocol version 6 [IPv6] addresses

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及基于行业分类和概率模型的IPv6网络空间测绘方法。包括:从公开的自治***数据库中获得组织名称样本并进行标注;再从样本中选取一定比例作为数据集,并将组织名称转换为词向量表示;提取组织名称的特征向量,使用朴素贝叶斯分类器训练出分类模型;对区域自治组织名称进行分类,并对IPv6地址进行标注;在扫描过程中,根据设定的阈值从每个行业类别中抽取地址进行全端口扫描;据其构建预测端口的概率模型;对IPv6存活地址库中的地址进行端口扫描;基于该数据更新概率模型,完成当前轮次的扫描。本发明让网络资产的探测和漏洞评估变得灵活高效,且能为网络空间资产测绘和漏洞评估***提供更加精细的IPv6网络资产数据。

Description

基于行业分类和概率模型的IPv6网络空间测绘方法
技术领域
本发明属于网络空间测绘领域,更具体地,涉及基于行业分类和概率模型的IPv6网络空间测绘方法。
背景技术
随着5G和大数据信息技术的快速发展,工业互联网正迅速兴起,有力推动着传统制造业的数字化和智能化升级。网络设备广泛应用于智能制造领域,如工业控制网络和智慧农业生产场景。智能互联有效提升了工业生产效率,但同时也给网络基础设备、域名***为代表的关键网络基础设施带来了严重的安全隐患。传统的安全防御体系难以抵御当前错综复杂的网络攻击,因此从被动防护模式向主动防御模式转变已成为网络安全领域的共识。对联网设备进行实时全面的资产探测和漏洞状态感知是安全威胁分析的基础。在这一背景下,网络空间测绘技术发挥着重要作用,通过网络探测和采集方式,该技术能够精准发现和识别网络空间基础设施、用户及服务网络资产的信息,同时分析它们在各个空间层面的属性。然而,现有的网络空间测绘方法在对IPv6空间的支持上存在不足,例如扫描速度慢、探测资产信息有限以及扫描过程中带宽浪费等问题。
因此,本领域需要一种新的网络空间测绘方法。
发明内容
针对扫描测绘智能联网设备的资产信息和漏洞评估不准的技术改进需求,本发明提供了一种在IPv6网络空间中进行网络资产端口扫描的方法,旨在一定程度上解决评估漏洞效率较低的问题,弥补现有扫描方法消耗带宽较大的不足。
为实现这一目标,本发明提出一种基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,所述方法至少包括以下8个步骤:
S1、对公开自治***库中的组织名称按设定阈值随机抽样获得样本,并按照教育、云服务商、运营商、工业企业和无归属五个行业类别进行标注;
S2、将抽取的样本选取一定比例作为数据集,对数据进行清洗和预处理,去除无归属的区域自治组织名称,再将其转换成词向量表示;
S3、基于区域自治组织名称的词向量,采用朴素贝叶斯模型作为分类器,对区域自治组织名称进行行业分类;
步骤S3包括以下分步骤:
S3a、计算行业类别的先验概率,对于训练集
其中为特征向量,
,/>为任意训练数据,
为特征向量的维度,
C1,C2,C3,C4,C5分别对应教育、云服务商、运营商、工业企业和无归属组织这五个行业类别,m为训练集的大小,n为特征个数,某个行业类别存在的先验概率为
其中指示函数在/>成立下返回1,否则返回0,则第j个维度的特征xj存在的先验概率为
S3b、计算特征出现的条件概率,即在行业类别为Ck的条件下,特征向量的第j个维度
为1时的概率为
其中指示函数是指在/>成立时返回1,否则返回0,
是指在/>并且/>成立时返回1,否则返回0;
S3c、计算行业类别出现的条件概率,即在特征向量为x的条件下,行业类别为Ck的后验概率为
再将特征向量x按最大的后验概率进行行业分类,即
S4、从因特网获取IPv6存活地址库,并根据公开自治***库对IPv6地址进行行业类别标注;
S5、将完成行业类别分类的IPv6地址,按照一定比例从每个行业类别中抽取地址,再进行当轮的全端口扫描;
S6、基于全端口扫描数据,统计每个行业类别中网络端口开放的条件概率,构建每个行业用于开放端口预测的概率模型;
S7、基于所得概率模型,将IPv6存活地址库中的全部地址按行业类别获取网络开放的端口,并进行端口扫描和安全漏洞评估;
S8、基于端口扫描得到的数据,更新贝叶斯网络中的参数,结束当轮扫描;在下一轮扫描中重新抽样,并进行全端口扫描和贝叶斯网络更新,以得到更精确的网络开放端口信息。
在一种具体的实施方式中,步骤S2包括以下分步骤:
S2a、对组织名称中包含的符号用空格进行替换,将符号串中的英文字母和数字长串用空格进行间隔,去除无归属的或重复的区域自治组织名称,以保证组织名称的统一格式;
S2b、使用词袋模型提取组织名称的关键词并构建特征向量,每个组织名称对应一个尺寸为1*wordNum的向量,其中wordNum为统计组织名称中关键词汇的数量;
S2c、将得到的文本特征向量转化为词袋特征矩阵进行存储,词袋特征矩阵是一个二维矩阵,其中的每一行表示一个组织名称,每一列对应一个关键词汇,矩阵中的元素表示了对应组织名称中每个词语的出现频率,用于后续的分类器训练和行业分类。
本发明中,步骤S2b中的“关键词”示例如下。例如中国教育和科研网的区域自治组织名称为FITI-AS-BKB China Education and Research Network CERNET,将提取其中的关键词China,Education,Research,Network和Cernet;***的一个区域自治组织名称为CMI-INT-ASChina Mobile International Limited,将提取其中的关键词China,Mobile,International,Limited。
在一种具体的实施方式中,步骤S4包括以下分步骤:
S4a、对于每个区域自治组织号使用其IPv6地址前缀建立一个层次化的字典树,以0为左子节点、1为右子节点,并在字典树中存储对应的区域自治组织号;
S4b、从根节点开始,查找IPv6数据所属的区域自治组织号,逐级匹配IPv6地址前缀,找到一个匹配的最深节点,从该节点中获取对应的区域自治组织号,并根据区域自治组织号所对应的行业类别完成对IPv6地址数据的行业类别标注。
在一种具体的实施方式中,步骤S5包括以下分步骤:
S5a、对每个行业类别的IPv6地址进行样本抽取,获取一定数量的IPv6地址样本,并使用ZMapv6工具对全部的地址样本进行全端口探测操作,去除开放端口数量大于100的主机数据,并将探测到的开放端口信息存储在数据库中;
S5b、使用Masscan工具对数据库中的每个IPv6地址的开放端口的服务、***版本、开放协议信息进行测绘收集,并存储到数据库中。
在一种具体的实施方式中,步骤S6包括以下分步骤:
S6a、为构建每个行业类别的扫描端口预测概率模型,先从获取得到的IPv6全端口测绘数据计算三类特征的条件概率,其中在有主机端口a开放时端口b开放的概率为传输层特征P 1(port b |port a_open ),在主机端口a开放的协议包含特定协议特征值时端口b开放的概率为第1类传输层和应用层综合特征P 2(prot b | (prot a_Open ,protocal k ));在主机端口a开放并且响应主机回应报文是特定信息banner时端口b开放的概率为第2类传输层和应用层综合特征P 3(prot b | (prot a_Open ,port banner ));
S6b、将S6a中三种条件概率按降序存储在数据库中,存储的格式为概率条件和概率结果的元组,完成端口预测概率模型的构建。
在一种具体的实施方式中,步骤S7包括以下分步骤:
S7a、对抽样后剩余的全部地址扫描常用的20个端口,将扫描结果存储进数据库中,并构建这20个端口开放向量信息;
S7b、基于常用20个端口的开放向量信息,对比每个行业的端口预测概率模型中的条件概率,找到条件概率最大的前1500个端口,再进行扫描操作,并将结果存入数据库,结束当轮扫描。
在一种具体的实施方式中,步骤S8包括以下分步骤:
S8a、利用完成一轮扫描的开放端口数据,重新按照归属的五个行业分别计算S6a中的三个条件概率,更新用于端口预测的概率模型;
S8b、随机采样一批新的地址数据用于全端口扫描,更新用于端口预测的概率模型。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于行业分类和概率模型的IPv6网络空间测绘方法。
本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于行业分类和概率模型的IPv6网络空间测绘方法。
网络端口扫描用端口预测概率模型来进行IPv6网络空间设备资产端口扫描,从而构建起一个能够实现对IPv6网络空间按照行业分类进行探测的网络空间资产测绘与漏洞检测***,其优势在于依照行业分类有利于了解特定行业的IPv6部署情况,应用预测端口的概率模型来进行端口扫描、节约带宽资源的同时,提高端口探测的覆盖面,从而提高针对网络设备端口上漏洞的发现速度和准确度。
本发明通过多轮扫描,可以实现IPv6网络环境中已知IP地址的全面探测,更高效地获取实时数据信息,并提高网络设备及其安全状态的探测效率、降低扫描带宽消耗。
总体而言,通过本发明的技术方案,能够取得以下有益效果:
1)通过预先对区域自治组织进行行业分类操作,构建区域自治组织分类模型,从而实现对每个有区域自治组织归属的IPv6地址进行行业标注,实现了依照不同行业进行IPv6网络空间探测,让网络资产的探测和漏洞评估变得灵活高效。
2)构建用于IPv6网络空间探测的端口概率模型进行扫描,在一些针对云服务厂商行业的探测中,有利于更高效地找到需要进行漏洞扫描的端口,减小网络的带宽消耗和计算资源的消耗。
3)通过行业分类进行扫描,有利于从数据获取的源头开始对IPv6网络空间中的资产信息按照行业分类进行整理,为网络空间资产测绘和漏洞评估***提供更加精细的IPv6网络资产数据。
本发明的优势之处将在下文具体实施方式中给出,可以从下文中获得更加明显的描述。
附图说明
本发明的优点将通过以下实施例的描述结合附图来说明,其中:
图1为本发明所述基于行业分类和概率模型的IPv6网络空间测绘方法的整体流程图。
图2为本发明实施例的区域自治组织行业分类方法示意图,即步骤S1~S3。
图3为本发明实施例的建立区域自治组织号所对应的IPv6地址前缀的字典树示意图,即步骤S4。
图4为本发明实施例的执行扫描过程中构建端口扫描概率模型的示意图,即步骤S5~S8。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚,以下结合实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突,就可以相互组合。
实施例1
本实施例公开一种基于行业分类和概率模型的IPv6网络空间测绘方法中使用到的区域自治组织行业分类方法,参照图2。也对应图1中的步骤S1~S3。
包括S100,获取区域自治组织信息。
具体地,可以从因特网中的公开区域自治组织信息库中获取关于区域自治组织信息,该信息包含区域自治组织号、组织名称、所管理的IPv6地址区段,所述IPv6地址区段包含一个起始地址和一个结束地址。获取到的数据转换成tsv文件格式,即一种以制表符分隔值格式保存数据的纯文本文件,便于后期对每条数据的提取使用。
具体地,根据设定的阈值,该阈值可以根据数据规模进行调整,数据规模较小时,该阈值可以选取较大的数值。随机抽样一定数量的组织名称样本。然后,将它们分为教育、云服务商、运营商、工业企业和无归属五个行业类别进行标注,实现对组织名称的行业分类。选取这5个行业类别可以对IPv6地址较为聚集的行业进行探测扫描操作,也便于发现每个行业中IPv6地址开放端口的规律,以此在后续步骤中构建端口预测概率模型。
优选地,本实施例数据抽样部分可以采用Python语言中的数据随机采样函数库进行实现,设定的阈值可以根据数据的分布进行选取,尽可能让数据分布均匀,以便反映真实情况。
优选地,样本的数据标注可以根据互联网企业信息库中的信息进行标注操作,有利于提高数据准确性和分类结果。
S110,区域自治组织信息数据清洗,该步骤主要是对数据进行去重、符号处理操作。
具体地,第一,因为组织名称中包含的符号对行业分类有负面影响,所以需要去除符号,并将组织名称中包含的符号用空格进行替换。第二,英文长串和数字串的组合会影响特征向量的表达效果,因为很多数字编号仅仅代表一些公司的管理代号,这些跟行业类别无关的数字编号会影响分类结果,所以在此处将符号串中的英文字母和数字长串用空格进行间隔。第三,区域自治组织信息库中有很多区域自治组织名称为空,或者一个区域自治组织名称可能拥有很多个区域自治组织号码,需要将这些无用和冗余的数据进行去除操作,因此要去除无归属的或重复的区域自治组织名称,以保证组织名称的统一格式。
S120,区域自治组织文本转换为词特征向量。
具体地,使用词袋模型提取组织名称的关键词并构建特征向量,将每个组织名称视为一个单词的集合,统计每个单词在组织名称中出现与否作为特征向量的值。为每个组织名称构建一个尺寸为1*wordNum的向量,其中wordNum为统计组织名称中关键词汇的数量。
优选地,样本数据中的组织名称转换成特征向量表示,可以采用机器学习中常用的字符处理函数,对样本数据进行转换分析。
S130,构建朴素贝叶斯网络训练模型。
具体地,选择朴素贝叶斯模型作为分类器,并利用S120步骤生成的组织名称的词向量,对样本进行训练,得到分类模型,从而实现对区域自治组织名称的准确分类。
具体地,所述朴素贝叶斯模型数学表达如下,对于完成标注的部分样本,计算行业类别的先验概率,对于训练集
其中为特征向量,
,/>为任意训练数据,
为特征向量的维度,
C1,C2,C3,C4,C5分别对应教育、云服务商、运营商、工业企业和无归属组织这五个行业类别,m为训练集的大小,n为特征个数,某个行业类别存在的先验概率为
其中指示函数在/>成立下返回1,否则返回0,则第j个维度的特征xj存在的先验概率为
计算特征出现的条件概率,即在行业类别为Ck的条件下,特征向量的第j个维度为1时的概率为
其中指示函数是指在/>成立时返回1,否则返回0,
是指在/>并且/>成立时返回1,否则返回0;
计算行业类别出现的条件概率,即在特征向量为x的条件下,行业类别为Ck的后验概率为
再将特征向量x按最大的后验概率进行行业分类,即
完成用于区域自治组织行业分类的朴素贝叶斯网络的构建,利用构建的网络对数据进行分类操作,朴素贝叶斯网络的计算效率较高,可有效地节约计算量,提高区域自治组织的分类效率。
S140,完成数据分类。
具体地,利用朴素贝叶斯网络将剩余的全部区域自治组织进行行业分类,标注上对应的行业类别,存储进区域自治组织信息数据库中。
实施例2
本实施例公开一种基于行业分类和概率模型的IPv6网络空间测绘方法中使用到的构建区域自治组织号字典树,参照图3。也对应图1中的步骤S4。
该步骤中,首先包括提取IPv6地址前缀,即步骤S41。具体地,提取区域自治组织拥有的IPv6地址段中起始地址的前缀,一般IPv6地址表现形式为首选的IPv6地址表示为:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx: xxxx:xxxx,其中每个x是代表一个4位的十六进制数字地址格式,例如2001:1210:100:1::218,双冒号表示省略的这一段数据都为0。将这样格式的IPv6地址转换为二进制形式表示,以便于后期构建IPv6地址前缀的字典树并存储上相对应的区域自治组织号码。
其次包括构建层次化字典树以及包括在字典树中存储区域,即步骤S42和S43。具体地,建立区域自治组织号所对应的IPv6地址前缀的字典树。对于每个区域自治组织号,使用其IPv6地址前缀建立一个层次化的字典树,同时在字典树中存储区域自治组织号。将IPv6地址前缀,以0为左子节点、1为右子节点。当一个节点的左右子节点有一个存在时,说明该节点所代表的IPv6前缀是有后缀的,否则是最后一级节点,代表整个IPv6地址前缀。最后一级的地址前缀的区域自治组织存储较少的将全部的区域自治组织拥有的地址段的起始地址都存储进构建的字典树中,让IPv6地址来匹配其对应的区域自治组织号码。
然后包括从根节点逐级匹配查找区域自治组织号,即步骤S44。具体地,匹配IPv6数据所属的区域自治组织号的方法包括:首先从根节点开始逐级匹配IPv6地址前缀,直到找到一个最深的节点。它的左右子节点都不存在,此节点代表该地址的IPv6地址前缀。从该节点中获取对应的区域自治组织号,该区域自治组织号即为IPv6地址所归属的区域自治组织号。
实施例3
本实施例公开一种基于行业分类和概率模型的IPv6网络空间测绘方法中使用到的构建端口扫描概率模型方法,参照图4。也对应图1中的步骤S5至S8。
首先包括对部分IPv6地址全端口扫描和漏洞评估,即步骤S5。
具体地,对于完成区域自治组织号和行业类别映射操作的IPv6地址,按照一定比例从每个行业类别中抽取地址进行全端口扫描,从而获取每个行业类别中网络端口开放的情况。
具体地,基于全端口扫描数据,统计每个行业类别中网络端口开放的条件概率,并构建每个行业用于开放端口预测的概率模型,即步骤S6。
基于概率模型,将IPv6存活地址库中的全部地址按分类获取得到网络开放的端口,并进行端口扫描和漏洞评估,获取整个IPv6网络中的开放端口和安全状态情况,即步骤S7。
具体地,由于预测主机的端口往往需要一定数量的已知开放端口才能实现,所以在选取最佳主机预测端口时,只有通过扫描最常用的开放端口来实现。当已知至少一个常用开放端口时,开放端口组成的向量信息可以用来预测同一主机上的其他端口。
基于端口扫描的数据,更新贝叶斯网络中的参数,完成一轮扫描,并在下一轮扫描中重新抽样,并进行全端口扫描,再更新贝叶斯网络的参数配置,以实现网络空间测绘范围和漏洞检测精度的持续改进,即步骤S8。
在建立高效的扫描策略时,需要权衡对IPv6中响应服务的网络的扫描程度。一方面,扫描一个端口上的已知IPv6地址空间可以增加发现在该端口上响应的所有主机的可能性,但这样做会消耗更多的带宽,并且可能对目标网络产生更大的影响。另一方面,扫描种子集的端口下的子网可以减少带宽消耗,但可能会错过在子网中同样在该端口上响应的主机。因此,用户的带宽限制决定是否采用彻底扫描端口子网大小的关键因素,并作为用户指定的参数进行保留。
在实施扫描策略时,构建完每个行业的端口预测概率模型后,对全部的地址扫描常用的20个端口,将扫描数据存储进数据库中,并构建这20个端口开放的向量;
优选地,该实施例可以根据实际的数据反馈进行适当修改,以便于发现更多的网络资产端口开放情况。
优选地,基于常用20个端口的开放向量,根据每个行业的端口预测概率模型,找到条件概率最大的前1500个端口进行扫描操作;数据也可以根据实际应用情况进行100以内的数据调整。
基于此方法构建网络空间测绘和漏洞评估***,可以将上述方法分开实现,最终操作同一个数据库来实现对IPv6网络空间的探测操作。
优选地,其中操作同一数据库可以将区域自治组织信息和IPv6资产信息分开存储,并且选取区域自治组织号作为外键将两者关联起来。
该***还可引入一些开源的漏洞识别***,在完成端口探测后对网络资产的漏洞情况进行更精准的评估。
本发明的实施例中以网络层和传输层的数据特征组成的条件概率来构成概率模型。首先通过对存活IPv6地址集进行网络区段的划分,然后扫描IPv6地址集的全端口,获取真实环境的数据集和存活IPv6地址集,并对存活地址集进行行业的划分。然后对真实数据集中的数据,按传输层、应用层和网络层的特征计算条件概率,进而预测端口和服务的概率模型,构建扫描数据库并不断更新迭代,获取新的端口预测模型,在下一轮漏洞扫描中运用并更新数据。通过构建不同行业的端口概率模型来预测扫描端口,在扫描过程中节约漏洞扫描带宽,降低对目标网络的影响;同时在带宽一定的情况下,获得相较于预定端口扫描网络的传统方式更多更全面的资产和安全状态信息。此外,根据实时数据不断更新概率模型,以更快的速度更新数据信息。
图1为本发明所述基于行业分类和概率模型的IPv6网络空间测绘方法的整体流程图。在图1中,先包括步骤S1和S2,即区域自治组织数据清洗;再包括步骤S3,即行业分类模型;然后包括步骤S4,即标注IPv6地址行业类型;再包括步骤S5,即抽样IPv6地址进行全端口扫描;再包括步骤S6,即依据行业划分构建端口概率模型;再包括步骤S7,即扫描剩余IPv6地址;最后包括步骤S8的更新和开始下一轮扫描;其中更新是从步骤S7返回至步骤S6,而开始下一轮扫描则是从步骤S6返回至步骤S5。其中步骤S5、步骤S6、步骤S7和步骤S8也整体称为扫描流程。
图2为本发明实施例的区域自治组织行业分类方法示意图,即步骤S1~S3。具体也分为先后的步骤S100,即获取区域自治组织信息;步骤S110,即区域自治组织信息数据清洗;步骤S120,即区域自治组织文本转换为词特征向量;步骤S130,即构建朴素贝叶斯网络训练模型;以及步骤S140,即完成数据分类。
图3为本发明实施例的建立区域自治组织号所对应的IPv6地址前缀的字典树示意图,即步骤S4。具体也分为先后的步骤S41,即提取IPv6地址前缀;步骤S42,即构建层次化字典树;步骤S43,即字典树中存储区域自治组织号;以及步骤S44,即根节点逐级匹配查找区域自治组织号。
图4为本发明实施例的执行扫描过程中构建端口扫描概率模型的示意图,即步骤S5~S8。具体也包括步骤S5,即抽样IPv6地址进行全端口扫描,存储端口扫描数据到结构化数据库,以及计算对应的条件概率;步骤S6,即依据行业划分构建端口概率模型;步骤S7,即扫描剩余IPv6地址;以及步骤S8,即更新和之后回到步骤S5以开始下一轮扫描。
上述实施例仅为清楚地说明本发明技术方案所作的举例,而并非是对本发明的实施方式的限定。在不改变本发明基本构思和实质的情况下,任何其它等同技术特征的变换或修改,都应属于本发明权利要求的保护范围。

Claims (9)

1.基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,所述方法至少包括以下8个步骤:
S1、对公开自治***库中的组织名称按设定阈值随机抽样获得样本,并按照教育、云服务商、运营商、工业企业和无归属五个行业类别进行标注;
S2、将抽取的样本选取一定比例作为数据集,对数据进行清洗和预处理,去除无归属的区域自治组织名称,再将其转换成词向量表示;
S3、基于区域自治组织名称的词向量,采用朴素贝叶斯模型作为分类器,对区域自治组织名称进行行业分类;
步骤S3包括以下分步骤:
S3a、计算行业类别的先验概率,对于训练集
其中为特征向量,
,/>为任意训练数据,
为特征向量的维度,
C1,C2,C3,C4,C5分别对应教育、云服务商、运营商、工业企业和无归属组织这五个行业类别,m为训练集的大小,n为特征个数,某个行业类别存在的先验概率为
其中指示函数在/>成立下返回1,否则返回0,则第j个维度的特征xj存在的先验概率为
S3b、计算特征出现的条件概率,即在行业类别为Ck的条件下,特征向量的第j个维度
为1时的概率为
其中指示函数是指在/>成立时返回1,否则返回0,
是指在/>并且/>成立时返回1,否则返回0;
S3c、计算行业类别出现的条件概率,即在特征向量为x的条件下,行业类别为Ck的后验概率为
再将特征向量x按最大的后验概率进行行业分类,即
S4、从因特网获取IPv6存活地址库,并根据公开自治***库对IPv6地址进行行业类别标注;
S5、将完成行业类别分类的IPv6地址,按照一定比例从每个行业类别中抽取地址,再进行当轮的全端口扫描;
S6、基于全端口扫描数据,统计每个行业类别中网络端口开放的条件概率,构建每个行业用于开放端口预测的概率模型;
S7、基于所得概率模型,将IPv6存活地址库中的全部地址按行业类别获取网络开放的端口,并进行端口扫描和安全漏洞评估;
S8、基于端口扫描得到的数据,更新贝叶斯网络中的参数,结束当轮扫描;在下一轮扫描中重新抽样,并进行全端口扫描和贝叶斯网络更新,以得到更精确的网络开放端口信息。
2.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S2包括以下分步骤:
S2a、对组织名称中包含的符号用空格进行替换,将符号串中的英文字母和数字长串用空格进行间隔,去除无归属的或重复的区域自治组织名称,以保证组织名称的统一格式;
S2b、使用词袋模型提取组织名称的关键词并构建特征向量,每个组织名称对应一个尺寸为1*wordNum的向量,其中wordNum为统计组织名称中关键词汇的数量;
S2c、将得到的文本特征向量转化为词袋特征矩阵进行存储,词袋特征矩阵是一个二维矩阵,其中的每一行表示一个组织名称,每一列对应一个关键词汇,矩阵中的元素表示了对应组织名称中每个词语的出现频率,用于后续的分类器训练和行业分类。
3.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S4包括以下分步骤:
S4a、对于每个区域自治组织号使用其IPv6地址前缀建立一个层次化的字典树,以0为左子节点、1为右子节点,并在字典树中存储对应的区域自治组织号;
S4b、从根节点开始,查找IPv6数据所属的区域自治组织号,逐级匹配IPv6地址前缀,找到一个匹配的最深节点,从该节点中获取对应的区域自治组织号,并根据区域自治组织号所对应的行业类别完成对IPv6地址数据的行业类别标注。
4.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S5包括以下分步骤:
S5a、对每个行业类别的IPv6地址进行样本抽取,获取一定数量的IPv6地址样本,并使用ZMapv6工具对全部的地址样本进行全端口探测操作,去除开放端口数量大于100的主机数据,并将探测到的开放端口信息存储在数据库中;
S5b、使用Masscan工具对数据库中的每个IPv6地址的开放端口的服务、***版本、开放协议信息进行测绘收集,并存储到数据库中。
5.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S6包括以下分步骤:
S6a、为构建每个行业类别的扫描端口预测概率模型,先从获取得到的IPv6全端口测绘数据计算三类特征的条件概率,其中在有主机端口a开放时端口b开放的概率为传输层特征P 1(port b | port a_open ),在主机端口a开放的协议包含特定协议特征值时端口b开放的概率为第1类传输层和应用层综合特征P 2(prot b | (prot a_Open , protocal k ));在主机端口a开放并且响应主机回应报文是特定信息banner时端口b开放的概率为第2类传输层和应用层综合特征P 3(prot b | (prot a_Open , port banner ));
S6b、将S6a中三种条件概率按降序存储在数据库中,存储的格式为概率条件和概率结果的元组,完成端口预测概率模型的构建。
6.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S7包括以下分步骤:
S7a、对抽样后剩余的全部地址扫描常用的20个端口,将扫描结果存储进数据库中,并构建这20个端口开放向量信息;
S7b、基于常用20个端口的开放向量信息,对比每个行业的端口预测概率模型中的条件概率,找到条件概率最大的前1500个端口,再进行扫描操作,并将结果存入数据库,结束当轮扫描。
7.根据权利要求1所述的基于行业分类和概率模型的IPv6网络空间测绘方法,其特征在于,步骤S8包括以下分步骤:
S8a、利用完成一轮扫描的开放端口数据,重新按照归属的五个行业分别计算S6a中的三个条件概率,更新用于端口预测的概率模型;
S8b、随机采样一批新的地址数据用于全端口扫描,更新用于端口预测的概率模型。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于行业分类和概率模型的IPv6网络空间测绘方法。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于行业分类和概率模型的IPv6网络空间测绘方法。
CN202311119847.7A 2023-09-01 2023-09-01 基于行业分类和概率模型的IPv6网络空间测绘方法 Active CN116846690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311119847.7A CN116846690B (zh) 2023-09-01 2023-09-01 基于行业分类和概率模型的IPv6网络空间测绘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311119847.7A CN116846690B (zh) 2023-09-01 2023-09-01 基于行业分类和概率模型的IPv6网络空间测绘方法

Publications (2)

Publication Number Publication Date
CN116846690A true CN116846690A (zh) 2023-10-03
CN116846690B CN116846690B (zh) 2023-11-03

Family

ID=88174698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311119847.7A Active CN116846690B (zh) 2023-09-01 2023-09-01 基于行业分类和概率模型的IPv6网络空间测绘方法

Country Status (1)

Country Link
CN (1) CN116846690B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473512A (zh) * 2023-12-28 2024-01-30 湘潭大学 基于网络测绘的漏洞风险评估方法
CN117997873A (zh) * 2024-01-30 2024-05-07 清华大学 活跃IPv6地址探测方法、装置、设备及介质
CN117997873B (zh) * 2024-01-30 2024-07-30 清华大学 活跃IPv6地址探测方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160248800A1 (en) * 2014-12-29 2016-08-25 Cyence Inc. Cyber Vulnerability Scan Analyses with Actionable Feedback
US20180124072A1 (en) * 2016-10-31 2018-05-03 Acentium Inc. Systems and methods for computer environment situational awareness
CN112995187A (zh) * 2021-03-09 2021-06-18 中国人民解放军空军工程大学 一种基于社团结构的网络协同防御***及方法
CN114500346A (zh) * 2022-04-08 2022-05-13 北京华顺信安科技有限公司 一种网络空间测绘方法及装置
CN114817928A (zh) * 2022-04-02 2022-07-29 安天科技集团股份有限公司 网络空间数据融合分析方法、***、电子设备及存储介质
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务***
CN115834368A (zh) * 2021-11-29 2023-03-21 中国南方电网有限责任公司超高压输电公司 一种识别网络空间资产信息的***
CN116405275A (zh) * 2023-03-29 2023-07-07 中国科学院沈阳自动化研究所 一种基于网络空间探测行为的攻击组织动态识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160248800A1 (en) * 2014-12-29 2016-08-25 Cyence Inc. Cyber Vulnerability Scan Analyses with Actionable Feedback
US20180124072A1 (en) * 2016-10-31 2018-05-03 Acentium Inc. Systems and methods for computer environment situational awareness
CN112995187A (zh) * 2021-03-09 2021-06-18 中国人民解放军空军工程大学 一种基于社团结构的网络协同防御***及方法
CN115834368A (zh) * 2021-11-29 2023-03-21 中国南方电网有限责任公司超高压输电公司 一种识别网络空间资产信息的***
CN114817928A (zh) * 2022-04-02 2022-07-29 安天科技集团股份有限公司 网络空间数据融合分析方法、***、电子设备及存储介质
CN114500346A (zh) * 2022-04-08 2022-05-13 北京华顺信安科技有限公司 一种网络空间测绘方法及装置
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务***
CN116405275A (zh) * 2023-03-29 2023-07-07 中国科学院沈阳自动化研究所 一种基于网络空间探测行为的攻击组织动态识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘红 等: "网络空间测绘***分类及应用综述", 《信息技术与网络安全》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473512A (zh) * 2023-12-28 2024-01-30 湘潭大学 基于网络测绘的漏洞风险评估方法
CN117473512B (zh) * 2023-12-28 2024-03-22 湘潭大学 基于网络测绘的漏洞风险评估方法
CN117997873A (zh) * 2024-01-30 2024-05-07 清华大学 活跃IPv6地址探测方法、装置、设备及介质
CN117997873B (zh) * 2024-01-30 2024-07-30 清华大学 活跃IPv6地址探测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116846690B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN112104677B (zh) 一种基于知识图谱的受控主机检测方法和装置
CN110351301B (zh) 一种http请求双层递进式异常检测方法
CN116846690B (zh) 基于行业分类和概率模型的IPv6网络空间测绘方法
US20120089620A1 (en) Extracting data
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
CN112422531A (zh) 基于CNN和XGBoost的网络流量异常行为检测方法
CN111401063B (zh) 一种基于多池化网络的文本处理方法、装置和相关设备
CN110830607B (zh) 域名分析方法、装置和电子设备
JP2019110513A (ja) 異常検知方法、学習方法、異常検知装置、および、学習装置
CN111818198A (zh) 域名检测方法、域名检测装置和设备以及介质
CN112115965A (zh) 一种基于svm的被动操作***识别方法、存储介质及设备
CN112039997A (zh) 一种基于三重特征的物联网终端识别方法
CN111241502B (zh) 跨设备的用户识别方法及装置、电子设备、存储介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN110727743A (zh) 数据识别方法、装置、计算机设备及存储介质
CN117633666A (zh) 网络资产识别方法、装置、电子设备和存储介质
CN111291078B (zh) 一种域名匹配检测方法及装置
CN111400617B (zh) 基于主动学习的社交机器人检测数据集扩展方法及***
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质
CN111314109A (zh) 一种基于弱密钥的大规模物联网设备固件识别方法
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114900835A (zh) 恶意流量智能检测方法、装置及存储介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20231003

Assignee: Beijing China Silicon Union Technology Co.,Ltd.

Assignor: XIANGTAN University

Contract record no.: X2023980052552

Denomination of invention: IPv6 Network Space Mapping Method Based on Industry Classification and Probability Model

Granted publication date: 20231103

License type: Exclusive License

Record date: 20231215

EE01 Entry into force of recordation of patent licensing contract