CN111159493B - 一种基于特征权重的网络数据相似度计算方法与*** - Google Patents

一种基于特征权重的网络数据相似度计算方法与*** Download PDF

Info

Publication number
CN111159493B
CN111159493B CN201911357469.XA CN201911357469A CN111159493B CN 111159493 B CN111159493 B CN 111159493B CN 201911357469 A CN201911357469 A CN 201911357469A CN 111159493 B CN111159493 B CN 111159493B
Authority
CN
China
Prior art keywords
network
similarity
data
network data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911357469.XA
Other languages
English (en)
Other versions
CN111159493A (zh
Inventor
刘才铭
张雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN201911357469.XA priority Critical patent/CN111159493B/zh
Publication of CN111159493A publication Critical patent/CN111159493A/zh
Application granted granted Critical
Publication of CN111159493B publication Critical patent/CN111159493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于特征权重的网络数据相似度计算方法与***,规范网络数据及其相似度计算参数;网络数据数值化转换;计算网络特征数据相似度;计算网络数据总体相似度;网络数据相似等级转换。本发明通过权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。

Description

一种基于特征权重的网络数据相似度计算方法与***
技术领域
本发明涉及网络数据分析技术领域,更具体的说是涉及一种基于特征权重的网络数据相似度计算方法与***。
背景技术
目前,网络数据的相似度计算方法是网络数据分析领域的关键技术,其计算的相似度值可以用于量化网络数据之间的相似性,为识别特定的网络数据提供科学依据。网络数据相似度计算的准确性关系到网络数据模式判断的合理性,提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。
但是,传统的网络数据特征相似度计算方法没有考虑网络数据特征的异构性,而网络数据特征存在二进制值、字符、IP地址组等形式,这种特征数据的异构性给网络数据相似度的量化计算带来了难度。传统的网络数据相似度计算方法多采用字符匹配方式,忽视了异构网络特征数据之间的权重,没有考虑每个网络特征不同的重要性,导致计算的准确度受到较大影响。
因此,如何提供一种基于特征权重的网络数据相似度计算方法与***是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于特征权重的网络数据相似度计算方法与***,该方法能够提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。
为了实现上述目的,本发明采用如下技术方案:
一种基于特征权重的网络数据相似度计算方法,所述方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。
优选的,所述步骤S1的具体过程如下:
S11、构建网络数据特征值:从网络数据包中获取网络数据特征,构建网络数据集;
S111、获取网络数据特征:捕获网络数据包,构建每个网络数据包的网络数据特征向量DFi={<f1,f2,f3,…,fm>},其中,i(i为自然数)表示第i个数据包,fj(1≤j≤m)表示第j个网络特征,该网络特征不限于网络数据包头的字段,还包括从数据包内容中抽取的任意特征,m(m为自然数)表示网络数据包的特征数量;
S112、构建网络数据集:将获取的所有网络数据特征组合为网络数据集D={DF1,DF2,DF3,…,DFn},其中,DFi(1≤i≤n)表示第i个网络数据包的网络数据征向量,n(n为自然数)表示网络数据包的数量;
S12、构建网络数据特征的权重向量:构建网络数据特征的权重向量,获取网络数据特征的权重值。
S121、构建网络数据特征的权重向量:构建网络数据特征的权重向量W={<w1,w2,w3,…,wm>},
其中,wj(1≤j≤m)表示第j个网络特征的权重,且0≤wj≤1,m(m为自然数)表示网络数据包的特征数量;
S122、获取网络数据特征的权重值:根据网络数据包中各个特征的重要性,为权重变量W的每个字段(即w1,w2,w3,…,wm)赋值。
优选的,所述步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p(p为自然数)表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q(q为自然数)表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的二进制数值化形式的网络特征,例如:端口号、生存时间、包头长度、总长度、协议类型等,将其二进制数值转换为十进制数值,并分别赋值给db1,db2,…,dbp
S23、字符形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的字符形式的网络特征,例如:网络数据包内容的数据特征,按照文字编码标准将其二进制数值转换为十进制数值,并分别赋值给dc1,dc2,…,dcq
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′={DD1,DD2,DD3,…,DDn},其中,DFi(1≤i≤n)表示第i个网络数据特征的数值化向量,n(n为自然数)表示网络数据特征的数值化向量的数量。
优选的,所述步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy(1≤x,y≤n),且ddx,ddy∈D′,符号∈意为包含于,构建网络特征数据的相似度向量Sxy={<sb1,sb2,…,sbp,sc1,sc2,…,scq,ssIP,sdIP>},其中,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值;
S32、计算二进制数值化形式的网络特征数据的相似度:利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度:利用如下公式计算字符形式的网络特征数据的相似度值sck
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、给相似度向量赋值:将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
优选的,所述步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量W;
S42、读取S3步骤中构建的网络特征数据的相似度向量Sxy
S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:构建总体相似度SVxy,以此作为两个网络数据的相似度值,其中,x,y表示两个网络数据特征的数值化向量ddx和ddy,且0≤SVxy≤1,利用如下公式计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:
其中,wj表示二进制数值化形式的网络特征的权重,wk表示字符形式的网络特征的权重,wsIP表示源IP地址网络特征的权重,wdIP表示目的IP地址网络特征的权重,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值。
优选的,所述步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级:构建两个网络数据之间的相似等级向量L=<相同,高度相似,较高相似,中等相似,较低相似,低相似,不相似>;
S52、构建网络数据相似等级与相似度之间的对应关系:对于网络数据相似度值0≤SVxy≤1,构建其与相似等级之间的对应关系如下:0—相同、(0,0.1]—高度相似、(0.1,0.4]—较高相似、(0.4,0.6]—中等相似、(0.6,0.8]—较低相似、(0.8,0.9)—低相似、1—不相似;
S53、映射网络数据相似等级:根据S52步骤中构建的对应关系,确定两个网络数据的相似度值SVxy对应的相似等级。
优选的,所述网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
一种基于特征权重的网络数据相似度计算***,包括网络数据及其相似度计算参数的规范模块、与所述网络数据及其相似度计算参数的规范模块依次连接的网络数据数值化转换模块、网络特征数据相似度计算模块、网络数据总体相似度计算模块和网络数据相似等级转换模块;
其中,所述网络数据及其相似度计算参数的规范模块用于提供数据变量;
所述网络数据数值化转换模块,用于将网络数据的特征值转换为十进制数值;
所述网络特征数据相似度计算模块,计算每个网络数据特征的十进制相似度数值;
所述网络数据总体相似度计算模块与所述网络数据及其相似度计算参数的规范模块连接,用于计算网络数据总体相似度的十进制数值;
所述网络数据相似等级转换模块,用于规范网络数据相似的等级,并将相似度数值转换为相似等级。
优选的,所述网络数据及其相似度计算参数的规范模块通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
优选的,所述网络数据总体相似度计算模块根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
所述网络数据及其相似度计算参数的规范模块中构建的网络特征,不限于网络数据包头的字段,还包括从网络数据包内容中抽取的任意特征;构建的网络数据特征的权重对应于每个网络数据特征,对于所有参与计算的网络数据都相同。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于特征权重的网络数据相似度计算方法与***,该方法通过权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的工作原理图。
图2附图为本发明提供的规范网络数据及其相似度计算参数的流程图。
图3附图为本发明提供的网络数据数值化转换的流程图。
图4附图为本发明提供的计算网络特征数据相似度的流程图。
图5附图为本发明提供的计算网络数据总体相似度的流程图。
图6附图为本发明提供的网络数据相似等级转换的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于特征权重的网络数据相似度计算方法,方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据网络数据特征的权重向量和网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将网络特征数据的相似度值转换为相似等级。
为了进一步优化上述技术方案,步骤S1的具体过程如下:
S11、构建网络数据特征值:从网络数据包中获取网络数据特征,构建网络数据集;
S111、获取网络数据特征:捕获网络数据包,构建每个网络数据包的网络数据特征向量DFi={<f1,f2,f3,…,fm>},其中,i(i为自然数)表示第i个数据包,fj(1≤j≤m)表示第j个网络特征,该网络特征不限于网络数据包头的字段,还包括从数据包内容中抽取的任意特征,m(m为自然数)表示网络数据包的特征数量;
S112、构建网络数据集:将获取的所有网络数据特征组合为网络数据集D={DF1,DF2,DF3,…,DFn},其中,DFi(1≤i≤n)表示第i个网络数据包的网络数据征向量,n(n为自然数)表示网络数据包的数量;
S12、构建网络数据特征的权重向量:构建网络数据特征的权重向量,获取网络数据特征的权重值;
S121、构建网络数据特征的权重向量:构建网络数据特征的权重向量W={<w1,w2,w3,…,wm>},
其中,wj(1≤j≤m)表示第j个网络特征的权重,且0≤wj≤1,m(m为自然数)表示网络数据包的特征数量;
S122、获取网络数据特征的权重值:根据网络数据包中各个特征的重要性,为权重变量W的每个字段(即w1,w2,w3,…,wm)赋值。
为了进一步优化上述技术方案,步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p(p为自然数)表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q(q为自然数)表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的二进制数值化形式的网络特征,例如:端口号、生存时间、包头长度、总长度、协议类型等,将其二进制数值转换为十进制数值,并分别赋值给db1,db2,…,dbp
S23、字符形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的字符形式的网络特征,例如:网络数据包内容的数据特征,按照文字编码标准将其二进制数值转换为十进制数值,并分别赋值给dc1,dc2,…,dcq
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′={DD1,DD2,DD3,…,DDn},其中,DFi(1≤i≤n)表示第i个网络数据特征的数值化向量,n(n为自然数)表示网络数据特征的数值化向量的数量。
为了进一步优化上述技术方案,步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy(1≤x,y≤n),且ddx,ddy∈D′,符号∈意为包含于,构建网络特征数据的相似度向量Sxy={<sb1,sb2,…,sbp,sc1,sc2,…,scq,ssIP,sdIP>},其中,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值;
S32、计算二进制数值化形式的网络特征数据的相似度:利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度:利用如下公式计算字符形式的网络特征数据的相似度值sck
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、给相似度向量赋值:将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
为了进一步优化上述技术方案,步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量W;
S42、读取S3步骤中构建的网络特征数据的相似度向量Sxy
S43、根据网络数据特征的权重向量和网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:构建总体相似度SVxy,以此作为两个网络数据的相似度值,其中,x,y表示两个网络数据特征的数值化向量ddx和ddy,且0≤SVxy≤1,利用如下公式计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:
其中,wj表示二进制数值化形式的网络特征的权重,wk表示字符形式的网络特征的权重,wsIP表示源IP地址网络特征的权重,wdIP表示目的IP地址网络特征的权重,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值。
为了进一步优化上述技术方案,步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级:构建两个网络数据之间的相似等级向量L=<相同,高度相似,较高相似,中等相似,较低相似,低相似,不相似>;
S52、构建网络数据相似等级与相似度之间的对应关系:对于网络数据相似度值0≤SVxy≤1,构建其与相似等级之间的对应关系如下:0—相同、(0,0.1]—高度相似、(0.1,0.4]—较高相似、(0.4,0.6]—中等相似、(0.6,0.8]—较低相似、(0.8,0.9)—低相似、1—不相似;
S53、映射网络数据相似等级:根据S52步骤中构建的对应关系,确定两个网络数据的相似度值SVxy对应的相似等级。
为了进一步优化上述技术方案,网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
一种基于特征权重的网络数据相似度计算***,包括网络数据及其相似度计算参数的规范模块1、与网络数据及其相似度计算参数的规范模块1依次连接的网络数据数值化转换模块2、网络特征数据相似度计算模块3、网络数据总体相似度计算模块4和网络数据相似等级转换模块5;
其中,网络数据及其相似度计算参数的规范模块1用于提供数据变量;
网络数据数值化转换模块2,用于将网络数据的特征值转换为十进制数值;
网络特征数据相似度计算模块3,计算每个网络数据特征的十进制相似度数值;
网络数据总体相似度计算模块4与网络数据及其相似度计算参数的规范模块1连接,用于计算网络数据总体相似度的十进制数值;
网络数据相似等级转换模块5,用于规范网络数据相似的等级,并将相似度数值转换为相似等级。
为了进一步优化上述技术方案,网络数据及其相似度计算参数的规范模块1通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
为了进一步优化上述技术方案,网络数据总体相似度计算模块4根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
本发明公开提供了一种基于特征权重的网络数据相似度计算方法与***,该方法通过构建网络数据特征值和网络特征的权重,权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于特征权重的网络数据相似度计算方法,其特征在于,所述方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
所述步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构;
构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:将网络数据特征向量中的二进制数值化形式的网络特征的二进制数值转换为十进制数值;
S23、字符形式的网络特征的数值化转换:将网络数据特征向量中的字符形式的网络特征的二进制数值转换为十进制数值;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将所有所述网络数据特征的数值化向量组合为数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;
所述步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy,构建网络特征数据的相似度向量;
S32、计算二进制数值化形式的网络特征数据的相似度;
利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度;
利用如下公式计算字符形式的网络特征数据的相似度值sck
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度;
利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度;
利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量;
S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。
2.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S1的具体过程如下:
S11、构建网络数据特征值;
S12、构建网络数据特征的权重向量。
3.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量;
S42、读取S3步骤中构建的网络特征数据的相似度向量;
S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度。
4.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级;
S52、构建网络数据相似等级与相似度之间的对应关系;
S53、根据S52步骤中构建的对应关系,确定两个网络数据的相似度值对应的相似等级。
5.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
6.一种基于特征权重的网络数据相似度计算***,其特征在于,包括网络数据及其相似度计算参数的规范模块(1)、与所述网络数据及其相似度计算参数的规范模块(1)依次连接的网络数据数值化转换模块(2)、网络特征数据相似度计算模块(3)、网络数据总体相似度计算模块(4)和网络数据相似等级转换模块(5);
其中,所述网络数据及其相似度计算参数的规范模块(1)用于提供数据变量;
所述网络数据数值化转换模块(2),用于将网络数据的特征值转换为十进制数值;
所述网络特征数据相似度计算模块(3),计算每个网络数据特征的十进制相似度数值;
所述网络数据总体相似度计算模块(4)与所述网络数据及其相似度计算参数的规范模块(1)连接,用于计算网络数据总体相似度的十进制数值;
所述网络数据相似等级转换模块(5),用于规范网络数据相似的等级,并将相似度数值转换为相似等级;
网络数据数值化转换:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构;
构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:将网络数据特征向量中的二进制数值化形式的网络特征的二进制数值转换为十进制数值;
S23、字符形式的网络特征的数值化转换:将网络数据特征向量中的字符形式的网络特征的二进制数值转换为十进制数值;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将所有所述网络数据特征的数值化向量组合为数值化的网络数据集;
计算网络特征数据相似度:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy,构建网络特征数据的相似度向量;
S32、计算二进制数值化形式的网络特征数据的相似度;
利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度;
利用如下公式计算字符形式的网络特征数据的相似度值sck
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度;
利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度;
利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
7.根据权利要求6所述的一种基于特征权重的网络数据相似度计算***,其特征在于,所述网络数据及其相似度计算参数的规范模块(1)通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
8.根据权利要求7所述的一种基于特征权重的网络数据相似度计算***,其特征在于,所述网络数据总体相似度计算模块(4)根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
CN201911357469.XA 2019-12-25 2019-12-25 一种基于特征权重的网络数据相似度计算方法与*** Active CN111159493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911357469.XA CN111159493B (zh) 2019-12-25 2019-12-25 一种基于特征权重的网络数据相似度计算方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911357469.XA CN111159493B (zh) 2019-12-25 2019-12-25 一种基于特征权重的网络数据相似度计算方法与***

Publications (2)

Publication Number Publication Date
CN111159493A CN111159493A (zh) 2020-05-15
CN111159493B true CN111159493B (zh) 2023-07-18

Family

ID=70558007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911357469.XA Active CN111159493B (zh) 2019-12-25 2019-12-25 一种基于特征权重的网络数据相似度计算方法与***

Country Status (1)

Country Link
CN (1) CN111159493B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128355A1 (zh) * 2017-12-29 2019-07-04 北京京东尚科信息技术有限公司 确定精确地理位置的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226583B (zh) * 2013-04-08 2017-07-28 北京奇虎科技有限公司 一种广告插件识别的方法和装置
CN106250545A (zh) * 2016-08-10 2016-12-21 Tcl集团股份有限公司 一种基于用户搜索内容的多媒体推荐方法及***
CN106960182B (zh) * 2017-03-02 2018-12-14 云南大学 一种基于多特征集成的行人再识别方法
CN110019193B (zh) * 2017-09-25 2022-10-14 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、***及可读介质
CN109815475B (zh) * 2017-11-22 2023-03-21 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及***
CN110334904B (zh) * 2019-05-30 2023-03-03 北京理工大学 基于LightGBM的关键信息基础设施类型单位归属判定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128355A1 (zh) * 2017-12-29 2019-07-04 北京京东尚科信息技术有限公司 确定精确地理位置的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐瑛.《中国优秀硕士学位论文全文数据库》.2011,全文. *

Also Published As

Publication number Publication date
CN111159493A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN107992968B (zh) 基于集成时间序列分析技术的电能表计量误差预测方法
CN110225030B (zh) 基于rcnn-spp网络的恶意域名检测方法及***
CN108874959A (zh) 一种基于大数据技术的用户动态兴趣模型建立方法
WO2000055790A2 (en) Gradient criterion method for neural networks and application to targeted marketing
CN107168063B (zh) 基于集成变量选择型偏最小二乘回归的软测量方法
CN109948650B (zh) 一种基于报文特征的智能家居设备类型判定方法
CN106919564A (zh) 一种基于移动用户行为的影响力度量方法
CN116562171A (zh) 一种温湿度在线计量的误差评估方法
CN111159493B (zh) 一种基于特征权重的网络数据相似度计算方法与***
CN114826776B (zh) 一种用于加密恶意流量的弱监督检测方法及***
CN107290297B (zh) 一种基于自步学习的红外光谱定量分析方法及***
CN112381145A (zh) 基于最近相关谱聚类的高斯过程回归多模型融合建模方法
CN107590975B (zh) 基于光纤、智能涂层和压电传感器的告警***的实现方法
CN116401586A (zh) 一种全场景业务智能感知与精准分类的方法
CN114422873B (zh) 动态接入工业互联网标识解析平台的方法、装置及设备
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN112182320B (zh) 聚类数据处理方法、装置、计算机设备及存储介质
CN115002031A (zh) 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法
CN115102868A (zh) 一种基于SOM聚类与深度自编码器的web服务QoS预测方法
CN108388911A (zh) 一种面向混合属性的移动用户动态模糊聚类方法
CN114500615A (zh) 基于物联传感技术的智能终端
CN112700096A (zh) 一种基于三角模糊数对方案有偏好的多属性决策方法
KR100738550B1 (ko) 유전자 알고리즘을 응용한 네트워크 침입 감지 시스템 및그 방법
CN107462180A (zh) 基于光纤光栅和智能涂层传感器的告警***的实现方法
Barbulescu et al. Alternative models in precipitation analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant