CN116132300B - 基于梯度提升决策树特征组合的链路识别方法 - Google Patents
基于梯度提升决策树特征组合的链路识别方法 Download PDFInfo
- Publication number
- CN116132300B CN116132300B CN202211122899.5A CN202211122899A CN116132300B CN 116132300 B CN116132300 B CN 116132300B CN 202211122899 A CN202211122899 A CN 202211122899A CN 116132300 B CN116132300 B CN 116132300B
- Authority
- CN
- China
- Prior art keywords
- link
- links
- data
- network
- microwave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003066 decision tree Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000013307 optical fiber Substances 0.000 claims description 46
- 238000001514 detection method Methods 0.000 claims description 37
- 230000005540 biological transmission Effects 0.000 claims description 36
- 238000004891 communication Methods 0.000 claims description 20
- 230000035772 mutation Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/20—Hop count for routing purposes, e.g. TTL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/09—Mapping addresses
- H04L61/10—Mapping addresses of different types
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Optimization (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于梯度提升决策树特征组合的链路识别方法,包括以下步骤:S1、构建链路特征数据库并进行预处理,得到训练数据集;S2、构建基于梯度提升决策树的链路识别模型,利用训练数据集训练模型;S3、基于组合特征添加对应的辅助特征以得到准确的识别结果:基于链路识别模型获得数据‑结果的可解释组合特征,基于可解释组合特征分析对应的辅助特征,添加辅助特征进行链路识别以得到准确的识别结果。本方法解决了传统链路识别技术面对复杂网络需要硬件设备实地探测链路的问题,有效利用梯度提升决策树特征组合和深度模型学习能力,提高了链路识别效率和准确率。
Description
技术领域
本发明属于通信技术领域,特别涉及一种基于梯度提升决策树特征组合的链路识别方法。
背景技术
随着通信技术的飞速发展,不同通信网络之间相互连接形成了庞大的网络,这些异质网络互通后,通过一组通用的协议形成逻辑上的互联网络。异质链路传输网络如:光纤通信网络、蜂窝移动网络、微波通信网。在进行长距离数据传输时,网络层将网络地址翻译成对应的物理地址,以此通过多种链路通信方式进行数据传输,并向传输层提供服务,实现跨网段通信,其使数据按不同链路的特殊通信规定进行传输。随着通信网规模愈加庞大,网络空间通信设备数量呈***式增长,异质链路传输网络越来越复杂,数据传输通常经过了多个种类的链路,最终难以分离得到独立的链路特性,从而难以识别各通信设备间的链路类型,链路溯源难度大,给网络空间安全带来了隐患,也给网络故障检测和维护带来了困难。
近年来,面对大规模、结构复杂的异质链路网络,其网络拓扑结构的研究基本都没有考虑链路传输属性,链路识别是其中的一大难点。为了提高通信质量、预防检测链路故障等,使用链路传输介质的特性准确、快速地进行链路识别,为后续研究网络结构和故障诊断提供网络透视和应用分析的能力,对通信网络组成和可靠性研究具有重要意义。
传统链路识别技术通常针对被测通信链路发射信号,在接收端通过滤波器等对信号进行处理,然后分析其幅频特性,最终得到链路特征。然而在信号传输过程中,可能会产生噪声或者网络拥塞,存在丢包或者无法顺利从接收端接收信号的情况,并且由于链路传输时节点会计算最优路径,在每次传输时经过的路径可能不一致,因此也无法在链路传输路径下布置相应硬件设施进行接收,就无法从源到目的进行测试。
传统的链路识别技术依赖硬件设施的部署,如信号采集器、滤波器等,然而,信号在实际网络传输过程中,特别是长距离端到端的跨网络传输,容易受到带宽限制、噪声干扰,此外可能出现网络拥塞使误码率过大,导致测试效果不理想或者无法接收测试信号。关键链路识别技术在进行链路识别时未考虑异质网络中链路的不同属性。因此,使用传统链路识别技术和关键链路识别技术分析异质网络的链路具有一定的局限性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于梯度提升决策树特征组合的链路识别方法,通过基于梯度提升决策树(GBDT)特征组合的链路识别方法的引入,解决了传统的链路识别技术需要依赖更高的硬件支持的问题,能够在硬件部署受限的情况下有效准确地识别链路的类别。
本发明的目的是通过以下技术方案来实现的:基于梯度提升决策树特征组合的链路识别方法,包括以下步骤:
S1、构建链路特征数据库并进行预处理:使用主动探测方式对目的IP地址进行探测,获得原始探测数据,构建链路特征数据库;然后利用网络行为分析方法对探测数据中的离群点进行清洗,并完成链路数据的预处理,得到训练数据集;
S2、构建基于梯度提升决策树的链路识别模型,利用训练数据集训练模型;
S3、基于组合特征添加对应的辅助特征以得到准确的识别结果:基于链路识别模型获得数据-结果的可解释组合特征,基于可解释组合特征分析对应的辅助特征,添加辅助特征进行链路识别以得到准确的识别结果。
进一步地,所述步骤S1具体实现方法为:
S11、使用开源网络探测工具Scamper主动探测多个已知网络的服务器IP地址,在实验环境下对不同类型的链路进行有针对性的探测,获得原始链路数据;根据实验环境将链路分为四个类别,分别为光纤链路、移动链路、卫星链路和微波链路;分别通过服务器终端、手机终端、卫星终端和微波终端探测获取数据;然后使用Scamper分别通过手机终端、服务器终端、卫星终端和微波终端对已知接收终端进行多次探测,获得原始探测数据;利用网络行为分析方法对探测数据中的离群点进行清洗;
S12、对所有的链路数据进行预处理,首先通过链路的TTL值使用私有地址补全链路中缺少的匿名点,还原完整链路;使用开源别名解析工具Kapar对路径数据进行别名解析,并和原始路径进行对比,关联IP地址和路由信息,得到不同链路的特征数据;
S13、对特征数据库中的链路计算每一跳节点往返时延的极值和方差的均值,链路时延的极小值代表了这条通信链路在理想条件下的时延最小值,而方差的均值则代表了链路的时延波动情况;将往返时延的极值和方差的均值作为重要特征进行拟合处理,采用针对复杂函数的多项式拟合方式作为往返时延函数的逼近方法,具体方法为:假设链路共包含N跳节点,则训练数据集为{(1,y1),(2,y2),…,(xi,yi),…,(xN,yN)},其中,xi为链路跳数,yi为链路往返时延,对不同类别的所有链路进行M阶多项式拟合:
对上式求解得到向量形式的多项式系数
将该多项式系数添加相应的类别标签:光纤网络、移动网络、微波网络和卫星网络,然后存入链路特征数据库,作为训练数据集。
进一步地,所述步骤S2具体实现方法为:
从链路特征数据库中获取不同类别的训练数据:包括光纤网络、移动网络、微波网络和卫星网络,然后以GBDT特征组合为基础实现分类器对大量数据进行训练;在训练时,使用五折交叉验证,将数据随机分成五等份,每次实验取其中的一份作为测试集,其余作为训练集;
定义误差函数为拟合函数/>与原始数据之间的均方根误差:
分析训练集、测试集的准确率和误差函数,通过不断调整多项式阶数、调整模型训练参数的方式进行优化,在保证测试集和训练集准确率达到要求的情况下,取误差函数最小时对应的多项式系数和模型训练参数。
进一步地,所述步骤S3具体实现方法为:
S31、寻找不同部分拓扑中,节点在结构上的相似性,合并相同节点;
S32、获取链路中的状态突变节点:构建路径信息推断链路信息的最优化问题,通过求解最优化问题获得最低成本序列,以获取状态突变节点;给定消息到达之间的正向间隔序列x=(x0,x1,…,xn),找到其状态序列使代价最小,计算每次变化后的最优解c(q|x):
其中τ(it,it+1)表示从低强度it突发到高强度it+1突发状态转变产生的消耗;表示状态it相关的指数密度函数;计算每个状态节点在链路中代价最小值,通过状态变化规律来识别当前状态节点是否为链路的突变节点,规律发生突变的节点即为突变节点;
S33、通过分析链路中节点的结构相似性和突变性,对上一步得到的链路识别模型进一步添加辅助特征进行二分类修正,具体方法为:
根据RRC机制修正部分光纤链路和移动链路,通过特征数据库获取初步分类为光纤、移动链路的往返时延及对应探测时间,计算往返时延极值和方差的均值,并按照探测时间递增排列,分析链路往返时延是否在不同时间间隔下产生跳跃;如果初步分类的光纤链路具有时延跳跃特征,则修正其类别为移动链路;如果初步分类的移动链路不具有时延跳跃特征,则修正其类别为移动链路;
根据传输距离修正部分移动链路和微波链路,通过特征数据库获取初步分类为移动、微波链路的IP地理位置,计算链路传输的距离,如果初步分类的移动、微波链路传输距离超过100公里,则修正其类别为光纤链路;
根据长期天气变化因素修正部分光纤网络和微波网络,通过特征数据库获取初步分类为光纤、微波链路的往返时延和探测时间,根据探测时间获取当时天气情况,如果初步分类的光纤链路在阴雨天气时往返时延对比晴天往返时延有明显的波动,则修正其类别为微波链路;如果初步分类的微波链路在阴雨天气时往返时延对比晴天往返时延没有明显波动,则修正其类别为光纤链路。
本发明基于梯度提升决策树(GBDT)特征组合的异质网络中链路识别方法,实现了网络中节点间连接关系的分类,具有如下优点:
(1)通过基于梯度提升决策树(GBDT)特征组合的链路识别方法的引入,解决了传统的链路识别技术需要依赖更高的硬件支持的问题,能够在硬件部署受限的情况下有效准确地识别链路的类别。
(2)通过对比选取异质网络中分类效果更好的链路特征和辅助特征,能够有效准确地进行链路分类,同时减少了链路识别花费的时间。
附图说明
图1为本发明链路识别方法的流程图;
图2为本发明构建链路特征数据库过程示意图;
图3为本发明不同类型链路数据拟合示意图;
图4为有、无RRC机制下状态转换时往返时延变化对比图;
图5为本发明长距离的光纤网络链路传输时延变化图。
具体实施方式
本发明中使用的算法为梯度提升决策树(GBDT)算法:梯度提升决策树(GBDT)算法也称为多元加性回归树(MART),是一种基于梯度提升算法的学习器(GBM)。学习器按照预测性能的强弱可以分为强学习器和弱学习器,梯度提升算法指的是通过加法模型将多个训练好的弱学习器累加来构建最终的强学习器模型,而GBDT使用的弱学习器是决策树,一般是分类回归树(CART)。GBDT分类算法能够灵活地处理连续和离散的数据,并且能够在相对较少的时间内得到较高的分类准确率。GBDT算法应用广泛,既可以用作分类也可以用作回归,而且对比其他热门的分类算法如向量机(SVM)、随机森林(RF)和深度学习等,GBDT算法的分类性能和分类效率表现都不错。以K分类为例,GBDT分类算法的实现步骤如下:
假设训练样本集为{(x1,y1),(x2,y2),…,(xi,yi)…,(xN,yN)},其中,(xi,yi)指特征值xi及其对应的类别yi。首先初始化弱学习器为最优的模型,即xi映射到yi损失最小的值:
其中,损失函数为L(yi,c),反映了预测值和真实值之间的差距,可以指明当前模型的训练优化方向。GBDT分类算法常用的损失函数为对数损失函数:
L(y,F(x))=log(1+e-2yF)
然后开始迭代计算,设迭代次数m=1,2,…,M,针对样本i=1,2,…,N,计算第i个样本在第m次迭代时的负梯度(伪残差)为:
然后对残差进行拟合,得到第m棵分类树及其叶子节点区域Rmj,j=1,2,…,J,并针对所有叶子节点,求第j个叶子节点的最佳负梯度拟合值为:
由于上式较难优化,一般使用其近似值代替:
最后更新当前的学习器模型为:
因此,迭代结束后,最终得到的分类树为:
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的基于梯度提升决策树特征组合的链路识别方法,包括以下步骤:
S1、构建链路特征数据库并进行预处理:使用主动探测方式对目的IP地址进行探测,获得原始探测数据,构建链路特征数据库;然后利用网络行为分析方法对探测数据中的离群点进行清洗,并完成链路数据的预处理,得到训练数据集;
具体实现方法为:
S11、使用开源网络探测工具Scamper主动探测多个已知网络的服务器IP地址,在实验环境下对不同类型的链路进行有针对性的探测,获得原始链路数据;根据实验环境将链路分为四个类别,分别为光纤链路、移动链路、卫星链路和微波链路;分别通过服务器终端、手机终端、卫星终端和微波终端探测获取数据;其接收设备分别为路由器、移动基站、卫星站和微波中继站。然后使用Scamper分别通过手机终端、服务器终端、卫星终端和微波终端对已知接收终端进行多次探测,获得原始探测数据,如图2所示。随后从原始数据中获取往返时延、IP地理位置等信息作为待分析的属性特征类型。
然后利用网络行为分析方法对探测数据中的离群点进行清洗。计算往返时延的变异系数,变异系数是衡量资料中各观测值变异程度的一个统计量,其计算公式如下:
其中,Cv表示往返时延的变异系数,σ表示往返时延的标准差,μ表示往返时延的平均值。一般来说,变量值平均水平高,其离散程度的测度值越大,反之则越小。在进行数据统计分析时,如果变异系数大于预设阈值,则要考虑该数据可能不正常(该节点流量过大或者有负载均衡的情况),删除该数据。这样就完成对已知链路的特征标记和分类,得到相应通信链路类别的数据集合,构建特征数据库。
不同终端探测得到的数据分别对应不同类别的链路。针对不同类别的每条链路分别提取特征后进行标记,并统计特征数量,提取的特征包括往返时延、TTL值、IP地理位置、探测时间、探测包大小信息及其所在链路的标号,将特征按链路类别存入特征数据库中。
S12、对所有的链路数据进行预处理,由于网络拓扑中部分节点不会对主动探测返回响应信息,因此探测的链路数据中不可避免地存在一些匿名节点,首先通过链路的TTL值使用私有地址补全链路中缺少的匿名点,还原完整链路;为了解决主动探测得到的数据路由端口模糊问题,使用开源别名解析工具Kapar对路径数据进行别名解析,并和原始路径进行对比,关联IP地址和路由信息,得到不同链路的特征数据;
S13、对特征数据库中的链路计算每一跳节点往返时延的极值和方差的均值,链路时延的极小值代表了这条通信链路在理想条件下的时延最小值,而方差的均值则代表了链路的时延波动情况;将往返时延的极值和方差的均值作为重要特征进行拟合处理,采用针对复杂函数的多项式拟合方式作为往返时延函数的逼近方法,具体方法为:假设链路共包含N跳节点,则训练数据集为{(1,y1),(2,y2),…,(xi,yi),…,(xN,yN)},其中,xi为链路跳数,yi为链路往返时延,对不同类别的所有链路进行M阶多项式拟合:
对上式求解得到向量形式的多项式系数
将该多项式系数添加相应的类别标签:光纤网络、移动网络、微波网络和卫星网络,然后存入链路特征数据库,作为训练数据集。
S2、构建基于梯度提升决策树的链路识别模型,利用训练数据集训练模型,不断调整训练参数提高分类准确率;具体实现方法为:
从链路特征数据库中获取不同类别的训练数据:包括光纤网络、移动网络、微波网络和卫星网络,然后以GBDT特征组合为基础实现分类器对大量数据进行训练;在训练时,使用五折交叉验证,将数据随机分成五等份,每次实验取其中的一份作为测试集,其余作为训练集;
定义误差函数为拟合函数/>与原始数据之间的均方根误差:
分析训练集、测试集的准确率和误差函数,通过不断调整多项式阶数、调整模型训练参数如训练迭代次数和训练步长、增加训练数据等的方式进行优化。当训练集、测试集准确率都比较低时为欠拟合,需要通过增加多项式阶数、增加迭代次数和训练步长来解决;当训练集准确率较高,测试集准确率较低时为过拟合,需要通过减小多项式阶数、减少迭代次数、减小训练步长和增加训练数据来解决。在保证测试集和训练集准确率达到要求的情况下,取误差函数最小时对应的多项式系数和模型训练参数。
不同类型链路数据拟合后的示意图如图3所示,左上为光纤链路拟合结果;右上为移动链路拟合后结果;左下为微波链路拟合结果;右下为卫星链路拟合结果。
S3、基于组合特征添加对应的辅助特征以得到准确的识别结果:基于链路识别模型获得数据-结果的可解释组合特征,基于可解释组合特征分析对应的辅助特征,添加辅助特征进行链路识别以得到准确的识别结果。
具体实现方法为:
S31、考虑到真实网络的拓扑规模大,结构复杂和桥接点特点,分析、训练的时间长,因此需要将这些信息进行融合,寻找不同部分拓扑中,节点在结构上的相似性,合并相同节点;
S32、为了通过链路传输过程中的突变节点分析链路特征,在进行链路识别前先获取链路中的状态突变节点:基于统计学、信号处理等方法构建路径信息推断链路信息的最优化问题,通过求解最优化问题获得最低成本序列,以获取状态突变节点;
一个初始状态相关的指数密度函数f0(x),假设每个节点间的链路类型相似,它的传输的速率为
其中,ΔS为传输间隔,T为传输时间;对于后续变化的状态αi有一个缩放函数s,使得
当i的值越来越小时,预期的消息到达率会下降;给定消息到达之间的正向间隔序列x=(x0,x1,…,xn),找到其状态序列使代价最小,计算每次变化后的最优解c(q|x):
其中τ(it,it+1)表示从低强度it突发到高强度it+1突发状态转变产生的消耗;消耗与来自于各个中间状态的变化值成正比,如从到/>的增加产生的消耗为τ(i1,i2);表示状态it相关的指数密度函数;计算每个状态节点在链路中代价最小值,通过状态变化规律来识别当前状态节点是否为链路的突变节点,规律发生突变的节点即为突变节点;
S33、初步训练得到的链路识别模型存在一定的局限性,不同类型的链路在不同环境下也可能具有类似的状态,因此,通过分析链路中节点的结构相似性和突变性,对上一步得到的链路识别模型进一步添加辅助特征进行二分类修正;
通常情况下,网络中主要分为有线和无线接入两大类,无论是哪种方式接入互联网,都会产生相应的协议转换。接入的链路性能,不仅受传输的距离和天气等因素的影响,同时也受协议转换、无线资源控制机制的影响,链路性能的不同最终导致有线和无线探测时延结果差异。例如,在一定传输范围内,光纤链路的时延极值可以接近0毫秒且非常稳定;移动链路的时延受RRC机制影响;卫星链路的时延均值大于500毫秒;微波链路受限于距离且时延受天气因素影响大。由于光纤链路、移动链路和微波链路在不同因素影响下会表现出相似的特征,因此考虑不同链路的特点对链路识别模型添加辅助特征进行二分类修正:
考虑移动链路传输的RRC机制,移动网络将传输状态分为空状态、空闲状态和连接状态,为了减小功耗,移动网络在一段时间无信号传输时会转为空闲状态,在空闲状态下接收到信号需要进行状态转换,这就导致在一定时间间隔探测下无线网络,其往返时延极值和方差的均值会高于有线网络的极值和方差的均值,同时可以观察到时延有明显的跳跃。有、无RRC机制下状态转换时往返时延的变化如图4所示,左图为无RRC机制下探测时延变化,右图为有RRC机制下探测时延变化。因此根据RRC机制修正部分光纤链路和移动链路,通过特征数据库获取初步分类为光纤、移动链路的往返时延及对应探测时间,计算往返时延极值和方差的均值,并按照探测时间递增排列,分析链路往返时延是否在不同时间间隔下产生跳跃;如果初步分类的光纤链路具有时延跳跃特征,则修正其类别为移动链路;如果初步分类的移动链路不具有时延跳跃特征,则修正其类别为移动链路。
考虑链路传输距离的不同,光纤网络的传输距离比移动通信和微波通信远的多,而微波通信的距离又比移动通信远,通过实验可以发现,长距离的光纤网络链路传输也会表现出类似移动网络的时延状态,如图5所示,较短线段表示的链路第七到第八跳为移动链路传输的波动,而较长线段表示的链路第七跳到第八跳则是超过一千公里的光纤链路传输。因此根据传输距离修正部分移动链路和微波链路,通过特征数据库获取初步分类为移动、微波链路的IP地理位置,计算链路传输的距离,如果初步分类的移动、微波链路传输距离超过100公里,则修正其类别为光纤链路;
考虑天气对链路传输的影响,由于微波网络受天气影响较大,阴雨天的时延对比晴天的时延有明显的波动。因此根据长期天气变化因素修正部分光纤网络和微波网络,通过特征数据库获取初步分类为光纤、微波链路的往返时延和探测时间,根据探测时间获取当时天气情况,分析天气情况对往返时延是否有影响。如果初步分类的光纤链路在阴雨天气时往返时延对比晴天往返时延有明显的波动,则修正其类别为微波链路;如果初步分类的微波链路在阴雨天气时往返时延对比晴天往返时延没有明显波动,则修正其类别为光纤链路。
经过上述修正,得到最终的链路识别模型。将测试数据通过修正前后模型进行分类,对比其分类准确率,修正后的模型整体识别准确率有一定的提升,如表1所示。
表1使用辅助特征修正前后准确率变化表格
本发明能够在硬件条件受限的情况下考虑不同类型的链路属性差异,有效准确地识别异质网络中多种链路类型,包括光纤链路、移动链路、卫星链路和微波链路。以分类器模型训练和已知链路类别的网络进行检验。
使用上述链路识别方案对训练数据集进行五折交叉验证得到的识别准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-score(F1值)如表2所示,其中,F1值是精确度和召回率的调和平均值,对精确率和召回率进行综合的评价,能够衡量分类器的性能。
表2五折交叉验证的准确率表格
针对包含四种类型链路的已知网络环境中使用上述链路识别方案进行链路识别得到的准确率、精确率、召回率和F1值如表3所示。
表3针对已知网络进行识别的准确率表格
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (3)
1.基于梯度提升决策树特征组合的链路识别方法,其特征在于,包括以下步骤:
S1、构建链路特征数据库并进行预处理:使用主动探测方式对目的IP地址进行探测,获得原始探测数据,构建链路特征数据库;然后利用网络行为分析方法对探测数据中的离群点进行清洗,并完成链路数据的预处理,得到训练数据集;具体实现方法为:
S11、使用开源网络探测工具Scamper主动探测多个已知网络的服务器IP地址,在实验环境下对不同类型的链路进行有针对性的探测,获得原始链路数据;根据实验环境将链路分为四个类别,分别为光纤链路、移动链路、卫星链路和微波链路;分别通过服务器终端、手机终端、卫星终端和微波终端探测获取数据;然后使用Scamper分别通过手机终端、服务器终端、卫星终端和微波终端对已知接收终端进行多次探测,获得原始探测数据;利用网络行为分析方法对探测数据中的离群点进行清洗;
S12、对所有的链路数据进行预处理,首先通过链路的TTL值使用私有地址补全链路中缺少的匿名点,还原完整链路;使用开源别名解析工具Kapar对路径数据进行别名解析,并和原始路径进行对比,关联IP地址和路由信息,得到不同链路的特征数据;
S13、对特征数据库中的链路计算每一跳节点往返时延的极值和方差的均值,链路时延的极小值代表了这条通信链路在理想条件下的时延最小值,而方差的均值则代表了链路的时延波动情况;将往返时延的极值和方差的均值作为重要特征进行拟合处理,采用针对复杂函数的多项式拟合方式作为往返时延函数的逼近方法,具体方法为:假设链路共包含N跳节点,则训练数据集为{(1,y1),(2,y2),…,(xi,yi),…,(xN,yN)},其中,xi为链路跳数,yi为链路往返时延,对不同类别的所有链路进行M阶多项式拟合:
对上式求解得到向量形式的多项式系数
将该多项式系数添加相应的类别标签:光纤网络、移动网络、微波网络和卫星网络,然后存入链路特征数据库,作为训练数据集;
S2、构建基于梯度提升决策树的链路识别模型,利用训练数据集训练模型;
S3、基于组合特征添加对应的辅助特征以得到准确的识别结果:基于链路识别模型获得数据-结果的可解释组合特征,基于可解释组合特征分析对应的辅助特征,添加辅助特征进行链路识别以得到准确的识别结果。
2.根据权利要求1所述的基于梯度提升决策树特征组合的链路识别方法,其特征在于,所述步骤S2具体实现方法为:
从链路特征数据库中获取不同类别的训练数据:包括光纤网络、移动网络、微波网络和卫星网络,然后以GBDT特征组合为基础实现分类器对大量数据进行训练;在训练时,使用五折交叉验证,将数据随机分成五等份,每次实验取其中的一份作为测试集,其余作为训练集;
定义误差函数为拟合函数/>与原始数据之间的均方根误差:
分析训练集、测试集的准确率和误差函数,通过不断调整多项式阶数、调整模型训练参数的方式进行优化,在保证测试集和训练集准确率达到要求的情况下,取误差函数最小时对应的多项式系数和模型训练参数。
3.根据权利要求1所述的基于梯度提升决策树特征组合的链路识别方法,其特征在于,所述步骤S3具体实现方法为:
S31、寻找不同部分拓扑中,节点在结构上的相似性,合并相同节点;
S32、获取链路中的状态突变节点:构建路径信息推断链路信息的最优化问题,通过求解最优化问题获得最低成本序列,以获取状态突变节点;给定消息到达之间的正向间隔序列x=(x0,x1,…,xn),找到其状态序列使代价最小,计算每次变化后的最优解c(q|x):
其中τ(it,it+1)表示从低强度it突发到高强度it+1突发状态转变产生的消耗;表示状态it相关的指数密度函数;计算每个状态节点在链路中代价最小值,通过状态变化规律来识别当前状态节点是否为链路的突变节点,规律发生突变的节点即为突变节点;
S33、通过分析链路中节点的结构相似性和突变性,对上一步得到的链路识别模型进一步添加辅助特征进行二分类修正,具体方法为:
根据RRC机制修正部分光纤链路和移动链路,通过特征数据库获取初步分类为光纤、移动链路的往返时延及对应探测时间,计算往返时延极值和方差的均值,并按照探测时间递增排列,分析链路往返时延是否在不同时间间隔下产生跳跃;如果初步分类的光纤链路具有时延跳跃特征,则修正其类别为移动链路;如果初步分类的移动链路不具有时延跳跃特征,则修正其类别为移动链路;
根据传输距离修正部分移动链路和微波链路,通过特征数据库获取初步分类为移动、微波链路的IP地理位置,计算链路传输的距离,如果初步分类的移动、微波链路传输距离超过100公里,则修正其类别为光纤链路;
根据长期天气变化因素修正部分光纤网络和微波网络,通过特征数据库获取初步分类为光纤、微波链路的往返时延和探测时间,根据探测时间获取当时天气情况,如果初步分类的光纤链路在阴雨天气时往返时延对比晴天往返时延有明显的波动,则修正其类别为微波链路;如果初步分类的微波链路在阴雨天气时往返时延对比晴天往返时延没有明显波动,则修正其类别为光纤链路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211122899.5A CN116132300B (zh) | 2022-09-15 | 2022-09-15 | 基于梯度提升决策树特征组合的链路识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211122899.5A CN116132300B (zh) | 2022-09-15 | 2022-09-15 | 基于梯度提升决策树特征组合的链路识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116132300A CN116132300A (zh) | 2023-05-16 |
CN116132300B true CN116132300B (zh) | 2024-04-30 |
Family
ID=86299626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211122899.5A Active CN116132300B (zh) | 2022-09-15 | 2022-09-15 | 基于梯度提升决策树特征组合的链路识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116132300B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490073B1 (en) * | 2004-12-21 | 2009-02-10 | Zenprise, Inc. | Systems and methods for encoding knowledge for automated management of software application deployments |
CN103168443A (zh) * | 2010-08-13 | 2013-06-19 | 高通股份有限公司 | 针对无线通信中的功率受限设备的反馈绑定 |
WO2015034759A1 (en) * | 2013-09-04 | 2015-03-12 | Neural Id Llc | Pattern recognition system |
CN108270608A (zh) * | 2017-01-04 | 2018-07-10 | 中国科学院声学研究所 | 一种链路预测模型的建立及链路预测方法 |
CN111985270A (zh) * | 2019-05-22 | 2020-11-24 | 中国科学院沈阳自动化研究所 | 一种基于梯度提升树的sEMG信号最优通道选择方法 |
CN113591787A (zh) * | 2021-08-13 | 2021-11-02 | 广东电网有限责任公司 | 光纤链路部件的识别方法、装置、设备和存储介质 |
CN114499632A (zh) * | 2021-12-30 | 2022-05-13 | 中国电信股份有限公司卫星通信分公司 | 一种基于天通卫星和宽带卫星相融合的数据传输方法 |
-
2022
- 2022-09-15 CN CN202211122899.5A patent/CN116132300B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490073B1 (en) * | 2004-12-21 | 2009-02-10 | Zenprise, Inc. | Systems and methods for encoding knowledge for automated management of software application deployments |
CN103168443A (zh) * | 2010-08-13 | 2013-06-19 | 高通股份有限公司 | 针对无线通信中的功率受限设备的反馈绑定 |
WO2015034759A1 (en) * | 2013-09-04 | 2015-03-12 | Neural Id Llc | Pattern recognition system |
CN108270608A (zh) * | 2017-01-04 | 2018-07-10 | 中国科学院声学研究所 | 一种链路预测模型的建立及链路预测方法 |
CN111985270A (zh) * | 2019-05-22 | 2020-11-24 | 中国科学院沈阳自动化研究所 | 一种基于梯度提升树的sEMG信号最优通道选择方法 |
CN113591787A (zh) * | 2021-08-13 | 2021-11-02 | 广东电网有限责任公司 | 光纤链路部件的识别方法、装置、设备和存储介质 |
CN114499632A (zh) * | 2021-12-30 | 2022-05-13 | 中国电信股份有限公司卫星通信分公司 | 一种基于天通卫星和宽带卫星相融合的数据传输方法 |
Non-Patent Citations (6)
Title |
---|
LPI‑deepGBDT: a multiple‑layer deep framework based on gradient boosting decision trees for lncRNA–protein interaction identification;Liqian Zhou, Zhao Wang, Xiongfei Tian, Lihong Peng;《Open Access》;20211231;1-24 * |
Yanhong Zou,Yuting Chen, Hao Deng.Gradient Boosting Decision Tree for Lithology Identificationwith Well Logs: A Case Study of Zhaoxian Gold Deposit,Shandong Peninsula, China.《Natural Resources Research》.2021,3197-3217. * |
基于端到端单播测量的网络拓扑识别方法;赵金龙,高仲合,贾圣文;《计算机工程》;20120131;100-102 * |
基于端到端测量的网络链路特征参数估计;蒋小勇;《中国优秀硕士学位论文全文数据库》;20160901;全文 * |
数据链信号特征分析与识别;罗文;《中国优秀硕士学位论文全文数据库》;20151203;全文 * |
黄立威,李德毅,马于涛等.一种基于元路径的异质信息网络链路预测模型.《计算机学报》.848-858. * |
Also Published As
Publication number | Publication date |
---|---|
CN116132300A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115412947B (zh) | 一种基于数字孪生与ai算法的故障仿真方法和*** | |
CN111506599B (zh) | 基于规则匹配和深度学习的工控设备识别方法及*** | |
CN114221790A (zh) | 一种基于图注意力网络的bgp异常检测方法及*** | |
CN111191767B (zh) | 一种基于向量化的恶意流量攻击类型的判断方法 | |
WO2009118602A2 (en) | Available bandwidth estimation in a packet-switched communication network | |
CN106021361A (zh) | 一种基于序列比对的自适应应用层网络协议报文聚类方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN111355616B (zh) | 一种基于物理层数据的战术通信网关键节点识别方法 | |
CN113486337B (zh) | 一种基于粒子群算法的网络安全态势要素识别***和方法 | |
CN113489619A (zh) | 一种基于时间序列分析的网络拓扑推断方法及装置 | |
CN114385397A (zh) | 基于故障传播图的微服务故障根因定位方法 | |
CN113779247A (zh) | 基于意图驱动的网络故障诊断方法及*** | |
CN114124734B (zh) | 一种基于GCN-Transformer集成模型的网络流量预测方法 | |
CN106993296B (zh) | 终端的性能评估方法及装置 | |
CN112134873A (zh) | 一种IoT网络异常流量实时检测方法及*** | |
CN116170208A (zh) | 一种基于半监督isodata算法的网络入侵实时检测方法 | |
CN115665787A (zh) | 一种基于机器学习的低开销amf网络智能故障诊断方法 | |
CN116132300B (zh) | 基于梯度提升决策树特征组合的链路识别方法 | |
CN114422379A (zh) | 一种多平台设备无线组网的分析方法 | |
CN112235254B (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
CN113824707A (zh) | 一种基于知识图谱的网站性能拨测度量方法和装置 | |
CN117580090A (zh) | 移动终端通信稳定性测试方法及*** | |
CN116405261A (zh) | 基于深度学习的恶意流量检测方法、***及存储介质 | |
Jindong et al. | Study and prediction of wireless link quality for adaptive channel hopping | |
CN115913992A (zh) | 一种基于小样本机器学习的匿名网络流量分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |