CN108712397A - 基于深度学习的通信协议识别方法 - Google Patents

基于深度学习的通信协议识别方法 Download PDF

Info

Publication number
CN108712397A
CN108712397A CN201810401023.1A CN201810401023A CN108712397A CN 108712397 A CN108712397 A CN 108712397A CN 201810401023 A CN201810401023 A CN 201810401023A CN 108712397 A CN108712397 A CN 108712397A
Authority
CN
China
Prior art keywords
communication protocol
convolutional neural
model
neural model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810401023.1A
Other languages
English (en)
Inventor
汪清
贺爽
杜攀非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810401023.1A priority Critical patent/CN108712397A/zh
Publication of CN108712397A publication Critical patent/CN108712397A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/18Protocol analysers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Communication Control (AREA)

Abstract

本发明属于通信协议信号识别领域以及深度学习领域,为提出一种高效准确的协议识别模型,无需手工设计和参与。训练后的卷积神经模型对于通信协议的识别有很好的性能。为此,本发明采用的技术方案是,基于深度学习的通信协议识别方法,构建卷积神经模型用于通信协议识别,卷积神经模型包三个卷积层和一个长短期记忆技术LSTM以及一个输出层;构建训练数据集和测试数据集,并且随机调整数据集的顺序保证卷积神经模型的鲁棒性,训练卷积神经模型并且保存卷积神经模型结构和参数;二维协议信号处理成2×400的大小输入卷积神经模型,实现通信协议的自动识别。本发明主要应用于通信协议信号识别场合。

Description

基于深度学习的通信协议识别方法
技术领域
本发明属于通信协议信号识别领域以及深度学习领域,提出了一种基于卷积神经网络的协议识别模型。具体讲,涉及基于深度学习的通信协议识别方法。
背景技术
随着信息技术的高速发展,网络通信成为人们日常生活的主要交流方式,随之而来的则是木马、入侵等网络信息安全问题,计算机网络的完整性、安全性、保密性均受到了非常大的挑战。虽然传统的网络安全技术能够解决一部分问题,但是对于网络管理员或者用户来说,能够准确地识别通信数据所使用的协议具有重要的意义,其是研究区分服务、入侵检测、流量监控以及分析用户行为的前提和基础。
目前,网络协议识别技术得到了快速的发展和应用,主要包括基于端口、负载以及协议行为进行识别,其识别对象主要集中在应用层协议。但是随着网络协议种类的不断增加,协议规范的不断变化,加上网络代理和协议加密等技术的应用,使得网络协议的识别更加困难,传统的单一识别技术已经无法有效地识别众多的协议。随着通信技术的日益发展,通信协议越来越复杂,信号环境也越来越复杂。因此找到一种高效可持续的协议识别技术成为研究热点。
深度学习是机器学习研究的一个新的领域,它模仿人脑的机制来对数据进行解释,在语言识别和计算机识别等多个应用领域的研究中取得了突破性的进展。将深度学习与通信协议识别结合起来,使得信号检测设备能够自适应的学习和识别出通信协议的类型,对提高通信协议识别效率,增加其稳定性,对于网络安全有着重要的作用。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性。
卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中,通常包含若干个特征平面(featureMap),每个特征平面由一些矩形排列的的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。子采样也叫做池化(pooling),通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度,减少了模型的参数。本发明设计了基于卷积神经网络的协议识别模型,在协议识别上达到了很好的效果。
发明内容
为克服现有技术的不足,本发明旨在利用卷积神经网络强大的特征提取能力,提出一种高效准确的协议识别模型。该模型从数据集的采集,到模型训练都无需手工设计和参与。训练后的卷积神经模型对于通信协议的识别有很好的性能,识别率可达95%以上。为此,本发明采用的技术方案是,基于深度学习的通信协议识别方法,构建卷积神经模型用于通信协议识别,卷积神经模型包三个卷积层和一个长短期记忆技术LSTM以及一个输出层;构建训练数据集和测试数据集,并且随机调整数据集的顺序保证卷积神经模型的鲁棒性,训练卷积神经模型并且保存卷积神经模型结构和参数;二维协议信号处理成2×400的大小输入卷积神经模型,实现通信协议的自动识别。
使用NI矢量分析仪产生了十种协议信号作为数据集,包括调频信号FM、全球移动通信***信号GSM、长期演进***信号LTE(Long Term Evolution)、宽带码分多址信号WCDMA、WLAN-a/g/j/p、WLAN-ac、WLAN-b/g、WLAN-g、WLAN-n、蓝牙信号bluetooth;WLAN为无线局域网信号,存储过程中的前期训练模型需要给每个样本添加标签,采用Python的字典存储结构,字典键对应标签,字典的值对应M个样本,一共40000个样本,每个样本存储形式为2×400的IQ数据,将20000个样本随机打乱作为训练集,余下的20000个样本随机打乱作为测试集。
模型的每个卷积层采用rectified linear作为激活函数;采用softmax作为最后一层的激活函数。模型的目标函数为交叉熵函数,表达式如下:
H(p,q)=∑xp(x)logq(x) (1)
式中p,q均为概率函数,x为自变量。
采用dropout技术防止过拟合,在每层后面加上dropout层,并设置dropout为0.5;采用前向传播和反向传播技术来训练模型,更新权重,前向传播和反向传播结合使更新结果更合理;采用Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,Adam(Adaptive Moment Estimation)算法即自适应时刻估计方法,能计算每个参数的自适应学习率;采用批训练的方式,批量大小batch size为256,模型在GTX1080的GPU上训练30个恒定相位延迟epoch。
本发明的特点及有益效果是:
本发明的深度学习模型可以很好地解决通信协议的识别问题,并且结果证明训练后的模型对不同有很高的识别精度。图2展示了模型的训练过程,可以看到,模型在5个epoch内迅速收敛,在15个epoch后模型已趋于稳定。
本实验产生了不同类型的10个数据集,用同样的模型和实验条件下,分别进行训练。再用测试集进行测试,结果如图3所示,可以看到,模型可以达到95%以上的识别准确率。
附图说明:
图1模型识别流程图。
图2深度学习模型。
图3模型训练loss。
图4不同协议类型的识别性能。
具体实施方式
本发明利用卷积神经网络强大的特征提取能力,设计一种高效准确的协议识别模型。该模型从数据集的采集,到模型训练都无需手工设计和参与。训练后的卷积神经模型对于通信协议的识别有很好的性能,识别率可达95%以上。本发明通过如下步骤得以实现:
(1)模型结构
本发明的实现模型如图1所示。
模型包三个卷积层(Conv)和一个长短期记忆技术(LSTM)以及一个输出层(Output),其中协议信号(二维)处理成2×400的大小输入网络。三个卷积层分别包含256,128,80个卷积核,第一个卷积层卷积核的大小为2×7,第二个卷积层卷积核大小为1×5,第三个卷积层卷积核大小为1×3,第三个卷积层和第一个卷积层都会连接到LSTM层,LSTM进行识别分类。
(2)数据集产生
本发明使用NI矢量分析仪产生了10通信协议信号
本发明使用NI矢量分析仪产生了十种协议信号作为数据集,包括FM,GSM,LTE,WCDMA,WLAN-a/g/j/p,WLAN-ac,WLAN-b/g,WLAN-g,WLAN-n,bluetooth等。预先编好相应程序,运行不同的程序,便可得到不同的协议信号。
存储过程中的前期训练模型需要给每个样本添加标签,比如FM,LTE等,采用Python的字典存储结构,字典键对应标签(LTE等),字典的值对应M个样本。一共40000个样本,每个样本存储形式为2×400的IQ数据。将20000个样本随机打乱作为训练集,余下的20000个样本随机打乱作为测试集。
(3)模型训练
模型的每个卷积层采用rectified linear(ReLU)作为激活函数,相较于sigmoid和tanh函数,ReLU对于SGD的收敛有巨大的加速作用。这可能是由它的线性、非饱和的特性导致的。ReLU只需要一个阈值就可以得到激活值,而不用去算一大堆复杂的(指数)运算。采用softmax作为最后一层的激活函数。模型的目标函数为交叉熵函数,表达式如下:
H(p,q)=∑xp(x)logq(x) (1)
为了避免过拟合,本模型采用dropout技术防止过拟合,dropout是一个同正则化完全不同的技术,dropout并不会修改代价函数而是修改深度网络本身。在每层后面加上dropout层,设置dropout为0.5。采用前向传播和反向传播技术来训练模型,更新权重。本发明采用了优化的随机梯度下降(SGD)方法--Adam(Adaptive Moment Estimation)。Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学***稳。采用批训练的方式,batch size(批量大小)为256,模型在GTX1080的GPU上训练30个epoch。
本发明的一个实例中步骤如下:
(1)基于卷积神经网络强大的特征提取能力,利用原始IQ数据训练一个鲁棒的三层卷积神经网络模型,无需手工提取信号特征。其中需要选择合适的超参数(如卷积核,激活函数,目标函数等)以得到最优的网络模型和最优的参数更新策略。
(2)使用NI矢量分析仪产生了十种协议信号作为数据集,包括FM,GSM,LTE,WCDMA,WLAN-a/g/j/p,WLAN-ac,WLAN-b/g,WLAN-g,WLAN-n,bluetooth等。产生数据集时注意数据的完备性,避免模型过拟合。
(3)构建训练数据集和测试数据集,并且随机调整数据集的顺序保证模型的鲁棒性。训练模型并且保存模型结构和参数。
(4)采集信号,加载(3)中保存的模型即可完成协议的自动识别,基于此可构建实时的协议认知***。

Claims (4)

1.一种基于深度学习的通信协议识别方法,其特征是,构建卷积神经模型用于通信协议识别,卷积神经模型包三个卷积层和一个长短期记忆技术LSTM以及一个输出层;构建训练数据集和测试数据集,并且随机调整数据集的顺序保证卷积神经模型的鲁棒性,训练卷积神经模型并且保存卷积神经模型结构和参数;二维协议信号处理成2×400的大小输入卷积神经模型,实现通信协议的自动识别。
2.如权利要求1所述的基于深度学习的通信协议识别方法,其特征是,使用NI矢量分析仪产生了十种协议信号作为数据集,包括调频信号FM、全球移动通信***信号GSM、长期演进***信号LTE(Long Term Evolution)、宽带码分多址信号WCDMA、WLAN-a/g/j/p、WLAN-ac、WLAN-b/g、WLAN-g、WLAN-n、蓝牙信号bluetooth;WLAN为无线局域网信号,存储过程中的前期训练模型需要给每个样本添加标签,采用Python的字典存储结构,字典键对应标签,字典的值对应M个样本,一共40000个样本,每个样本存储形式为2×400的IQ数据,将20000个样本随机打乱作为训练集,余下的20000个样本随机打乱作为测试集。
3.如权利要求1所述的基于深度学习的通信协议识别方法,其特征是,模型的每个卷积层采用rectified linear作为激活函数;采用softmax作为最后一层的激活函数。模型的目标函数为交叉熵函数,表达式如下:
H(p,q)=∑xp(x)logq(x) (1)
式中p,q均为概率函数,x为自变量。
4.如权利要求1所述的基于深度学习的通信协议识别方法,其特征是,采用dropout技术防止过拟合,在每层后面加上dropout层,并设置dropout为0.5;采用前向传播和反向传播技术来训练模型,更新权重,前向传播和反向传播结合使更新结果更合理;采用Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,Adam(Adaptive MomentEstimation)算法即自适应时刻估计方法,能计算每个参数的自适应学习率;采用批训练的方式,批量大小batch size为256,模型在GTX1080的GPU上训练30个恒定相位延迟epoch。
CN201810401023.1A 2018-04-28 2018-04-28 基于深度学习的通信协议识别方法 Pending CN108712397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810401023.1A CN108712397A (zh) 2018-04-28 2018-04-28 基于深度学习的通信协议识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810401023.1A CN108712397A (zh) 2018-04-28 2018-04-28 基于深度学习的通信协议识别方法

Publications (1)

Publication Number Publication Date
CN108712397A true CN108712397A (zh) 2018-10-26

Family

ID=63868772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810401023.1A Pending CN108712397A (zh) 2018-04-28 2018-04-28 基于深度学习的通信协议识别方法

Country Status (1)

Country Link
CN (1) CN108712397A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861864A (zh) * 2019-02-11 2019-06-07 华侨大学 一种基于lstm网络的mac协议识别方法
CN110856178A (zh) * 2019-11-05 2020-02-28 天津大学 一种基于无线网络物理层iq信号的行为识别方法
CN111553186A (zh) * 2020-03-05 2020-08-18 中国电子科技集团公司第二十九研究所 一种基于深度长短时记忆网络的电磁信号识别方法
CN112367215A (zh) * 2020-09-21 2021-02-12 杭州安恒信息安全技术有限公司 基于机器学习的网络流量协议识别方法和装置
WO2021103420A1 (zh) * 2019-11-30 2021-06-03 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321523A1 (en) * 2015-04-30 2016-11-03 The Regents Of The University Of California Using machine learning to filter monte carlo noise from images
CN106846306A (zh) * 2017-01-13 2017-06-13 重庆邮电大学 一种超声图像自动描述方法和***
CN107203809A (zh) * 2017-04-20 2017-09-26 华中科技大学 一种基于Keras的深度学习自动化调参方法及***
CN107220606A (zh) * 2017-05-22 2017-09-29 西安电子科技大学 基于一维卷积神经网络的雷达辐射源信号的识别方法
CN107682216A (zh) * 2017-09-01 2018-02-09 南京南瑞集团公司 一种基于深度学习的网络流量协议识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321523A1 (en) * 2015-04-30 2016-11-03 The Regents Of The University Of California Using machine learning to filter monte carlo noise from images
CN106846306A (zh) * 2017-01-13 2017-06-13 重庆邮电大学 一种超声图像自动描述方法和***
CN107203809A (zh) * 2017-04-20 2017-09-26 华中科技大学 一种基于Keras的深度学习自动化调参方法及***
CN107220606A (zh) * 2017-05-22 2017-09-29 西安电子科技大学 基于一维卷积神经网络的雷达辐射源信号的识别方法
CN107682216A (zh) * 2017-09-01 2018-02-09 南京南瑞集团公司 一种基于深度学习的网络流量协议识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861864A (zh) * 2019-02-11 2019-06-07 华侨大学 一种基于lstm网络的mac协议识别方法
CN109861864B (zh) * 2019-02-11 2022-02-22 华侨大学 一种基于lstm网络的mac协议识别方法
CN110856178A (zh) * 2019-11-05 2020-02-28 天津大学 一种基于无线网络物理层iq信号的行为识别方法
WO2021103420A1 (zh) * 2019-11-30 2021-06-03 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN111553186A (zh) * 2020-03-05 2020-08-18 中国电子科技集团公司第二十九研究所 一种基于深度长短时记忆网络的电磁信号识别方法
CN112367215A (zh) * 2020-09-21 2021-02-12 杭州安恒信息安全技术有限公司 基于机器学习的网络流量协议识别方法和装置
CN112367215B (zh) * 2020-09-21 2022-04-26 杭州安恒信息安全技术有限公司 基于机器学习的网络流量协议识别方法和装置

Similar Documents

Publication Publication Date Title
CN108712397A (zh) 基于深度学习的通信协议识别方法
CN110379506B (zh) 针对心电图数据使用二值化神经网络的心律不齐检测方法
Khan et al. Deep learning for apple diseases: classification and identification
CN108345846A (zh) 一种基于卷积神经网络的人体行为识别方法及识别***
CN109902546A (zh) 人脸识别方法、装置及计算机可读介质
CN108388876A (zh) 一种图像识别方法、装置以及相关设备
CN107358293A (zh) 一种神经网络训练方法及装置
CN114611705A (zh) 数据处理方法、机器学习的训练方法及相关装置、设备
CN110245720B (zh) 一种基于深度学习的柑橘病虫害智能诊断方法及***
CN110502987A (zh) 一种基于深度学习的植物病虫害识别方法及***
CN107609638A (zh) 一种基于线性解码器和插值采样优化卷积神经网络的方法
CN108108807A (zh) 学习型图像处理方法、***及服务器
CN107423727B (zh) 基于神经网络的人脸复杂表情识别方法
CN109635833A (zh) 一种基于云平台和模型智能推荐的图像识别方法及***
CN109902912A (zh) 一种基于性格特征的个性化图像美学评价方法
CN109086768A (zh) 卷积神经网络的语义图像分割方法
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN105046272A (zh) 一种基于简洁非监督式卷积网络的图像分类方法
CN114333074B (zh) 基于动态轻量高分辨率网络的人体姿态估计方法
CN109977394A (zh) 文本模型训练方法、文本分析方法、装置、设备及介质
CN112395905A (zh) 一种森林病虫害实时检测方法、***及模型建立方法
Gao et al. A mobile application for plant recognition through deep learning
CN110516537A (zh) 一种基于自步学习的人脸年龄估计方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及***
CN107480720A (zh) 人体姿态模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181026